对于两种场景下介绍 LLM 的 推理加速方法
长输入,短输出
长输出但输出 token 有限
LLM 在宽度上的稀疏性可以通过 MoE 这种架构来优化。而深度上也具备稀疏性,故而可以进行裁剪。
MoE 自动选择专家个数
时序数据,使用简单的 HTML 对其进行展示。
在一个文件夹中,有很多个 Python 文件,每个文件都有若干重名函数,需要一一导入。这个时候,可以用 Python 的自动导入包来实现。
使用树莓派的一些记录
记录一些常用/重要,但容易忘记的命令
树莓派使用 Python 控制手机上的 DroidCam 自动拍照