从标准的自回归解码开始,介绍 EAGLE 系列(EAGLE、EAGLE-2和EAGLE-3)的演进历程。
Token-Level 的 KVCache 复用
发表于
更新于
在 LLM 中一大应用场景就是进行多轮对话,发起的第二轮对话大多情况下是基于第一轮对话的结果进行的。因此,完全可以缓存第一轮对话的结果,避免重复计算 KV Cache,以加速第二轮 TTFT 时间。
更进一步,在非对话场景可以查找输入的最长公共前缀序列,以复用 KV Cache。
主要论文:https://arxiv.org/pdf/2312.07104
together-LLM 跨机后端开发
发表于
更新于
记录开发 tLLM 中后端相关的问题。
together-LLM 跨机通信开发
发表于
更新于
记录开发 tLLM 中通信相关的问题。
LLM的推理相关计算公式
记录 LLM 在推理上的理论计算公式
Knowledge Distillation in LLM
从知识蒸馏的概念出发,介绍 LLM 中的知识蒸馏
LLM 不同硬件推理速度对比
对比不同硬件下,LLM 的推理速度
MoE中负载均衡Loss实现
发表于
分类于
Note
对比 MoE 中负载均衡 Loss 的实现方式,主要有跨层和非跨层两种实现
LLM的推理加速
LLM 深度的”稀疏性“
LLM 在宽度上的稀疏性可以通过 MoE 这种架构来优化。而深度上也具备稀疏性,故而可以进行裁剪。