在 LLM 中一大应用场景就是进行多轮对话,发起的第二轮对话大多情况下是基于第一轮对话的结果进行的。因此,完全可以缓存第一轮对话的结果,避免重复计算 KV Cache,以加速第二轮 TTFT 时间。
更进一步,在非对话场景可以查找输入的最长公共前缀序列,以复用 KV Cache。
在 LLM 中一大应用场景就是进行多轮对话,发起的第二轮对话大多情况下是基于第一轮对话的结果进行的。因此,完全可以缓存第一轮对话的结果,避免重复计算 KV Cache,以加速第二轮 TTFT 时间。
更进一步,在非对话场景可以查找输入的最长公共前缀序列,以复用 KV Cache。
记录开发 tLLM 中后端相关的问题。
记录开发 tLLM 中通信相关的问题。
记录 LLM 在推理上的理论计算公式
从知识蒸馏的概念出发,介绍 LLM 中的知识蒸馏
对比不同硬件下,LLM 的推理速度
对比 MoE 中负载均衡 Loss 的实现方式,主要有跨层和非跨层两种实现
LLM 在宽度上的稀疏性可以通过 MoE 这种架构来优化。而深度上也具备稀疏性,故而可以进行裁剪。
MoE 自动选择专家个数