在 LLM 中一大应用场景就是进行多轮对话,发起的第二轮对话大多情况下是基于第一轮对话的结果进行的。因此,完全可以缓存第一轮对话的结果,避免重复计算 KV Cache,以加速第二轮 TTFT 时间。
更进一步,在非对话场景可以查找输入的最长公共前缀序列,以复用 KV Cache。
主要论文:https://arxiv.org/pdf/2312.07104
在 LLM 中一大应用场景就是进行多轮对话,发起的第二轮对话大多情况下是基于第一轮对话的结果进行的。因此,完全可以缓存第一轮对话的结果,避免重复计算 KV Cache,以加速第二轮 TTFT 时间。
更进一步,在非对话场景可以查找输入的最长公共前缀序列,以复用 KV Cache。
主要论文:https://arxiv.org/pdf/2312.07104
记录开发 tLLM 中后端相关的问题。
记录开发 tLLM 中通信相关的问题。
记录 LLM 在推理上的理论计算公式
从知识蒸馏的概念出发,介绍 LLM 中的知识蒸馏
对比不同硬件下,LLM 的推理速度
对比 MoE 中负载均衡 Loss 的实现方式,主要有跨层和非跨层两种实现
LLM 在宽度上的稀疏性可以通过 MoE 这种架构来优化。而深度上也具备稀疏性,故而可以进行裁剪。