Wnma's Blogs

Token-Level 的 KVCache 复用

发表于 2025-01-25 更新于 2025-02-09

在 LLM 中一大应用场景就是进行多轮对话，发起的第二轮对话大多情况下是基于第一轮对话的结果进行的。因此，完全可以缓存第一轮对话的结果，避免重复计算 KV Cache，以加速第二轮 TTFT 时间。

更进一步，在非对话场景可以查找输入的最长公共前缀序列，以复用 KV Cache。

发表于 2024-11-15 更新于 2025-02-09

记录开发 tLLM 中后端相关的问题。

发表于 2024-10-21 更新于 2025-02-09

记录开发 tLLM 中通信相关的问题。

发表于 2024-09-05 更新于 2024-09-08 分类于 Note

记录 LLM 在推理上的理论计算公式

发表于 2024-08-08 更新于 2024-09-14 分类于 PaperReading

从知识蒸馏的概念出发，介绍 LLM 中的知识蒸馏

发表于 2024-07-21 更新于 2024-07-24 分类于 Note

对比不同硬件下，LLM 的推理速度

发表于 2024-06-15 分类于 Note

对比 MoE 中负载均衡 Loss 的实现方式，主要有跨层和非跨层两种实现

发表于 2024-06-15 更新于 2024-09-08 分类于 Note

对于两种场景下介绍 LLM 的推理加速方法

长输入，短输出

长输出但输出 token 有限

发表于 2024-03-28 更新于 2024-09-08 分类于 PaperReading

LLM 在宽度上的稀疏性可以通过 MoE 这种架构来优化。而深度上也具备稀疏性，故而可以进行裁剪。

发表于 2024-01-24 更新于 2025-08-24 分类于 Note

MoE 自动选择专家个数