0%

在 LLM 中一大应用场景就是进行多轮对话,发起的第二轮对话大多情况下是基于第一轮对话的结果进行的。因此,完全可以缓存第一轮对话的结果,避免重复计算 KV Cache,以加速第二轮 TTFT 时间。

更进一步,在非对话场景可以查找输入的最长公共前缀序列,以复用 KV Cache。

主要论文:https://arxiv.org/pdf/2312.07104

阅读全文 »

对于两种场景下介绍 LLM 的 推理加速方法

长输入,短输出

长输出但输出 token 有限

阅读全文 »