本文介绍 Qwen3.5 在注意力机制上的两大变化:Gated Softmax Attention(Q/K Norm + Gate)与线性复杂度的 Gated DeltaNet。文中说明二者混合比例(每四层中三层为 DeltaNet)、从标准 Attention 到线性 Attention 的数学推导、DeltaNet 的状态递推与门控设计,以及和 Mamba 等工作的联系,便于理解 Qwen3.5 在长序列与推理效率上的取舍。
Bash 操作查询
Bash 操作查询
Git 操作查询
Git 操作查询
LLM的推理加速-STAND
发表于
分类于
Note
Accelerated Test-Time Scaling with Model-Free Speculative Sampling
STAND(STochastic Adaptive N-gram Drafting),无模型投机解码
LLM的推理加速-投机解码
发表于
分类于
Note
LLM的推理加速-Prompt Lookup
发表于
分类于
Note
LIMA 阅读笔记
LLM 复杂推理的来源分析II
LLM 复杂推理的来源分析I
VLM的识别图片能力
以模型视角对比不同模态输入的效果