Wnma's Blogs

0%

LLM的推理加速

发表于 2024-06-15 更新于 2024-09-08 分类于 Note

对于两种场景下介绍 LLM 的推理加速方法

长输入，短输出

长输出但输出 token 有限

阅读全文 »

LLM 深度的”稀疏性“

发表于 2024-03-28 更新于 2024-09-08 分类于 PaperReading

LLM 在宽度上的稀疏性可以通过 MoE 这种架构来优化。而深度上也具备稀疏性，故而可以进行裁剪。

阅读全文 »

MoE 自动选择专家个数 from Top-k to Top-p

发表于 2024-01-24 更新于 2025-08-24 分类于 Note

MoE 自动选择专家个数

阅读全文 »

用 Cpp 写 PyTorch 的插件

发表于 2023-12-03 更新于 2024-06-15 分类于 DeepLearning

从零开始，用 Cpp 写 PyTorch 的插件，包括 CPU 和 GPU 的版本。

阅读全文 »

温度可视化

发表于 2023-12-03 更新于 2024-06-15 分类于 Visualization

时序数据，使用简单的 HTML 对其进行展示。

阅读全文 »

Python 自动导入包

发表于 2023-12-03 更新于 2024-06-15 分类于 Python

在一个文件夹中，有很多个 Python 文件，每个文件都有若干重名函数，需要一一导入。这个时候，可以用 Python 的自动导入包来实现。

阅读全文 »

树莓派折腾记录

发表于 2023-11-26 更新于 2024-06-15 分类于 Raspberry

使用树莓派的一些记录

阅读全文 »

待整理的脚本（持续更新ing）

发表于 2023-11-26 更新于 2025-09-06 分类于 Linux

记录一些常用/重要，但容易忘记的命令

阅读全文 »

树莓派控制手机自动拍照

发表于 2023-11-26 更新于 2024-06-15 分类于 Raspberry

树莓派使用 Python 控制手机上的 DroidCam 自动拍照

阅读全文 »

vLLM 的 PageAttention

发表于 2023-11-24 更新于 2025-02-09 分类于 Note

介绍 vLLM 的 PageAttention 加速

阅读全文 »