2026/3/520 min笔记LLMInferenceSpeculative Decoding
万字长文:LLM 高阶解码策略与推理加速范式全景深度解析
从概率分布干预到系统级软硬件协同,深度拆解 DoLa、CFG、投机解码家族 (EAGLE/SSD) 以及多词预测 (Medusa/MTPC) 的数学原理与工程实现。
阅读全文
All models are wrong, but some are useful
* 评论区仅开放给已订阅邮箱,订阅身份将用于评论登录。
探索研究笔记与实验记录
从概率分布干预到系统级软硬件协同,深度拆解 DoLa、CFG、投机解码家族 (EAGLE/SSD) 以及多词预测 (Medusa/MTPC) 的数学原理与工程实现。
从 DAPO、GSPO、LUSPO 到 Dr.GRPO、GMPO、PMPO,一文拆解 GRPO 变体的核心动机、目标函数与工程改造路径。
在算力与标注数据双重受限下,On-Policy Distillation 如何用 Reverse KL、γ=0 与在线探索实现高效后训练。
Greedy、Beam、Top-K、Top-P、Min-P、Contrastive 与 Constrained Decoding 的底层机制与 PyTorch 实现全景拆解。
从 LoRA、LoRA+、PiSSA、DoRA 到 TinyLoRA 与 LoRA-Mixer,一文看懂参数高效微调的核心机制与工程取舍。
各大顶级实验室爆改 DPO出了一套极其华丽的招式表
在探讨大语言模型(LLM)的对齐算法之前,我们需要先理清模型训练的宏观图景。大模型的训练通常分为三个阶段:预训练(Pre-training)、指令微调(SFT)和人类偏好对齐(RLHF/Alignment)。