混沌有序

最新文章

探索研究笔记与实验记录

从概率分布干预到系统级软硬件协同，深度拆解 DoLa、CFG、投机解码家族 (EAGLE/SSD) 以及多词预测 (Medusa/MTPC) 的数学原理与工程实现。

从 DAPO、GSPO、LUSPO 到 Dr.GRPO、GMPO、PMPO，一文拆解 GRPO 变体的核心动机、目标函数与工程改造路径。

在算力与标注数据双重受限下，On-Policy Distillation 如何用 Reverse KL、γ=0 与在线探索实现高效后训练。

Greedy、Beam、Top-K、Top-P、Min-P、Contrastive 与 Constrained Decoding 的底层机制与 PyTorch 实现全景拆解。

从 LoRA、LoRA+、PiSSA、DoRA 到 TinyLoRA 与 LoRA-Mixer，一文看懂参数高效微调的核心机制与工程取舍。

各大顶级实验室爆改 DPO出了一套极其华丽的招式表

在探讨大语言模型（LLM）的对齐算法之前，我们需要先理清模型训练的宏观图景。大模型的训练通常分为三个阶段：预训练（Pre-training）、指令微调（SFT）和人类偏好对齐（RLHF/Alignment）。