● Live
v3.0

混沌有序

Organized Chaos

0
文章
0K
读者

订阅周报

All models are wrong, but some are useful

* 评论区仅开放给已订阅邮箱,订阅身份将用于评论登录。

About

about.sh
$ cat about.txt

Contact

Blogger avatar

梅鼎琰🔥

mmy12580@gmail.com

最新文章

探索研究笔记与实验记录

2026/3/520 min笔记LLMInferenceSpeculative Decoding

万字长文:LLM 高阶解码策略与推理加速范式全景深度解析

从概率分布干预到系统级软硬件协同,深度拆解 DoLa、CFG、投机解码家族 (EAGLE/SSD) 以及多词预测 (Medusa/MTPC) 的数学原理与工程实现。

阅读全文
2026/2/2524 min笔记RLHFGRPOPost-training

后 GRPO 时代:长 CoT 的爆发与“对齐”新挑战

从 DAPO、GSPO、LUSPO 到 Dr.GRPO、GMPO、PMPO,一文拆解 GRPO 变体的核心动机、目标函数与工程改造路径。

阅读全文
2026/2/2516 min笔记LLMDistillationPost-training

资源受限下的破局者:On-Policy Distillation

在算力与标注数据双重受限下,On-Policy Distillation 如何用 Reverse KL、γ=0 与在线探索实现高效后训练。

阅读全文
2026/2/2318 min笔记LLMDecodingSampling

大模型字斟句酌的暗箱操作:Decoding 算法全景硬核拆解

Greedy、Beam、Top-K、Top-P、Min-P、Contrastive 与 Constrained Decoding 的底层机制与 PyTorch 实现全景拆解。

阅读全文
2026/2/2218 min笔记LoRAPEFTFine-tuning

参数高效微调的终极炼丹术:从 LoRA 到它的“魔改”宇宙

从 LoRA、LoRA+、PiSSA、DoRA 到 TinyLoRA 与 LoRA-Mixer,一文看懂参数高效微调的核心机制与工程取舍。

阅读全文
2026/2/2120 min笔记Reinforcement Learning

后 DPO 时代的百家争鸣:如何优雅地给大模型“立规矩“

各大顶级实验室爆改 DPO出了一套极其华丽的招式表

阅读全文
2026/2/2022 min笔记Reinforcement Learning

人类偏好的刻度:PPO、DPO 与 GRPO 极简拆解

在探讨大语言模型(LLM)的对齐算法之前,我们需要先理清模型训练的宏观图景。大模型的训练通常分为三个阶段:预训练(Pre-training)、指令微调(SFT)和人类偏好对齐(RLHF/Alignment)。

阅读全文