笔记2026/2/2318 min大模型字斟句酌的暗箱操作:Decoding 算法全景硬核拆解Greedy、Beam、Top-K、Top-P、Min-P、Contrastive 与 Constrained Decoding 的底层机制与 PyTorch 实现全景拆解。LLMDecodingSampling
笔记2026/2/2318 min参数高效微调的终极炼丹术:从 LoRA 到它的“魔改”宇宙从 LoRA、LoRA+、PiSSA、DoRA 到 TinyLoRA 与 LoRA-Mixer,一文看懂参数高效微调的核心机制与工程取舍。LoRAPEFTFine-tuning
笔记2026/2/1922 min人类偏好的刻度:PPO、DPO 与 GRPO 极简拆解在探讨大语言模型(LLM)的对齐算法之前,我们需要先理清模型训练的宏观图景。大模型的训练通常分为三个阶段:预训练(Pre-training)、指令微调(SFT)和人类偏好对齐(RLHF/Alignment)。Reinforcement Learning