MiniMind训练原理教案
不再黑盒训练 — 通过对照实验彻底理解 LLM 的每个设计选择
告别"跑通就行"的盲目训练 — 通过对照实验,深入每个设计选择背后的原理
不再黑盒训练 — 深入理解每个设计背后的原理和权衡,知其然更知其所以然
不凭空说教 — 用可执行实验证明:不这样设计会发生什么?眼见为实
从归一化到 Transformer — 6 个独立模块,渐进式掌握,由浅入深
基于微型数据集,CPU 上几分钟即可运行,快速验证理论,降低学习成本
模块化学习路径 — 每个模块独立完整,可按任意顺序学习
基础组件 — 掌握 Transformer 的核心模块
架构组装 — 将基础组件组合成完整 Transformer
只需 30 分钟,三个实验,彻底改变你对 LLM 训练的理解
# 1. 克隆仓库
git clone https://github.com/joyehuang/minimind-notes.git
cd minimind-notes
# 2. 激活虚拟环境(如果已有)
source venv/bin/activate
# 3. 实验1:为什么需要归一化?
cd modules/01-foundation/01-normalization/experiments
python exp1_gradient_vanishing.py
# 4. 实验2:为什么用 RoPE 位置编码?
cd ../../02-position-encoding/experiments
python exp1_rope_basics.py
# 5. 实验3:Attention 如何工作?
cd ../../03-attention/experiments
python exp1_attention_basics.py
可视化深层网络的梯度流动问题
旋转位置编码的数学原理演示
注意力权重的计算过程可视化
🎯 告别"跑通就行"的盲目训练
你有没有遇到过:按教程跑通了代码,但完全不理解为什么?这个教程用对照实验告诉你:不这样设计会发生什么,其他方案为什么不行。
🔬 每个设计都有实验支撑
不再纸上谈兵 — 每个模块都有可执行的对比实验,亲眼看到不同设计的实际效果。理论 + 实践,真正理解 LLM 训练的每个细节。
💻 学习实验低门槛
学习阶段实验:基于 TinyShakespeare (1MB) 等微型数据集,在 CPU 上几分钟即可运行,无需 GPU。 完整训练:如果要从零训练完整模型,需要 GPU(原 MiniMind 项目:NVIDIA 3090 单卡,约 2 小时)。