Skip to content

MiniMind训练原理教案

不再黑盒训练 — 通过对照实验彻底理解 LLM 的每个设计选择

核心特点

彻底理解 LLM 训练原理

告别"跑通就行"的盲目训练 — 通过对照实验,深入每个设计选择背后的原理

原理优先

不再黑盒训练 — 深入理解每个设计背后的原理和权衡,知其然更知其所以然

对照实验

不凭空说教 — 用可执行实验证明:不这样设计会发生什么?眼见为实

模块化学习

从归一化到 Transformer — 6 个独立模块,渐进式掌握,由浅入深

学习实验低门槛

基于微型数据集,CPU 上几分钟即可运行,快速验证理论,降低学习成本

选择你的学习路径

根据时间和目标选择合适的学习路线

不同路径适合不同需求 — 从快速体验到深度掌握,循序渐进

最受欢迎

快速体验

用 3 个实验快速理解 LLM 训练的核心设计选择,适合初次接触

30 分钟
开始学习
系统全面

系统学习

完整掌握 Transformer 的所有基础组件,适合系统学习

6 小时
开始学习
终极挑战

深度掌握

从零开始完整训练你的第一个 LLM,适合深入研究

30+ 小时
开始学习

快速开始

只需 30 分钟,三个实验,彻底改变你对 LLM 训练的理解

Terminal

# 1. 克隆仓库

git clone https://github.com/joyehuang/minimind-notes.git

cd minimind-notes

# 2. 激活虚拟环境(如果已有)

source venv/bin/activate

# 3. 实验1:为什么需要归一化?

cd modules/01-foundation/01-normalization/experiments

python exp1_gradient_vanishing.py

# 4. 实验2:为什么用 RoPE 位置编码?

cd ../../02-position-encoding/experiments

python exp1_rope_basics.py

# 5. 实验3:Attention 如何工作?

cd ../../03-attention/experiments

python exp1_attention_basics.py

📊

梯度消失

可视化深层网络的梯度流动问题

🔄

RoPE 编码

旋转位置编码的数学原理演示

🎯

Attention

注意力权重的计算过程可视化

💡 为什么选择这个教程?

🎯 告别"跑通就行"的盲目训练

你有没有遇到过:按教程跑通了代码,但完全不理解为什么?这个教程用对照实验告诉你:不这样设计会发生什么,其他方案为什么不行。

🔬 每个设计都有实验支撑

不再纸上谈兵 — 每个模块都有可执行的对比实验,亲眼看到不同设计的实际效果。理论 + 实践,真正理解 LLM 训练的每个细节。

💻 学习实验低门槛

学习阶段实验:基于 TinyShakespeare (1MB) 等微型数据集,在 CPU 上几分钟即可运行,无需 GPU。 完整训练:如果要从零训练完整模型,需要 GPU(原 MiniMind 项目:NVIDIA 3090 单卡,约 2 小时)。

🔗 相关资源

📦 原项目jingyaogong/minimind

🗺️ 学习路线完整路线图

💻 代码示例可执行示例

📝 学习笔记学习日志 · 知识库

基于 MiniMind 项目的学习笔记