minimind从零理解llm训练

不再黑盒训练 — 通过对照实验彻底理解 LLM 的每个设计选择

🚀 立即开始

📖 学习路线

💻 查看代码

💡 为什么选择这个教程？

🎯 告别"跑通就行"的盲目训练

你有没有遇到过：按教程跑通了代码，但完全不理解为什么？这个教程用对照实验告诉你：不这样设计会发生什么，其他方案为什么不行。

🔬 每个设计都有实验支撑

不再纸上谈兵 — 每个模块都有可执行的对比实验，亲眼看到不同设计的实际效果。理论 + 实践，真正理解 LLM 训练的每个细节。

💻 学习实验低门槛

学习阶段实验：基于 TinyShakespeare (1MB) 等微型数据集，在 CPU 上几分钟即可运行，无需 GPU。 完整训练：如果要从零训练完整模型，需要 GPU（原 MiniMind 项目：NVIDIA 3090 单卡，约 2 小时）。

minimind从零理解llm训练

彻底理解 LLM 训练原理

原理优先

对照实验

模块化学习

学习实验低门槛

根据时间和目标选择合适的学习路线

快速体验

系统学习

深度掌握

从基础组件到完整架构

归一化

位置编码

注意力机制

前馈网络

残差连接

Transformer Block

快速开始

梯度消失

RoPE 编码

Attention

💡 为什么选择这个教程？

🔗 相关资源

minimind从零理解llm训练

彻底理解 LLM 训练原理

原理优先

对照实验

模块化学习

学习实验低门槛

根据时间和目标选择合适的学习路线

快速体验

系统学习

深度掌握

从基础组件到完整架构

归一化

位置编码

注意力机制

前馈网络

残差连接

Transformer Block

快速开始

梯度消失

RoPE 编码

Attention

💡 为什么选择这个教程？ ​

🔗 相关资源 ​

💡 为什么选择这个教程？

🔗 相关资源