# 有个 GitHub 仓库路子相当野——完全从零手搓了一个 GPT，没调用任何高级封装库。Attention、多头机制、前馈网络、Embedding、残差连...
Canonical: https://social-archive.org/yena/05X6b4q8k3
Original URL: https://x.com/XAMTO_AI/status/2070831004395135349
Author: Amto
Platform: x
## Content
有个 GitHub 仓库路子相当野——完全从零手搓了一个 GPT，没调用任何高级封装库。Attention、多头机制、前馈网络、Embedding、残差连接、Layer Norm，这些模块怎么拼成完整模型，代码全摊开给你看。而且不止是模型，整条链路都给你备齐了： 1️⃣ 数据下载、预处理、训练、生成，全流程串好 2️⃣ 训练数据来自 The Pile，涵盖 22 个来源共 825GB 3️⃣ 用 tiktoken 做分词，存成 HDF5 格式 4️⃣ 预训练之后还附带了 SFT 和 RLHF 的实现路径 改几个配置参数就能调整模型大小。参数量跑到 1300 万左右，模型就已经开始拼对语法和单词了。白嫖 Colab 或 Kaggle 的 T4 免费显卡，练一天就能看到成果。 真想搞懂底层原理、不想一辈子当调包侠，从这份代码入门是最干净的起点。 🔗https://github.com/FareedKhan-dev/train-llm-from-scratch
