yena shared this post · 4h ago
Amto

有个 GitHub 仓库路子相当野——完全从零手搓了一个 GPT,没调用任何高级封装库。Attention、多头机制、前馈网络、Embedding、残差连接、Layer Norm,这些模块怎么拼成完整模型,代码全摊开给你看。而且不止是模型,整条链路都给你备齐了:

1️⃣ 数据下载、预处理、训练、生成,全流程串好

2️⃣ 训练数据来自 The Pile,涵盖 22 个来源共 825GB

3️⃣ 用 tiktoken 做分词,存成 HDF5 格式

4️⃣ 预训练之后还附带了 SFT 和 RLHF 的实现路径

改几个配置参数就能调整模型大小。参数量跑到 1300 万左右,模型就已经开始拼对语法和单词了。白嫖 Colab 或 Kaggle 的 T4 免费显卡,练一天就能看到成果。

真想搞懂底层原理、不想一辈子当调包侠,从这份代码入门是最干净的起点。

🔗https://github.com/FareedKhan-dev/train-llm-from-scratch

GLM 4.7 Flash · Summary · 4h ago

이 GitHub 저장소는 고수준 라이브러리 없이 Attention, Embedding, Layer Norm 등의 핵심 모듈만으로 GPT를 처음부터 직접 구현한 프로젝트입니다.

  • 전체 파이프라인 구현: 데이터 다운로드부터 훈련, 생성까지의 전 과정을 포함합니다.
  • 데이터셋: The Pile 데이터셋(22개 출처, 총 825GB)을 사용하고, 토크나이저는 tiktoken을 사용하여 HDF5 형식으로 저장합니다.
  • 학습 및 파인튜닝: 훈련 후 SFT(지도 학습 파인튜닝)와 RLHF(강화 학습) 구현 경로도 제공합니다.
  • 모델 사이즈: 1300만 개의 파라미터로도 문법 및 단어 조합이 가능하며, 설정만 변경하여 모델 크기를 조절할 수 있습니다.
  • 환경: Colab이나 Kaggle의 T4 GPU를 활용하여 무료로 훈련할 수 있습니다.
17