GPT、Claude、Llama 背后的 5 阶段流水线 —— 不需要博士学位,代码 included
大多数人以为构建 LLM 的关键是架构(Transformer、Attention)。不是。架构是公开的,所有人用同样的积木。真正的秘密在于:数据、训练和对齐。
架构只占一段代码。其他四个阶段才是 GPT-4 和业余模型的分水岭。
原始互联网文本是垃圾场。Common Crawl 有 2500 亿页面,但大部分是垃圾。
数据质量 > 数据数量 —— 每次都是这样。顶级实验室在数据清洗上的投入比模型设计还多。
模型不读原始文本,它读 token。一个 token 不一定是完整单词,可能是词的一部分。
| 指标 | 数值 |
|---|---|
| 1 token ≈ | 0.75 个英文单词 |
| 1,000 tokens ≈ | 750 个单词 |
| 100k 上下文窗口 ≈ | 一本完整的小说 |
整个训练任务听起来太简单:
预测下一个 token。
给定 "The cat sat on the",预测 "mat"。在万亿级示例上重复这个过程,神奇的事情发生了:
没人教它这些。都是从下一个 token 预测中涌现出来的。
预训练后,模型很牛但没用。问它问题,它可能回复三个更多问题。因为预测下一个 token ≠ 理解你想要什么。
知识已经在预训练模型里,SFT 只是教它用正确的格式表达。
模型生成两个答案,人类选更好的。这些偏好训练出一个奖励模型,LLM 被优化来最大化这个奖励。
流畅但不可靠
自信地错误
不知道说"我不知道"
有帮助、清晰、安全
学会"好回答"的含义
知道边界
衡量模型对真实文本的"惊讶程度"。越低越好。
| 时间 | 最佳模型困惑度 | 含义 |
|---|---|---|
| 2017 | ~70 个可能 token | 几乎不懂 |
| 2023 | < 10 个可能 token | 非常精准 |
对齐后困惑度反而变差(分布变了),需要换指标:
评估真的很难。同一个模型,同一个基准,提示格式不同,分数能从 0.637 变成 0.488。没人完全解决了这个问题。
| 错误 | 为什么致命 |
|---|---|
| 1 迷恋架构 | Transformer 是标准化的,架构是最不重要的部分 |
| 2 把数据当商品 | 脏数据会封顶你的天花板,无论算力多强 |
| 3 跳过扩展数学 | 模型太大而数据不够 = 欠训练浪费算力。最优比:~20 tokens/参数 |
| 4 只做到 SFT | 没有 RLHF,模型只会模仿,不懂人类真正偏好 |
| 5 对齐后还信困惑度 | SFT 后分布变了,困惑度失去意义,立即换人类基准 |
同一个流水线,换数据 = 换专家 = 换产品
数据:GitHub Code + Stack Overflow + The Stack
训练对:代码补全、错误修复、自然语言→代码
效果:从教科书式回答 → 生产级代码(含指数退避重试)
可跑数据:Spider (10k+ SQL) + WikiSQL (80k+ 对)
场景:非技术创始人用自然语言查数据库
可跑数据:Free Law Project + MultiLegalPile
输出: plain English 摘要 + 红旗标记 + 风险等级
可跑数据:PubMed (3500万) + MedQA
关键:每条回复必须带免责声明和升级信号
需谨慎数据:Top 1000 Shopify 店铺高转化文案
效果:从规格表 → 情感驱动的高转化文案
可跑从 Google Colab 免费 GPU 开始。15M 参数,WikiText 数据集,几小时就能看到效果。
架构是共享的。真正重要的东西不是。
两个实验室用完全相同的架构,产出天差地别的模型。区别在于:
这才是 GPT-4 和业余模型的区别。