大模型多学到的,是小模型留不住的长尾信号

2026-06-09 · #paper

你在训练一个模型识别代码里的罕见错误。平时它看到的是变量命名、注释、常见语法模式。偶尔,十万个样本里才冒出一次跨文件状态污染。小模型那一刻好像记住了。过几轮常见样本一冲,又忘了。下次再遇到,它像第一次见。

旧路会说:小模型只是训练不够,多喂数据就行。论文说这句话只对一半。有些差距确实是样本效率:大模型先学会,小模型看更多数据也能追上。但还有一块差距是容量带来的。小模型在同一个混合数据里,被高频任务占满了表示空间。罕见任务每次刚挤进去,就被下一轮高频任务更新挤出来。

作者看到的入口很具体:大模型不是只会表达更多东西,而是更能把罕见信号留到下一次出现。高频任务在大模型里很快被安排好,后续梯度变弱,于是罕见任务的更新不再被反复覆盖。学习从一次次从头开始,变成可以慢慢累计。

翻译

overview

在刚才那个罕见 bug 的例子里,这篇论文的方法像一个仓库分配问题。小仓库货架少,热门商品先占满位置。罕见零件进来时可以临时放一下,但下一车热门商品来了,它就被清掉。大仓库先把热门商品放稳,空出来的货架才够罕见零件长期待着。

作者先用 scaling law 做了一个现象级判断。计算最优训练下,模型损失会随参数量下降;如果给小模型无限数据,它也会继续变好。但经验指数暗示一种情况:大模型在有限训练下达到的某些损失,小模型即使走向无限数据也到不了。作者把前一种差距叫 data scaling 可以补上的差距,把后一种叫必须 model scaling 才能补上的差距。这个推理本身不是完整定理,作者也承认它是 phenomenological。它的作用是把问题钉住:大模型到底多学了数据分布里的哪一块?

于是他们做了一个干净的玩具世界。数据由很多线性回归任务混在一起。每个任务有频率,也有复杂度。任务越常见,出现概率越高;任务越复杂,需要的特征方向越多。学生模型只有一个共享编码器,宽度 N 就是它能保留多少个方向。

这时候你看,学习顺序变得很简单:模型保留的不是任务,而是特征。每个特征有一个效用:

utility = task frequency * feature strength

宽度为 N 的模型,会保留效用最高的 N 个特征。高频任务的特征效用高,简单任务的头部特征效用也高。低频又复杂的任务,很多特征排在队伍后面。小模型轮不到它,大模型才轮得到它。

但这还没解释最关键的事:罕见任务很久才出现一次。模型上次见到它时更新了一点,下一次出现前,这点更新会不会被冲掉?论文的第二步就在这里。

作者证明,高频任务的梯度只来自模型还没解释掉的那部分残差。小模型解释不完高频任务,所以高频任务一直用强梯度拉它。罕见任务刚写进去,就被拉走。大模型先把高频任务解释得差不多,残差小,梯度弱,罕见任务的方向就能稳定下来。

可以把机制压成这样:

小模型:罕见样本出现 -> 临时学到 -> 高频梯度覆盖 -> 下次从头学
大模型:罕见样本出现 -> 保留一部分 -> 下次接着学 -> 慢慢形成结构

这不是只在玩具模型里好看。作者又把任务注入 OLMo 预训练。模型从 4M 到 4B 参数,语料是 Dolma v1.7,训练最多 210B tokens。他们构造两个三 token 任务:TCMP 比较两个 token 背后的顺序,TADD 做 modular addition。每个任务 10K 个实例,训练测试各半,注入频率从每个 batch 约 1K 个实例,一直到每 10 个 batch 才 1 个实例。

结果和玩具模型对上了。频率高时,小模型也能学;频率低时,只有大模型能学到并泛化。更重要的是,作者看了模型内部:大模型更早编码 TCMP 所需的全局 token 顺序特征,TADD 里也出现更多 Fourier modes。梯度分析也指向同一件事:在注入步,1B 模型的 batch gradient 更贴近任务方向;非任务 token 的梯度几乎和任务方向正交。20M 模型里,非任务梯度会随机撞到任务方向,干扰大得多。

这篇论文真正想说的不是大就是好。它说的是,在朴素混合预训练里,模型大小会改变长尾任务的学习动力学。小模型可能有表达某个任务的能力,但在混合数据里留不住那个任务。大模型的优势,是让罕见信号从一次性痕迹变成可累计的记忆。

核心概念

特征效用。 这东西就是一个特征在混合训练里值不值得占一个位置。它等于任务频率乘以这个特征自身强度。回到罕见 bug 的例子,常见语法模式出现频率高,所以它们的效用排前面。跨文件状态污染虽然重要,但出现太少,效用低。少了这个概念,就只能笼统说大模型容量大;有了它,才知道容量优先买到什么。

梯度干扰。 这是高频任务更新把罕见任务更新抹掉的过程。小模型还没把常见任务解释干净,所以常见任务每次都用强梯度改同一批参数。罕见 bug 的信号刚写进去,下一批常见代码就把那块表示拿走。少了这个概念,无法解释为什么罕见任务看过很多次仍然学不会。

罕见任务保留。 这不是记住训练样本那么简单,而是把上一次罕见样本带来的方向留到下一次。论文里 matched-frequency injection 很关键:总频率一样,只改变间隔。间隔越大,任务越难学,说明能不能跨 batch 留住信号本身就是瓶颈。少了这个概念,就会误以为只要总样本数够了就行。

洞见

大模型的一个真实优势,是把长尾信号从短暂噪声变成可累计的学习材料。

这句话能从论文里抽出来单独用。很多能力看起来像突然涌现,其实可能是以前每次都出现过,只是小模型每次都留不住。规模让高频任务不再占满全部更新通道,低频任务才开始在训练历史里留下连续痕迹。

博导审稿

选题眼光很好。大模型为什么能学到小模型学不到的东西,这个问题本身重要,而且作者没有停在表达能力或样本效率这种老答案上,而是把数据频率、任务复杂度、梯度干扰和记忆保留连成了一条机制链。

方法成熟度中上。玩具模型很干净,线性回归混合任务、正交特征块、共享瓶颈编码器,让特征效用和容量竞争可以解析出来。OLMo 注入任务也认真,不只看 loss,还看测试泛化、内部表征和梯度方向。它的短板也清楚:玩具模型离真实 Transformer 还有距离,TCMP 和 TADD 是人工任务,证明的是一个重要机制,而不是所有涌现能力的统一理论。

实验诚意足够。matched-frequency injection 很关键,因为它把总频率和出现间隔拆开了。表征分析用 DAS 和 PCA,梯度分析拆 task token 与 non-task token,也比只画 loss 更可信。但我会追问几件事:不同规模是否都用了最合适的训练超参;4M 模型深度不同会不会混入结构差异;人工注入任务替换序列开头 token,会不会带来位置或格式 artifact;多随机种子的鲁棒性还可以更强。

写作清楚,主线顺。第 2 节从 scaling law 推到 distribution 的某部分需要 model scaling,有启发性,但严格性弱。作者称它为 phenomenological 是诚实的,正文里仍需要控制语气。真实 LLM 里 complexity 很难定义,所以 OLMo 部分主要验证 frequency,而不是完整验证 frequency 加 complexity。

判决:weak accept 到 strong accept 之间,更靠 strong accept。理由是问题重要,机制清楚,理论和真实预训练实验互相咬合;但结论应限在受控混合训练与注入任务场景,外推到所有 agent 能力时要谨慎。

启发

对汉松当前关心的 AI coding 和 agent workflow,最直接的迁移是:别只问模型会不会某个能力,要问这个能力在训练和使用链路里出现得够不够密、间隔会不会太长、有没有机制把上次经验留到下次。很多 agent 能力,比如命令行恢复、跨文件调试、长任务规划,在普通语料里就是低频复杂任务。小模型可能不是完全做不到,而是在通用训练里没机会稳定保留。

可以把这个机制接到数据和训练设计上。如果要强化某个能力,单纯扩大通用数据可能很浪费。更有效的杠杆是提高目标任务频率,设计课程,做 replay,缩短关键能力样本之间的间隔,或者在 post-training 里反复把同一类能力拉出来练。论文甚至暗示:提高目标任务频率,某些时候可能比扩大模型更便宜。

它也反过来提醒评测方式。平均 loss 会掩盖长尾能力。应该单独看低频任务、复杂任务、跨轮保留能力。对 agent 来说,评测不要只看一次任务是否成功,还要看经历过一次失败或修复后,下次同类任务是否更快、更稳。

原文核验

本次采用 PDF-first 流程。PDF 来源为 https://arxiv.org/pdf/2605.29548,HTTP 状态 200,content-type 为 application/pdf,文件头为 %PDF,文件大小 5,180,151 bytes,共 37 页。PDF 已用 PyMuPDF 抽取全文,文本保存于 /tmp/ljg-paper-2605.29548/2605.29548.txt,总字符数 120,716,总行数 2,920。

首页覆盖标题、作者、机构、摘要与 Introduction 开头。尾部覆盖 Appendix F.2 的 compute-optimal comparison,并覆盖 References 与 Appendix A-F。论文有 appendix,已被抽取到文本末尾。overview 图采用 arXiv HTML 版 Figure 1,图片 URL 为 https://arxiv.org/html/2605.29548v2/x1.png,已保存到 Paper Notes/images/20260609T121352--paper-larger-models-rare-task-retention-overview.png。正文阅读主要基于 PDF 抽取文本,HTML 只用于提取 Figure 1 图片。