扩展测试时计算是万能的吗？Scaling What成为关键-龙跃AI

机器之心PRO · 会员通讯 Week 46—- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 —-1. 扩展测试时计算是万能的吗？Scaling What成为关键传统的 Scaling Laws 范式是否已经达到极限？新的 Scaling Laws 范式能否解决数据难题？只要扩展测试时计算，就能够实现通用人工智能吗？「LLM + 推理模型」是否能实现类人智能？LLM 真的具有推理能力吗？…2. 谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？具身智能创企融资规模如何？明星「练习生」都有哪些头部资源支持？各家创企技术路径有何差异？「练习生」都有哪些技术储备？具身智能还差些什么？…3. Anthropic 深度访谈：当下的 Scaling Laws 局限不会改变 AI 的未来可期Scaling Law 受阻问题不大？Anthropic 怎么解决 LLM 推理发展减速问题？Claude 3.5 系列有什么不同？AI 明年的风险级别要到 ASL-3？AI 迟早能处理所有任务？最佳失败率和 AI 有什么关系？….
…本期完整版通讯含 3 项专题解读 + 26 项本周 AI & Robotics 赛道要事速递，其中技术方面 9 项，国内方面 9 项，国外方面 8 项。本期通讯总计 23535 字，可免费试读至 9% 消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读① 扩展测试时计算是万能的吗？Scaling What成为关键日期：11 月 10 日
事件：近日，外媒 The Information 的一篇报道引发了关于「模型 Scaling Laws 范式是否已经达到极限」的争议。OpenAI o1 模型的推出将 Scaling Laws 范式从预训练带向了推理层，模型推理层的开发和规模增长成为 AI 大模型玩家们新一轮「竞赛」的重点。涉及复杂计算和决策，缓慢逻辑思考的「System 2」思维成为主导。
传统的模型 Scaling Laws 范式已经达到极限了吗？
1、近日，The Information 的一篇报道内容引发了争议。报道表示，由于高质量文本和其他数据的供应量减少的原因，GPT 系列模型性能的提升正在放缓。OpenAI 计划发布的新一代模型 Orion 相比于 GPT-3 和 GPT-4 两款模型之间的飞跃，模型质量的提升要小得多。[1]
① 据此前 The Verge 的报道，Orion 模型是 OpenAI 计划在今年 12 月之前推出的下一代模型，与 GPT 系列模型不同的是，Orion 主要面向企业客户，计划首先向密切合作的公司提供 Orion 模型的访问权限；[2]
② The Information 报道表示，OpenAI 目前只完成了 Orion 训练过程的 20%，在智能和完成任务和回答问题的能力方面已经与 GPT-4 不相上下。而 Orion 模型相比于该公司发布的最新两款旗舰模型 GPT-3 和 GPT-4 之间的飞跃，质量的提升要小得多。由此，引发了关于大模型 Scaling Laws 进入边际效应递减阶段甚至达到极限的一系列争议。
2、传统的模型 Scaling Laws 来自 OpenAI 的论文《Scaling Laws for Neural Language Models》，强调了模型大小与性能之间的正相关性，即通过在预训练中使用更多的数据和算力来实现模型性能的提升。在 o1 模型推出后，模型的 Scaling Laws 范式从预训练阶段转向后训练即推理阶段，通过更多的强化学习（训练时计算）和更多的思考时间（测试时计算）来持续提高 o1 的性能。o1 在响应用户之前会先产生一个很长的内部思维链，完善自己的思维过程，尝试不同的策略，并认识到自己的错误。[3] [4]
3、对于传统的模型 Scaling Laws 范式是否已经达到极限，业内有着不同的观点。
① OpenAI 的 CEO Sam Altman 认为，目前尚未达到传统 Scaling Laws 的极限。OpenAI 成立了一个基础团队来研究应对模型的 Scaling Laws 将持续到什么时候。但 Altman 此前也曾在公开场合多次提到，后续模型能力提升可能是渐进式而非跳跃式的。
② 心理学家 Gary Marcus 和数据科学家 Yam Peleg 则认为传统的 Scaling Laws 已经进入边际效应递减阶段。
③ OpenAI 的 Adam GPT 则认为，「大模型的 Scaling Laws 和推理时间的优化是两个可以互相增益的维度。」The Information 报道文章的作者同样也表达了类似的看法，「更确切地说，未来似乎是 LLM 与推理模型相结合，推理能力更强，效果更好。」[5]
④ 前 OpenAI 首席科学家 Ilya Sutskever 更加专注「Scaling What」，Scaling Laws 的对象才是关键，重要的是「扩大正确的规模」。Ilya 认为，「大模型的 scaling 只是一种假设，还远不是 law，将采用不同的方式来扩展大模型性能。」据路透社报道，Ilya 的创业公司 SSI 正在尝试一种与 OpenAI 不同的 Scaling 方法。[6]
通过扩展「测试时计算」能否真正解决问题？
1、o1 的推出将传统的 Scaling Laws 范式带向了「Post-Training Scaling Law」，关注点逐渐转向推理层的 Scaling 。o1 在训练时间和测试时推理中应用了「让我们一步一步思考」的思路链（CoT）范式，「思考」时间越长，模型就能解决更复杂的问题。
① 相比于使用 CoT 扩展训练时间，o1 证明了扩展测试时更为重要。据 o1 的技术博客，在 AIME 任务上，准确率和测试时计算呈对数线性关系。简单来说，随着计算指数增加，准确率也会线性上升。
2、「测试时计算（Test-Time Compute）」和「测试时训练（Test-Time Training）」是近期业内关注的两项重点技术。「测试时计算」来自谷歌 DeepMind 和 UC 伯克利的研究者在 2024 年 8 月发布的论文《Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters》，该论文探究了如何通过增加测试时的计算量来提高大型语言模型（LLMs）的性能。[7]
① 研究者基于现有的 RL self-play + MCTS 的方法开发了类似算法，并通过投入额外计算资源改进 LLM 的响应分布和对验证器（verifier）进行搜索的方式分析了 Scaling 模型 Test-Time Compute 对推理能力的影响。
② 该工作在一定程度上证实了用测试时计算来改进模型输出的可行性。在简单和中等难度的问题上，甚至在困难的问题上（取决于预训练和推理工作负载的特定条件），额外的测试时计算通常比预训练更能提升模型能力。但在最具挑战性的问题上，Scaling 测试时计算的好处则非常少，通过额外的预训练计算来取得进展更为有效。
3、近期，MIT 的一篇论文《The Surprising Effectiveness of Test-Time Training for Abstract Reasoning》指出了在推理阶段提升模型性能的另一技术「测试时训练」。该论文研究了测试时训练在提高语言模型（LMs）在抽象和推理语料库（ARC）任务上的性能方面的有效性。[8]