ThinkLab

引言

原文ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence。

过去几年，AI 的进步快得惊人。

大模型会写代码、会做题、会对话，甚至在许多标准测试上已经超过了大多数人类。于是一个问题开始越来越频繁地被提起：AI 真的正在接近 AGI（通用人工智能）了吗？

如果只看考试分数、排行榜成绩，很多人会觉得答案似乎是“快了”。但 ARC Prize Foundation 最新发布的技术报告《ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence》给出了一个相当冷静、甚至有些残酷的判断：没有。至少在“陌生环境中的自主适应能力”这件事上，当前最顶尖的 AI 依然远远落后于人类。

这篇文章就来讲清楚：ARC-AGI-3 到底是什么，它为什么重要，以及它为什么可能比我们熟悉的许多 AI 测试更接近“真正的智能”。

一、旧的 AI 测试，为什么不够了？

可以把现在很多 AI 系统想象成一种“超大规模的高分考生”。

这类系统的优势非常明显：读过海量数据，见过无数题型，拥有极强的模式匹配和知识调用能力。只要问题与它过去见过的大量样本足够相似，它就能表现得非常亮眼。

但问题在于，这种能力未必等于真正的通用智能。

ARC 系列基准最初的目标，就是测试一种更接近人类的能力：流体智力。也就是当你面对一个从未见过、没有说明书、不能依赖已有知识储备的问题时，能否快速观察、归纳、试错并找到解法。ARC-AGI-1 和 ARC-AGI-2 早期之所以重要，就是因为它们试图绕开传统 benchmark 中常见的“背题”和“数据泄露”问题，专门考察这种陌生任务上的适应能力。

但随着大模型和测试时训练技术不断进步，旧问题又出现了：即使是原本为了防止死记硬背而设计的静态题，也可能被新的训练套路慢慢“刷穿”。 技术报告明确指出，当前前沿模型已经可以通过合成数据、自动生成类似题目、反复训练推理轨迹等方式，逐步逼近这些静态测试分布，从而形成新的“记忆捷径”。

这意味着，继续用静态填空题来测“真正的泛化能力”，已经越来越不稳了。

二、ARC-AGI-3 的核心变化：从“看图答题”变成“进场自己摸索”

ARC-AGI-3 的最大变化，可以概括成一句话：

它不再让 AI 做静态题，而是把 AI 扔进一个陌生的互动环境里。

在这个新基准中，测试对象面对的不是几组输入输出图形，而是一系列抽象的、回合制的小游戏环境。每个环境由多个关卡组成，AI 每一回合都能看到当前画面，然后做出一个动作，环境再根据动作发生变化。目标是什么、规则是什么、赢的条件是什么，系统都不会直接告诉它。它只能靠自己探索。

论文把这种能力拆成四个核心组成部分：

探索（Exploration）：信息不会自动送上门，必须主动通过行动获取。 建模（Modeling）：从观察到的变化中总结环境规律，形成内部世界模型。 目标设定（Goal-Setting）：没人告诉你“该做什么”，你得自己推断什么状态值得追求。 规划与执行（Planning and Execution）：在理解目标和环境机制之后，规划行动路径，并根据反馈动态调整。

这和传统的大模型问答非常不同。传统问答更像“给你一道题，直接回答”；ARC-AGI-3 则更像“把你扔进一个没有说明书的密室，看看你能不能自己摸清规则并走出来”。

三、它为什么刻意做得这么“抽象”？

ARC-AGI-3 的环境看起来并不华丽。没有真实世界图像，没有自然语言提示，也没有复杂的 3D 视觉场景。它使用的是 64×64 的二维网格，颜色有限，动作空间也很小。

这不是因为设计者做不出更复杂的世界，而是因为他们想尽可能隔离掉那些不必要的干扰。

论文强调，ARC-AGI-3 只保留所谓的 Core Knowledge priors（核心知识先验），也就是人类在很早期认知中就具备的一些基本直觉，例如：

物体是持续存在的，不会凭空消失
图形有内外、连通、对称、旋转等几何关系
世界里存在基础物理规律，比如重力、碰撞、反弹
某些对象可能表现出“有意图的行为”

换句话说，ARC-AGI-3 刻意剥掉了语言、百科知识、互联网语料这些“大模型最擅长的东西”，只留下最基础的结构与规则推理。它想问的是：

如果不给你任何现成知识，只给你一个全新的世界，你还能不能靠纯粹的适应力解决问题？

这正是它试图逼近的“流体智力”。

四、这篇论文最锋利的观点：智能的本质不是“会不会”，而是“多快学会”

ARC-AGI-3 最有辨识度的地方，在于它对“智能”下了一个非常强硬的定义：

智能 = 效率。

在这个框架里，一个系统是否智能，不只看它最终能不能解出题，更看它在第一次接触一个新环境时，究竟花了多少动作、多少试错成本，才学会这个新技能。

论文把这个概念称为 action efficiency（动作效率）。它用动作步数把许多资源消耗统一起来：探索次数、犯错成本、风险暴露，甚至某种程度上的数据效率，最终都浓缩为一个问题——你到底走了多少步才过关？

这背后的价值判断非常明确：

一个靠瞎试一万次才撞对答案的系统，不应被视为“聪明”；一个只用了十几次关键试探，就迅速摸清规则并通关的系统，才更接近真正的智能。

这种思路直接把很多“暴力穷举也能过”的策略排除在了“高智能”之外。

五、ARC-AGI-3 怎么打分？

为了把“效率”量化，ARC-AGI-3 不是拿 AI 和某个理论最优解比，而是拿 AI 去和人类首次上手时的表现比。

技术报告里给出了三种参考轨迹：

已完全理解机制后的近似最优通关轨迹
人类首次尝试中的最佳轨迹
官方真正采用的人类基准轨迹：首次尝试中第二好的成绩

为什么不是用“最好的人类”？因为那可能受到极端个体表现影响。论文刻意选择“第二快的人类首次通关步数”作为基线，是为了让标准更稳健，避免某个天赋特别高的测试者把基准拉得过于苛刻。这个设计也解释了为什么 ARC-AGI-3 的人类基准显得相当严谨。

更重要的是，它还使用了带平方惩罚的评分方式。按照整理文本中的概括，单关得分可以表示为：

单关得分 = min(1.0, (人类第二快步数 / AI 实际步数)^2 )

这个公式的含义很狠：

如果 AI 的步数是人类的 2 倍，得分不是 50%，而是 25%；如果是 10 倍，得分只有 1%。

这几乎就是在公开宣告：ARC-AGI-3 不欢迎靠笨办法磨过去的系统。

六、为了防作弊，它几乎把“考场纪律”拉满了

ARC-AGI-3 还有一个很重要的特点：它不仅在设计题目，还在设计防作弊机制。

论文把环境分成三类：

公开展示集（Public Demo）：用于说明 ARC-AGI-3 是什么，不计入官方进度评估
半保密集（Semi-Private）：用于通过 API 测试外部前沿模型
全保密集（Fully Private）：用于正式评估，严格隔离，避免泄露

而且官方明确表示，公开集上的成绩不会用于官方排行榜。 原因很简单：一旦有人知道了公开环境，就可以围绕这些环境定制专门策略、人工调参、设计特定 harness，甚至做出能在公开集上拿 100% 的系统，但这并不代表它有真正的通用能力。

论文还特别区分了两类过拟合：

任务特定过拟合：直接利用公开环境信息去做针对性优化。 领域特定过拟合：虽然没见过原题，但专门围绕 ARC-AGI-3 这种环境风格训练了大量类似任务或设计了专项策略。

官方排行榜因此更强调一种标准：系统应该是在没有为 ARC-AGI-3 特别准备的情况下，第一次走进这个新领域依然能表现好。

这套标准和很多 benchmark 最大的不同就在这里：它不仅想测模型能不能解题，还想测这种表现到底是不是“真的泛化”。

七、结果有多残酷？人类 100%，前沿 AI 低于 1%

这篇论文最有冲击力的一点，是它公开量化了当前 AI 与人类之间的差距。

报告指出，经过人类校准后，正式环境都保证对人类可解；在人类测试中，人类可以解决 100% 的环境。但截至 2026 年 3 月，前沿 AI 系统在 ARC-AGI-3 上的得分仍然低于 1%。

这个结论为什么重要？

因为它说明：尽管现在的大模型在代码、数学、写作和许多标准推理测试上已经表现得非常强，但一旦把它们放到一个完全陌生、没有语言说明、没有现成知识依赖、需要自主探索和建模的新环境里，它们的能力仍然非常脆弱。

换句话说，今天很多 AI 的强，并不意味着它已经具备了“像人一样迅速适应新世界”的能力。

这正是 ARC-AGI-3 想揭露的“残余差距”。

八、论文还有一个很现实的细节：AI 可能不是不会，只是“太烧钱”

当然，ARC-AGI-3 也不是完美无瑕。

整理文本提到，论文现实中做了一个无奈的妥协：由于运行前沿高推理模型进行完整评测非常昂贵，一次全量测试可能消耗数万美元，因此官方设置了 5 倍人类步数的硬截止。也就是说，如果某一关人类平均 10 步通关，AI 到了 50 步还没过，就会被强行停止。

这意味着，当前报告中的“不到 1%”可能还略低于 AI 在无限预算下理论上能达到的上限。

但即便如此，这种解释也并不能改变核心事实：真正高水平的智能，不该依赖海量无效试错和巨额算力燃烧来勉强接近答案。

如果一个系统必须靠极端昂贵的搜索成本，才能在陌生环境里慢慢摸到边，那它离“高效适应”的通用智能仍然相差很远。

九、ARC-AGI-3 真正测出来的，到底是什么？

如果把整篇论文的思想再压缩一次，可以得到三个结论。

第一，智能不是静态分数，而是获取新技能的效率。 这是一种比“做对多少题”更底层的定义。

第二，真正重要的不是知识覆盖，而是陌生环境中的适应力。 语言模型今天的很多强项，本质上仍与它见过多少知识、能否调用现有推理模式高度相关。ARC-AGI-3 刻意移除了这些优势。

第三，从静态题走向互动环境，可能是下一代 AGI 评测的关键方向。 因为现实世界本来就不是一道写在纸上的选择题，而是一个你必须行动、观察、修正、再行动的动态系统。ARC-AGI-3 只是把这种现实的结构，抽象成了一个可控、可比较、可量化的实验平台。

十、我的看法：它不是在否定大模型，而是在逼近更严格的问题

ARC-AGI-3 不是为了证明“大模型没用”，而是为了把问题问得更严格。

今天的大模型已经在很多领域产生了真正的实用价值，尤其是在那些有足够知识覆盖、又有明确验证信号的领域，比如编程。论文也承认，现代模型在这类可验证领域已经展现出很强的推理与自动化能力。

但 ARC-AGI-3 提醒我们：

“会做很多事”不等于“具备通用适应能力”。 “看起来很聪明”不等于“第一次遇到新世界也能迅速学会”。

如果 AGI 的标准真的是“像人一样，在陌生环境中高效习得新技能”，那么 ARC-AGI-3 至少提出了一个更接近这个目标的考法。

而目前的结果说明，我们距离那个目标，可能还远没有大众想象得那么近。

结语

ARC-AGI-3 最值得重视的地方，不只是它给 AI 出了一套更难的题，而是它重新定义了一个根本问题：

我们到底该如何衡量智能？

它给出的回答非常清晰：不是看你记住了多少，不是看你刷过多少类似题，也不是看你最后能不能靠巨大算力撞出答案。

而是看你第一次进入一个陌生世界时，能否像人一样，用尽可能少的试错，快速理解规则、发现目标并完成任务。

如果说以往很多 benchmark 测的是“知识型高手”，那么 ARC-AGI-3 想测的，是“真正会在新世界里活下来并迅速上手的智能体”。

而截至目前，人类仍然遥遥领先。

ARC-AGI-3：前沿智能体人工智能的新挑战

引言