ARC-AGI-3:前沿智能体人工智能的新挑战

发布于 作者: Ethan

引言

原文ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

过去几年,AI 的进步快得惊人。

大模型会写代码、会做题、会对话,甚至在许多标准测试上已经超过了大多数人类。于是一个问题开始越来越频繁地被提起:AI 真的正在接近 AGI(通用人工智能)了吗?

如果只看考试分数、排行榜成绩,很多人会觉得答案似乎是“快了”。但 ARC Prize Foundation 最新发布的技术报告《ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence》给出了一个相当冷静、甚至有些残酷的判断:没有。至少在“陌生环境中的自主适应能力”这件事上,当前最顶尖的 AI 依然远远落后于人类。

这篇文章就来讲清楚:ARC-AGI-3 到底是什么,它为什么重要,以及它为什么可能比我们熟悉的许多 AI 测试更接近“真正的智能”。


一、旧的 AI 测试,为什么不够了?

可以把现在很多 AI 系统想象成一种“超大规模的高分考生”。

这类系统的优势非常明显:读过海量数据,见过无数题型,拥有极强的模式匹配和知识调用能力。只要问题与它过去见过的大量样本足够相似,它就能表现得非常亮眼。

但问题在于,这种能力未必等于真正的通用智能。

ARC 系列基准最初的目标,就是测试一种更接近人类的能力:流体智力。也就是当你面对一个从未见过、没有说明书、不能依赖已有知识储备的问题时,能否快速观察、归纳、试错并找到解法。ARC-AGI-1 和 ARC-AGI-2 早期之所以重要,就是因为它们试图绕开传统 benchmark 中常见的“背题”和“数据泄露”问题,专门考察这种陌生任务上的适应能力。

但随着大模型和测试时训练技术不断进步,旧问题又出现了:即使是原本为了防止死记硬背而设计的静态题,也可能被新的训练套路慢慢“刷穿”。 技术报告明确指出,当前前沿模型已经可以通过合成数据、自动生成类似题目、反复训练推理轨迹等方式,逐步逼近这些静态测试分布,从而形成新的“记忆捷径”。

这意味着,继续用静态填空题来测“真正的泛化能力”,已经越来越不稳了。


二、ARC-AGI-3 的核心变化:从“看图答题”变成“进场自己摸索”

ARC-AGI-3 的最大变化,可以概括成一句话:

它不再让 AI 做静态题,而是把 AI 扔进一个陌生的互动环境里。

在这个新基准中,测试对象面对的不是几组输入输出图形,而是一系列抽象的、回合制的小游戏环境。每个环境由多个关卡组成,AI 每一回合都能看到当前画面,然后做出一个动作,环境再根据动作发生变化。目标是什么、规则是什么、赢的条件是什么,系统都不会直接告诉它。它只能靠自己探索。

论文把这种能力拆成四个核心组成部分:

探索(Exploration):信息不会自动送上门,必须主动通过行动获取。 建模(Modeling):从观察到的变化中总结环境规律,形成内部世界模型。 目标设定(Goal-Setting):没人告诉你“该做什么”,你得自己推断什么状态值得追求。 规划与执行(Planning and Execution):在理解目标和环境机制之后,规划行动路径,并根据反馈动态调整。

这和传统的大模型问答非常不同。传统问答更像“给你一道题,直接回答”;ARC-AGI-3 则更像“把你扔进一个没有说明书的密室,看看你能不能自己摸清规则并走出来”。


三、它为什么刻意做得这么“抽象”?

ARC-AGI-3 的环境看起来并不华丽。没有真实世界图像,没有自然语言提示,也没有复杂的 3D 视觉场景。它使用的是 64×64 的二维网格,颜色有限,动作空间也很小。

这不是因为设计者做不出更复杂的世界,而是因为他们想尽可能隔离掉那些不必要的干扰。

论文强调,ARC-AGI-3 只保留所谓的 Core Knowledge priors(核心知识先验),也就是人类在很早期认知中就具备的一些基本直觉,例如:

  • 物体是持续存在的,不会凭空消失
  • 图形有内外、连通、对称、旋转等几何关系
  • 世界里存在基础物理规律,比如重力、碰撞、反弹
  • 某些对象可能表现出“有意图的行为”

换句话说,ARC-AGI-3 刻意剥掉了语言、百科知识、互联网语料这些“大模型最擅长的东西”,只留下最基础的结构与规则推理。它想问的是:

如果不给你任何现成知识,只给你一个全新的世界,你还能不能靠纯粹的适应力解决问题?

这正是它试图逼近的“流体智力”。


四、这篇论文最锋利的观点:智能的本质不是“会不会”,而是“多快学会”

ARC-AGI-3 最有辨识度的地方,在于它对“智能”下了一个非常强硬的定义:

智能 = 效率。

在这个框架里,一个系统是否智能,不只看它最终能不能解出题,更看它在第一次接触一个新环境时,究竟花了多少动作、多少试错成本,才学会这个新技能。

论文把这个概念称为 action efficiency(动作效率)。它用动作步数把许多资源消耗统一起来:探索次数、犯错成本、风险暴露,甚至某种程度上的数据效率,最终都浓缩为一个问题——你到底走了多少步才过关?

这背后的价值判断非常明确:

一个靠瞎试一万次才撞对答案的系统,不应被视为“聪明”; 一个只用了十几次关键试探,就迅速摸清规则并通关的系统,才更接近真正的智能。

这种思路直接把很多“暴力穷举也能过”的策略排除在了“高智能”之外。


五、ARC-AGI-3 怎么打分?

为了把“效率”量化,ARC-AGI-3 不是拿 AI 和某个理论最优解比,而是拿 AI 去和人类首次上手时的表现比。

技术报告里给出了三种参考轨迹:

  • 已完全理解机制后的近似最优通关轨迹
  • 人类首次尝试中的最佳轨迹
  • 官方真正采用的人类基准轨迹:首次尝试中第二好的成绩

为什么不是用“最好的人类”?因为那可能受到极端个体表现影响。论文刻意选择“第二快的人类首次通关步数”作为基线,是为了让标准更稳健,避免某个天赋特别高的测试者把基准拉得过于苛刻。这个设计也解释了为什么 ARC-AGI-3 的人类基准显得相当严谨。

更重要的是,它还使用了带平方惩罚的评分方式。按照整理文本中的概括,单关得分可以表示为:

单关得分 = min(1.0, (人类第二快步数 / AI 实际步数)^2 )

这个公式的含义很狠:

如果 AI 的步数是人类的 2 倍,得分不是 50%,而是 25%; 如果是 10 倍,得分只有 1%。

这几乎就是在公开宣告:ARC-AGI-3 不欢迎靠笨办法磨过去的系统。


六、为了防作弊,它几乎把“考场纪律”拉满了

ARC-AGI-3 还有一个很重要的特点:它不仅在设计题目,还在设计防作弊机制。

论文把环境分成三类:

  • 公开展示集(Public Demo):用于说明 ARC-AGI-3 是什么,不计入官方进度评估
  • 半保密集(Semi-Private):用于通过 API 测试外部前沿模型
  • 全保密集(Fully Private):用于正式评估,严格隔离,避免泄露

而且官方明确表示,公开集上的成绩不会用于官方排行榜。 原因很简单:一旦有人知道了公开环境,就可以围绕这些环境定制专门策略、人工调参、设计特定 harness,甚至做出能在公开集上拿 100% 的系统,但这并不代表它有真正的通用能力。

论文还特别区分了两类过拟合:

任务特定过拟合:直接利用公开环境信息去做针对性优化。 领域特定过拟合:虽然没见过原题,但专门围绕 ARC-AGI-3 这种环境风格训练了大量类似任务或设计了专项策略。

官方排行榜因此更强调一种标准:系统应该是在没有为 ARC-AGI-3 特别准备的情况下,第一次走进这个新领域依然能表现好。

这套标准和很多 benchmark 最大的不同就在这里:它不仅想测模型能不能解题,还想测这种表现到底是不是“真的泛化”。


七、结果有多残酷?人类 100%,前沿 AI 低于 1%

这篇论文最有冲击力的一点,是它公开量化了当前 AI 与人类之间的差距。

报告指出,经过人类校准后,正式环境都保证对人类可解;在人类测试中,人类可以解决 100% 的环境。但截至 2026 年 3 月,前沿 AI 系统在 ARC-AGI-3 上的得分仍然低于 1%

这个结论为什么重要?

因为它说明:尽管现在的大模型在代码、数学、写作和许多标准推理测试上已经表现得非常强,但一旦把它们放到一个完全陌生、没有语言说明、没有现成知识依赖、需要自主探索和建模的新环境里,它们的能力仍然非常脆弱。

换句话说,今天很多 AI 的强,并不意味着它已经具备了“像人一样迅速适应新世界”的能力。

这正是 ARC-AGI-3 想揭露的“残余差距”。


八、论文还有一个很现实的细节:AI 可能不是不会,只是“太烧钱”

当然,ARC-AGI-3 也不是完美无瑕。

整理文本提到,论文现实中做了一个无奈的妥协:由于运行前沿高推理模型进行完整评测非常昂贵,一次全量测试可能消耗数万美元,因此官方设置了 5 倍人类步数的硬截止。也就是说,如果某一关人类平均 10 步通关,AI 到了 50 步还没过,就会被强行停止。

这意味着,当前报告中的“不到 1%”可能还略低于 AI 在无限预算下理论上能达到的上限。

但即便如此,这种解释也并不能改变核心事实:真正高水平的智能,不该依赖海量无效试错和巨额算力燃烧来勉强接近答案。

如果一个系统必须靠极端昂贵的搜索成本,才能在陌生环境里慢慢摸到边,那它离“高效适应”的通用智能仍然相差很远。


九、ARC-AGI-3 真正测出来的,到底是什么?

如果把整篇论文的思想再压缩一次,可以得到三个结论。

第一,智能不是静态分数,而是获取新技能的效率。 这是一种比“做对多少题”更底层的定义。

第二,真正重要的不是知识覆盖,而是陌生环境中的适应力。 语言模型今天的很多强项,本质上仍与它见过多少知识、能否调用现有推理模式高度相关。ARC-AGI-3 刻意移除了这些优势。

第三,从静态题走向互动环境,可能是下一代 AGI 评测的关键方向。 因为现实世界本来就不是一道写在纸上的选择题,而是一个你必须行动、观察、修正、再行动的动态系统。ARC-AGI-3 只是把这种现实的结构,抽象成了一个可控、可比较、可量化的实验平台。


十、我的看法:它不是在否定大模型,而是在逼近更严格的问题

ARC-AGI-3 不是为了证明“大模型没用”,而是为了把问题问得更严格。

今天的大模型已经在很多领域产生了真正的实用价值,尤其是在那些有足够知识覆盖、又有明确验证信号的领域,比如编程。论文也承认,现代模型在这类可验证领域已经展现出很强的推理与自动化能力。

但 ARC-AGI-3 提醒我们:

“会做很多事”不等于“具备通用适应能力”。 “看起来很聪明”不等于“第一次遇到新世界也能迅速学会”。

如果 AGI 的标准真的是“像人一样,在陌生环境中高效习得新技能”,那么 ARC-AGI-3 至少提出了一个更接近这个目标的考法。

而目前的结果说明,我们距离那个目标,可能还远没有大众想象得那么近。


结语

ARC-AGI-3 最值得重视的地方,不只是它给 AI 出了一套更难的题,而是它重新定义了一个根本问题:

我们到底该如何衡量智能?

它给出的回答非常清晰: 不是看你记住了多少, 不是看你刷过多少类似题, 也不是看你最后能不能靠巨大算力撞出答案。

而是看你第一次进入一个陌生世界时,能否像人一样,用尽可能少的试错,快速理解规则、发现目标并完成任务。

如果说以往很多 benchmark 测的是“知识型高手”,那么 ARC-AGI-3 想测的,是“真正会在新世界里活下来并迅速上手的智能体”。

而截至目前,人类仍然遥遥领先。