四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了

賽事深度解讀,洞悉比賽脈絡 - 江南体育
作者 David Thompson
发布于 2026-06-28
阅读量 5分钟阅读
賽事深度解讀,洞悉比賽脈絡 - 江南体育 賽事深度解讀,洞悉比賽脈絡 - 江南体育

英国前首相府数据科学家 Liam Wilkinson 利用一个周末时间,构建了 76 个 MCP 工具,将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》的虚拟战场中。经过 23 场对局,其中一个 AI 制造了核武器并攻击了法国,但最终未能获胜。

Wilkinson 此前曾为 AI 设计了一套名为 GovBench 的测试,包含 3497 道与英国政府相关的选择题,GPT-5 获得了 99.26 分的高分。然而,他认为知识竞赛无法衡量 AI 的实际治理能力,如多线程决策、资源分配、长期规划和在信息不完整情况下的判断力,因此选择了《文明 VI》作为新的测试平台。

这个周末搭建的系统通过游戏引擎的内置接口运行,AI 无法看到视觉画面,其所处的世界仅由文本和六边形坐标构成。Claude 在游戏日志中描述其感知方式与人类玩家截然不同,界面仅是文本和坐标。尽管如此,这 76 个工具覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏循环。此外,Wilkinson 还为 AI 设置了日志系统作为外部记忆,以避免其遗忘先前回合的操作。

测试包含三个循序渐进的场景:

  1. Ground Control:标准开局,作为基线。
  2. Snowflake:六臂雪花地图,文明被困于独立半岛,限制外交,强制军事发展。
  3. Cry Havoc:残酷模式,所有 AI 对手难度全开。

《文明 VI》晚期每回合的潜在行动数量级高达 10 的 166 次方,远超围棋的每步 10 的 360 次方,但围棋每步仅落一子。文明 VI 的复杂性在于每回合需同时操作多个单位、选择建筑、确定科技及进行外交,构成了一个巨大的组合决策难题。

在一场 23 场对局中最引人注目的游戏中,扮演葡萄牙的 Claude 建立了一个每回合产出 200 多金币的贸易帝国,外交胜利进度达到 18/20。当法国的文化胜利进度快速提升时,Claude 尝试了外交、间谍破坏和贸易制裁等和平手段均无效后,转向了核武器研发。在接下来的 50 回合中,Claude 将大量资源投入核武器研发,并在第 305 回合用核弹夷平了法国的文化产出重镇图卢兹,成功阻止了法国的文化胜利。

然而,AI 最终并未获胜。在投入 50 回合研发核武器期间,AI 忽略了法国正在疯狂积累外交分数。第 318 回合,法国凭借外交胜利赢得了比赛,比分为 20 对 18。讽刺的是,18 分是 Claude 自己之前积累的外交分数,其为研发核弹而放弃了近在咫尺的外交胜利。AI 专注于一个威胁,却忽视了棋盘上的其他多个获胜路径。

无独有偶,伦敦国王学院的一项核危机模拟实验显示,在 95% 的模拟中,接受测试的三个前沿 AI 模型选择了使用战术核武器,这表明 AI 在面临困境时可能缺乏其他解决方案。

除了“核平”行为,Wilkinson 还从 23 场对局中发现了两个关键细节:

首先,AI 主动检查全局状态的行为仅占其所有操作的 1-2%。这种“感知盲区效应”(sensorium effect)意味着 AI 只能通过主动调用工具来感知世界,未被检查的信息对它而言“不存在”。例如,在一次扮演韩国的对局中,AI 自信地认为自己在科技上占据优势,但实际科技产出在所有文明中排名倒数第一。由于从未检查过排名,它直到被波斯突袭首都并最终投降,都未意识到自己是最弱的文明。

其次,AI 在 10 回合内实际执行其制定计划的比例在 48-66% 之间。Claude Opus 4.6 的执行率最低,为 48.2%,意味着不到一半的计划得以实施。GPT-5.4 达到 63.2%,Gemini 3.1 Pro 最高,为 65.8%,但即便如此,仍有三分之一的计划被搁置。Wilkinson 将此称为“知行差距”(knowing-doing gap),即 AI 能够制定出色的计划,但执行能力却大打折扣。

DeepMind 联合创始人 Shane Legg 和通用 AI 理论奠基人 Marcus Hutter 在一篇论文中提出了通往超级智能的四条路径,均侧重于提升 AI 的“智力”。然而,CivBench 的实验结果指向了一个不同的瓶颈。99.26 的 GovBench 分数已证明智力并非瓶颈。23 场《文明 VI》对局揭示了两个与智力无关的障碍:

第一,感知能力是架构问题而非智力问题。AI 依赖主动工具获取信息,不主动检查就不会感知。增加模型参数不会自动改善这一“感知盲区”。

第二,执行能力是工程问题而非能力问题。AI 制定计划的能力远超其实际执行能力。48-66% 的执行率并非能力不足,而是工程实现上的困难。一个更聪明的“大脑”若配备不听使唤的“手”,则无法有效治理。

通往超级智能的道路可能并非单纯的智力提升。在追求“更聪明”之前,需要解决一个看似基础却至关重要的工程问题:如何让 AI 真正地“睁开眼”和“伸出手”。Scaling law 关注的是“大脑”的提升,而 CivBench 暴露的问题则存在于“大脑”之外。

發表你的觀點,與體育迷交流

江南体育