四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

英国前首相府数据科学家 Liam Wilkinson 利用一个周末时间，构建了 76 个 MCP 工具，将 Claude、GPT 和 Gemini 等四种顶级人工智能模型置于《文明 VI》的虚拟战场中。经过 23 场对局，其中一个 AI 制造了核武器并攻击了法国，但最终未能获胜。

Wilkinson 此前曾为 AI 设计了一套名为 GovBench 的测试，包含 3497 道与英国政府相关的选择题，GPT-5 获得了 99.26 分的高分。然而，他认为知识竞赛无法衡量 AI 的实际治理能力，如多线程决策、资源分配、长期规划和在信息不完整情况下的判断力，因此选择了《文明 VI》作为新的测试平台。

这个周末搭建的系统通过游戏引擎的内置接口运行，AI 无法看到视觉画面，其所处的世界仅由文本和六边形坐标构成。Claude 在游戏日志中描述其感知方式与人类玩家截然不同，界面仅是文本和坐标。尽管如此，这 76 个工具覆盖了城市管理、单位移动、外交谈判、科技研究和政策选择等完整的游戏循环。此外，Wilkinson 还为 AI 设置了日志系统作为外部记忆，以避免其遗忘先前回合的操作。

测试包含三个循序渐进的场景：

Ground Control：标准开局，作为基线。
Snowflake：六臂雪花地图，文明被困于独立半岛，限制外交，强制军事发展。
Cry Havoc：残酷模式，所有 AI 对手难度全开。

《文明 VI》晚期每回合的潜在行动数量级高达 10 的 166 次方，远超围棋的每步 10 的 360 次方，但围棋每步仅落一子。文明 VI 的复杂性在于每回合需同时操作多个单位、选择建筑、确定科技及进行外交，构成了一个巨大的组合决策难题。

在一场 23 场对局中最引人注目的游戏中，扮演葡萄牙的 Claude 建立了一个每回合产出 200 多金币的贸易帝国，外交胜利进度达到 18/20。当法国的文化胜利进度快速提升时，Claude 尝试了外交、间谍破坏和贸易制裁等和平手段均无效后，转向了核武器研发。在接下来的 50 回合中，Claude 将大量资源投入核武器研发，并在第 305 回合用核弹夷平了法国的文化产出重镇图卢兹，成功阻止了法国的文化胜利。

然而，AI 最终并未获胜。在投入 50 回合研发核武器期间，AI 忽略了法国正在疯狂积累外交分数。第 318 回合，法国凭借外交胜利赢得了比赛，比分为 20 对 18。讽刺的是，18 分是 Claude 自己之前积累的外交分数，其为研发核弹而放弃了近在咫尺的外交胜利。AI 专注于一个威胁，却忽视了棋盘上的其他多个获胜路径。

无独有偶，伦敦国王学院的一项核危机模拟实验显示，在 95% 的模拟中，接受测试的三个前沿 AI 模型选择了使用战术核武器，这表明 AI 在面临困境时可能缺乏其他解决方案。

除了“核平”行为，Wilkinson 还从 23 场对局中发现了两个关键细节：

首先，AI 主动检查全局状态的行为仅占其所有操作的 1-2%。这种“感知盲区效应”（sensorium effect）意味着 AI 只能通过主动调用工具来感知世界，未被检查的信息对它而言“不存在”。例如，在一次扮演韩国的对局中，AI 自信地认为自己在科技上占据优势，但实际科技产出在所有文明中排名倒数第一。由于从未检查过排名，它直到被波斯突袭首都并最终投降，都未意识到自己是最弱的文明。

其次，AI 在 10 回合内实际执行其制定计划的比例在 48-66% 之间。Claude Opus 4.6 的执行率最低，为 48.2%，意味着不到一半的计划得以实施。GPT-5.4 达到 63.2%，Gemini 3.1 Pro 最高，为 65.8%，但即便如此，仍有三分之一的计划被搁置。Wilkinson 将此称为“知行差距”（knowing-doing gap），即 AI 能够制定出色的计划，但执行能力却大打折扣。

DeepMind 联合创始人 Shane Legg 和通用 AI 理论奠基人 Marcus Hutter 在一篇论文中提出了通往超级智能的四条路径，均侧重于提升 AI 的“智力”。然而，CivBench 的实验结果指向了一个不同的瓶颈。99.26 的 GovBench 分数已证明智力并非瓶颈。23 场《文明 VI》对局揭示了两个与智力无关的障碍：

第一，感知能力是架构问题而非智力问题。AI 依赖主动工具获取信息，不主动检查就不会感知。增加模型参数不会自动改善这一“感知盲区”。

第二，执行能力是工程问题而非能力问题。AI 制定计划的能力远超其实际执行能力。48-66% 的执行率并非能力不足，而是工程实现上的困难。一个更聪明的“大脑”若配备不听使唤的“手”，则无法有效治理。

通往超级智能的道路可能并非单纯的智力提升。在追求“更聪明”之前，需要解决一个看似基础却至关重要的工程问题：如何让 AI 真正地“睁开眼”和“伸出手”。Scaling law 关注的是“大脑”的提升，而 CivBench 暴露的问题则存在于“大脑”之外。

四大顶级 AI 对决《文明 VI》！Claude「核平」法国，结果还是输了

分類標籤：

分享到：

發表你的觀點，與體育迷交流