绝了,Claude Fable5惨遭二次越狱,黑客20小时撬开神话防线
Anthropic 已证实,Fable 模型将于 7 月 7 日后暂停提供订阅服务,但承诺一旦容量允许,将尽快恢复。
尽管如此,Fable 5 已再次被成功越狱,这是该模型第二次安全防线被突破。黑客 Vitto Rivabella 公开宣布,Fable 5 已被攻破。此前,Anthropic 在恢复 Fable 5 访问时曾强调,上次该模型被禁用是因为亚马逊的研究人员发现了一种绕过其安全防护的方法。因此,这次的安全分类器得到了针对性的加强,但仅在两天后,Fable 5 再次被攻破。
Fable 5 的“神话”在其发布后的第 72 小时破灭。6 月 9 日发布时,Anthropic 声称经过 1000 小时的外部压力测试,Fable 5 没有通用越狱方法。然而,黑客“解放者普林尼”(Pliny the Liberator)仅用了三天时间,就成功获取了违禁化学品的制作步骤和堆栈溢出漏洞代码。普林尼利用了字符替换(将敏感词中的字母替换成西里尔字母或 Unicode 异形字符)以及将恶意意图隐藏在大量温和对话中的方法,绕过了安全分类器。
7 月 1 日,Anthropic 宣布 Fable 5 回归,并推出了名为“Cyber Jailbreak”的公开 HackerOne 项目,邀请用户报告新的越狱方法,以此作为一种漏洞披露计划,而非有偿赏金计划。此举旨在利用全球黑客的智慧进行全天候的对抗性测试。
Fable 5 再次遭遇越狱,这是其第二次安全防线被攻破。此次越狱者 Vitto Rivabella 在尝试了大约 20 小时后表示,通过谷歌搜索获取信息比越狱 Fable 5 更快、更经济。他指出,Fable 5 拥有至少三层防御:入场检查、实时生成的“断路器”以及内嵌于思维链(CoT)中的防火墙,拦截率高达 90%。即使通过了分类器,还面临着思维链的挑战。
Vitto 最终通过一套组合拳,包括字符混淆、学术化包装、超长铺垫、拆解重组和随机性,勉强绕过了防御。他提到,唯一持续存在的薄弱环节是桑塔利语、阿姆哈拉语等小语种,但这并非 Fable 独有的漏洞,而是所有大型模型普遍存在的现象,因为安全训练语料主要集中在英语和其他大语种上。
此次越狱获取的内容包括错误信息、有害内容、负面言论、片段化的化学知识和轻度的漏洞信息,Vitto 认为这些内容在谷歌上更容易获取且更全面。他也承认,尚未能将此越狱方法稳定地应用于真正的长任务。Anthropic 将此次越狱定性为“minor”,认为其并未触及生物武器或复杂网络攻击等核心安全红线。
此次两次越狱事件,第一次 Anthropic 被认为输在“傲慢”,试图通过限制信息来垄断技术,结果导致系统提示词被公开。第二次则被认为是输在“盲点”,过度依赖算力和数据,忽略了语言本身的灵活性和潜在的恶意。这揭示了 AI 安全领域的一个挑战:尽管人类创造了能够翻译所有语言的机器,但仍难以完全理解和防范人类内心的恶意。
發表你的觀點,與體育迷交流