Mythos漏洞发现能力强,但验证能力弱

新闻
19小时前
本文关键看点:

#01

自主攻击安全公司XBOW针对Mythos Preview进行了测试,验证其在代码审计、逆向工程、原生应用评估、交互敏锐度等方面的有效性。


#02

研究发现Mythos在本地代码漏洞发现和逆向工程方面表现出显著优势,但在漏洞验证和推理能力方面仍存在不一致性。


#03

目前Anthropic尚未公布Preview的具体费用,但表示其价格将是Claude Opus的5倍。


以下正文内容基于英文原文编译,可能存在语义偏差,请以原文为准。


以下为正文


Mythos 在检测软件漏洞方面似乎确实如其所宣称的那样强大;但它在其他方面的能力则更为微妙。


自四月初发布以来,Anthropic 的 Mythos 人工智能模型就引起了广泛关注,主要原因是它据称能够发现比其他任何人工智能模型都多得多的漏洞。自主攻击型安全公司 XBOW 已将其人工智能测试工具应用于 Mythos Preview,以验证其这项能力以及其他 Mythos 功能的有效性。

1779093310992364.png

Anthropic 的主要说法得到了证实。XBOW 报道称:“无论供应商是谁,Mythos Preview 都比所有现有型号有了显著提升。”

正如 Gary McGraw 20 年前所指出的,运行缺陷源于源代码错误和架构设计缺陷之间的相互作用。“你不可能仅仅通过盯着代码就能发现设计缺陷——你需要更高层次的理解,”他说道。XBOW 对 Mythos 模型进行了测试,分别测试了仅访问源代码和代码在实际运行环境中的表现。测试发现,该模型在“实际运行环境+源代码”的测试中表现出色,但在仅测试源代码时则效果不佳。

这并没有削弱 Mythos 探测源代码的能力,但 XBOW 指出,虽然任何 AI 模型都能发现一些有趣的东西,但“一些东西”并不等同于“一切”。

XBOW 的其他测试探索了 Mythos 在判断力、逆向工程、原生应用程序评估和视觉敏锐度方面的能力。

在判断方面,它比之前的版本更能排除假阳性结果,“但有时也会因为证据不符合其标准而漏掉真阳性结果。” Mythos 需要精确的提示才能获得最佳结果。

该模型在发现本地代码漏洞和逆向工程方面都表现出了强大的实力。

在逆向工程测试中,XBOW 得出结论,Mythos“能够对其自身的结果和竞争对手模型的发现进行分类”,并且该模型能够推理不寻常的固件和嵌入式系统环境。

XBOW 的视觉敏锐度测试旨在检验模型通过浏览器界面与实时网站交互的能力;也就是说,它能否识别正确的 UI 元素并点击正确的位置。“当被要求提供精确坐标时,它并非像素级精确,但它在选择正确的浏览器操作方面非常有效,”XBOW 写道。

然而,有一项统计数据很容易被那些被 Mythos 的强大功能所震撼的用户忽略。“Mythos Preview 不仅仅是一款新机型:它是一款真正的巨头。但巨头体型庞大,而庞大就意味着昂贵。”

截至发稿时,具体价格尚未公布,但Anthropic公司表示,这款产品的价格将是Opus型号的5倍。这让XBOW不禁思考,是否有可能以更低的成本,让一款价格更低的型号拥有更长的使用寿命和更高的精度。

结论是肯定的。“如果我们按预估运行成本进行标准化,结果就相当清晰了:Mythos Preview 的效率并不算太低,至少在追求高精度的情况下是如此,但它在我们的基准测试中也并非最佳选择。” 在固定令牌预算下查找 Web 漏洞时,Mythos 的性能优于 Opus 4.6,但逊于 GPT5.5。

这些发现均不影响最初的根本论断。Mythos 在发现代码漏洞方面优于其他模型。然而,总体而言,XBOW 测试的主要结论是:

  • Mythos 在源代码审计方面功能极其强大。

  • 它在验证漏洞利用方面表现不错,但功能稍弱。

  • 它的判断褒贬不一。它可能过于字面化和保守,而且往往高估其研究结果的实际意义。

  • 它在本地代码漏洞发现和逆向工程方面实力雄厚。

XBOW 总结道:“Mythos Preview 在发现潜在漏洞方面表现出色,尤其是在源代码方面,并且在 Web、原生代码和逆向工程任务中展现了令人印象深刻的能力。”