Grok3基准测试争议:xAI与OpenAI的数据较量

AI News3周前发布 itischat
8 0

近期,关于人工智能基准测试的争论在科技圈掀起了一场风暴。事件的主角是马斯克创办的xAI公司及其最新模型Grok3,而对手则是AI领域的巨头OpenAI。这场争论不仅关乎技术实力,更引发了人们对AI基准测试方法的深思。

Grok3基准测试争议:xAI与OpenAI的数据较量

事件起因:Grok3的“最聪明AI”宣传引争议

事情的导火索是xAI在其官方博客上发布的一张图表,展示了Grok3在AIME2025测试中的表现。AIME2025是一系列来自数学邀请赛的高难度问题集合,尽管一些专家对其作为AI基准的有效性表示怀疑,但它仍然是评估模型数学能力的重要参考。

xAI的图表显示,Grok3的两个变体——Grok3Reasoning Beta和Grok3mini Reasoning,在AIME2025上的表现超越了OpenAI当前的最佳模型o3-mini-high。然而,这一结论很快遭到质疑。

OpenAI的一名员工指出,xAI的图表中遗漏了一个关键指标——“cons@64”。那么,什么是“cons@64”呢?


“cons@64”:基准测试中的隐藏规则

“cons@64”是“consensus@64”的缩写,简单来说,它允许模型对每个问题尝试回答64次,并将生成答案中最常见的答案作为最终答案。这种评分机制显然会显著提升模型的基准分数。因此,如果在图表中省略这一数据,可能会让人误以为一个模型的表现优于另一个模型,而实际情况可能并非如此。

事实上,Grok3Reasoning Beta和Grok3mini Reasoning在AIME2025的“@1”分数(即模型首次尝试获得的分数)低于o3-mini-high。此外,Grok3Reasoning Beta的表现也略逊于OpenAI的o1模型。尽管如此,xAI仍然将Grok3宣传为“世界上最聪明的AI”。


xAI的回应:指责OpenAI也曾误导公众

面对质疑,xAI的联合创始人伊戈尔・巴布申金在社交媒体上回应称,OpenAI过去也曾发布过类似的“误导性”基准图表,主要是为了对比自身模型的表现。他还强调,xAI的做法并无不妥。

与此同时,一位中立的专家整理了一张更为“准确”的图表,综合了各种模型的表现,进一步引发了公众的广泛讨论。这张图表显示,不同模型在不同评分机制下的表现差异巨大,单一指标并不能全面反映模型的能力。


更深层次的问题:计算成本被忽视

除了评分机制的争议,AI研究者纳森・兰伯特还指出了一个更为重要的问题:各模型取得最佳分数所需的计算资源和财务成本仍未公开。这表明,当前大多数AI基准测试所传达的信息对于模型的局限性和优势仍然有限。

例如,一个模型可能在某些任务上表现出色,但其背后的计算成本却高得惊人。这样的信息对于评估模型的实际应用价值至关重要,但在目前的基准测试中往往被忽略。


未来展望:AI基准测试需要更透明的标准

这场争论不仅暴露了AI基准测试的局限性,也提醒我们,技术的进步需要更加透明和全面的评估标准。无论是xAI还是OpenAI,它们的竞争都推动了AI技术的发展,但也让我们意识到,单纯依赖基准测试数据可能并不足以全面衡量一个模型的真实能力。

© 版权声明

相关文章