标签:AI基准测试

Grok3基准测试争议:xAI与OpenAI的数据较量

xAI发布的Grok3基准测试结果引发争议,OpenAI质疑其未包含“cons@64”数据,导致模型表现被高估。双方争论暴露了AI基准测试的局限性与评分机制的复杂性,同时也...