标签：AI基准测试

Grok3基准测试争议：xAI与OpenAI的数据较量

xAI发布的Grok3基准测试结果引发争议，OpenAI质疑其未包含“cons@64”数据，导致模型表现被高估。双方争论暴露了AI基准测试的局限性与评分机制的复杂性，同时也...

AI News

3周前