關於 AI 基準測試及其報告方式的爭議,正在逐漸進入公眾視野。
本週,一名 OpenAI員工指控 埃隆·馬斯克(Elon Musk)旗下的 AI 公司 xAI在公布最新 AI 模型 Grok 3的基準測試結果時存在誤導性。對此,xAI 聯合創始人 Igor Babushkin堅稱公司所發佈的數據是準確的。
真相或許介於兩者之間。
在 xAI官方博客的文章中,該公司發佈了一張圖表,展示了 Grok 3在 AIME 2025基準測試中的表現。AIME 2025是一項包含高難度數學題目的測試集,取自近期的一場數學邀請賽。雖然部分專家質疑 AIME 是否適合作為 AI 的基準測試,但該測試及其早期版本仍被廣泛用於評估 AI 模型的數學能力。
xAI 的圖表顯示,Grok 3 Reasoning Beta和 Grok 3 mini Reasoning在 AIME 2025測試中超越了 OpenAI 目前最強的 o3-mini-high 模型。然而,OpenAI 的員工很快在 X(原 Twitter)上指出,xAI 的圖表並未包含 o3-mini-high 在 “cons@64” 設置下的 AIME 2025 分數。
什麽是 cons@64?
“cons@64” 是 “consensus@64”的縮寫,在基準測試中,牠允許模型嘗試 64 次來解答每一道題目,並選取最常見的答案作為最終答案。可以想像,這種方式通常會顯著提高 AI 模型的得分。
由於 xAI的圖表省略了 o3-mini-high 在 cons@64 設置下的成績,可能會給人一種錯覺,即 Grok 3 超越了 OpenAI 的模型,而實際上並非如此。
在 AIME 2025的“@1”測試(即模型第一次作答時的得分)中,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的分數均低於 OpenAI 的 o3-mini-high。此外,Grok 3 Reasoning Beta 甚至略低於 OpenAI 的 o1(中等計算配置)。然而,xAI 仍然宣稱 Grok 3 是“全球最聰明的 AI”。
xAI 反擊:OpenAI 也有類似操作
Igor Babushkin在 X上反駁稱,OpenAI 過去也曾發佈過類似“誤導性”基準測試圖表,只不過這些圖表主要是 OpenAI 內部模型之間的比較。在這場爭論中,一名相對中立的研究人員重新繪制了一張更“準確”的圖表,展示了幾乎所有模型在 cons@64設置下的真實表現。
基準測試的核心問題:計算成本未知
然而,AI 研究員 Nathan Lambert指出,這場爭論中最關鍵的問題仍然是未知的——每個模型達到最佳分數所需的計算資源(以及成本)是多少?
這一點凸顯了 AI 基準測試的局限性:牠們很少能真正反映 AI 模型的計算成本、局限性以及實際應用價值。