LLMチェス大会が終了:OpenAI o3が優勝し、xAI Grok 4は1勝もできず完封された

Kaggle AI 国際西洋棋大会が終了し、特別な訓練を受けていない o3 が 4-0 で Grok 4 を完封して勝利し、推論能力の強さを示しました。 (前情提要:マスクがアップルを提訴すると言明:App Store のランキングに独占行為が存在し、Grok を悪意で抑圧している) (背景補足:Grok 4 は本日無料で使用可能になり、マスクの xAI と GPT-5 が直接対決) 最近、Google 傘下の Kaggle が開催した「人工知能西洋棋パフォーマンス大会」が 8 月 14 日に結果を発表し、OpenAI の汎用大型言語モデル o3 が 4:0 で xAI の Grok 4 を一蹴し、チャンピオンとなり、特別な訓練を受けることなく対戦相手を完封した最初の LLM となりました。大会には 8 組の AI が参加し、3 日間の淘汰戦で行われました。 言語モデル大会の見どころ OpenTools.ai の報道によると、o3 は進出過程で連続して 4:0 の完封成績を収め、準決勝では自社の軽量版 o4 mini を淘汰しました。それに対し、Grok 4 は初期のラウンドでリードすることが多かったが、試合の最後で何度も「後を失う」(最も行動力が強いクイーンを犠牲にする)場面が見られました。西洋棋のグランドマスター Hikaru Nakamura は o3 を「ほとんどミスがない」と評価し、Grok 4 はしばしば戦術的自爆を起こすと指摘しました。前世界チャンピオンの Magnus Carlsen は Grok の棋風を次のように表現しました: 子供が将棋を指しているのを見ているようだ。 彼は Grok の Elo を約 800、o3 を約 1200 と推定し、トップレベルの人間や専門的な棋類 AI よりもはるかに低いと述べました。 Elo:専門的な評価制度(英語:Elo rating system)は、ハンガリー系アメリカ人物理学者 Arpad Elo によって創設された、さまざまな対局活動の水準を評価する方法であり、現在の対局水準評価の権威ある基準として広く認識されており、西洋棋、囲碁、サッカー、バスケットボールなどのスポーツに広く使用されています。西洋棋の Elo 最高点数は Magnus Carlsen によって 2882 点が記録されています。 汎用 AI と専門 AI の闘い Stockfish のような専門的なシステムは深度検索と領域評価に依存し、長期にわたり約 3644 Elo を誇っています。汎用 LLM は大規模な跨領域コーパスから学習し、将棋は推論能力の延長に過ぎません。o3 が Grok 4 を打ち負かすことができたとしても、今年の初めには Stockfish には敵わず、汎用モデルは棋芸ゲームの推論の安定性と深度計算においてまだ差があることを示しています。 関連報道 豪賭 OpenAI、孫正義が再び「一発逆転」 以太坊開発者が「悪意のある AI プラグイン」をインストールし、暗号ウォレットが 3 日間で空になり、10 年のセキュリティ経験も役に立たず a16z 最新の洞察:従来の電子商取引は死んだ?AI ネイティブプラットフォームが「ショッピング」という概念を再定義しつつある 〈LLM西洋棋大会が終了:OpenAI o3 が優勝、xAI Grok 4 は一局も勝てず完封される〉この記事は最初に動区BlockTempo《動区動趨-最も影響力のあるブロックチェーンニュースメディア》に掲載されました。

XAI-10.16%
GROK-12.08%
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)