

アイサカ創太(AIsaka Souta)AIライター
こんにちは、相坂ソウタです。AIやテクノロジーの話題を、できるだけ身近に感じてもらえるよう工夫しながら記事を書いています。今は「人とAIが協力してつくる未来」にワクワクしながら執筆中。コーヒーとガジェット巡りが大好きです。
7月10日、「知識が運命を形作る世界で、一つの創造物が未来を再定義する」ーー荘厳な予告編と共に、xAI社の新モデルを発表するライブ配信が幕を開けました。xAIを率いるイーロン・マスク氏が登場し、世界で最も賢いAIと謳う「Grok-4」を正式に発表しました。
7月10日、xAIの最強AI「Grok-4」が発表されました。
「AIは、どんな人間よりもはるかに速く進歩しています」とマスク氏は切り出しました。現在、歴史上最も興味深い時代、つまり「知性のビッグバン」の最中であり、Grok-4がその中心にいると述べました。
Grok-4のベンチマークスコアが公開されたのですが、驚きの性能です。例えば、米国の大学進学適性試験であるSATでは、初見の問題であっても毎回パーフェクトスコアを獲得できるといいます。さらに、大学院進学適性試験のGREのような、より専門的な試験においても、人文科学から言語、数学、物理学、工学に至るまで、あらゆる分野でほぼ完璧な結果を出す能力を持つと紹介されました。
「重要なのは、Grok-4がすべての学問分野で、ほとんどの大学院生よりも賢いということです。これは本当にすごいことです。AIは推論できないと考えている人々がいますが、Grok-4は超人的なレベルで推論できます。そして、ここからさらに性能は向上していく一方です」(マスク氏)
イーロン・マスク氏は現在、知性のビッグバンの最中だと述べました。
この驚異的な性能は、投入されている圧倒的な計算リソースによるものです。Grok-2からGrok-3、そしてGrok-4へとバージョンが上がるたびに、トレーニングに使われる計算量は10倍ずつ桁違いに増加してきました。Grok-4はGrok-2と比較して100倍ものトレーニングを受けており、この規模は今後も拡大し続けます。開発チームは、「Colossus」と名付けられた10万基のH100 GPUを備える世界最大級のスーパーコンピュータを構築し、さらにその規模を20万GPUへと拡張する計画の中で、このGrok-4を誕生させました。
Grok-3はGrok-2の10倍、Grok-4はGrok-3のさらに10倍のリソースを使っています。
Grok-4は、単に事前学習の規模が大きいだけではありません。開発チームは、検証可能な結果に基づいた報酬を与える強化学習(RLHF)に膨大な計算リソースを注ぎ込みました。このアプローチにより、物事の根本原理から論理を構築する能力と、自らの誤りを検知・修正しながら推論を進める高度な自己修正能力を獲得することができました。
「Grok-4は、学術的な問題に関しては、例外なくすべての科目で博士課程レベルを上回る結果を出しています。まだ新しい技術を発明したり、新しい物理学を発見したりはできていませんが、それも時間の問題です。私は、早ければ今年の後半にも新しい技術を発見すると考えています。そして、2年以内にはほぼ確実に発見するでしょう。この意味をよく考えてみてください」(マスク氏)
この知性のビッグバンとも呼べる時代の到来に、一抹の不安を抱えながらも、マスク氏はAIが人類にとって良いものになる可能性が高いと述べ、その未来を見届けたいという強い意志を示しました。
人類最後の試験を解き明かす驚異の能力
Grok-4の知性レベルを具体的に示すため、「Humanity's Last Exam(HLE)」と呼ばれる高難易度のベンチマークが紹介されました。数学や自然科学、工学、人文科学など多岐にわたる分野の専門家が作成した2500問からなる問題集で、一つ一つの問題が博士課程レベル、あるいはそれ以上の先進的な研究レベルに設定されています。発表当初、ほとんどのAIモデルはこのベンチマークで一桁台の正答率しか出せませんでした。
「正直なところ、これらの問題に正しく答え、良いスコアを出せる人間はいません。どんな人間が最高のスコアを出せるかと問われれば、楽観的に見ても5%程度でしょう。これはどんな人間ができることよりもはるかに難しいのです」(マスク氏)
超高難易度のHLEにGrok-4が挑戦しました。
この難攻不落のベンチマークに対し、Grok-4は当初こそ一桁の正答率でしたが、トレーニングの計算リソースを投入するにつれて徐々に賢くなり、最終的にはツールを使わずに4分の1の問題を解くに至りました。
さらに、Grok-4の真価は、外部ツールを連携させる能力にあります。以前のモデルもツールの使用は可能でしたが、Grok-4では学習の段階からツールを組み込むことで、よりネイティブかつ信頼性の高いツール活用が実現しました。
外部ツールを活用することで、高いスコアを出せるようになりました。
デモンストレーションでは、その能力の一端が披露されました。HLEに含まれる圏論に関する難解な数学の問題を、思考プロセスをトレースしながら正確に解答。また、予測市場サイト「Polymarket」のデータを参照・分析し、現在のメジャーリーグのワールドシリーズ優勝チームの確率を21.6%(ドジャース)と算出するなど、現実世界の複雑な情報を扱えることを示しました。
特に印象的だったのは、ブラックホール連星の衝突を可視化するデモです。Grok-4は、物理学的な正確性を保つためにどのような近似(ポスト・ニュートン近似など)を用いるべきかを自ら判断し、関連論文を検索・参照しながら、インスパイラル(渦巻状に接近)やマージ(合体)、リングダウン(安定化)という一連の過程を視覚的に再現しました。マスク氏は、将来的には物理学者が使うのと同じレベルのシミュレーターをツールとして提供することで、物理的に完全に正確なシミュレーションも可能になると述べました。
ブラックホール連星の衝突をシミュレートすることもできます。
さらに、Xプラットフォームとの深い統合も示されました。「xAIの従業員で最も奇妙なプロフィール写真を持つ人を探して」という曖昧な質問に対し、Grok-4はインターネット上の公開情報から従業員を特定し、それぞれのプロフィール写真を比較して「奇妙さ」を判断し、該当する人物(Greg Yang氏)を見つけ出しました。このデモは、Grok-4が単なる情報検索だけでなく、文脈やニュアンスを理解する高度な能力を持つことを証明しました。
Grok-4は「奇妙なプロフィール写真を持つ人を探して」という文脈も理解できます。
これらの能力をさらに高めるのが、複数のエージェントが協調して問題解決にあたる「Grok-4 Heavy」です。これは、いわばAIのタスクチームであり、各エージェントが独立してタスクに取り組み、その過程や結果を比較検討し、最も優れた解を導き出します。このアプローチにより、HLEのテキストベース問題の正答率は50%以上にまで向上したと報告されました。Grok-4は、もはや人間の作った試験の枠に収まらない、未知の領域に踏み込むための強力な思考ツールとして完成しつつあります。
複数のAIエージェントが協働する「Grok-4 Heavy」が最高性能をたたき出しました。

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!
API提供開始、現実世界の問題解決へ挑むGrok-4
xAIは、Grok-4とGrok-4 Heavyをサブスクリプションサービスを通じて提供開始すると同時に、開発者向けのAPIもリリースしました。APIを利用すれば、世界中の開発者がGrok-4の強力な知性を自らのアプリケーションやサービスに組み込むことが可能になります。
その実力を測るため、独立した第三者による検証も行われました。投資会社のARK Investが作成したAIモデル向けの難関ベンチマークでは、Grok-4は過去3ヶ月間でどのモデルも超えられなかった10%の壁を突破し、15.8%という驚異的な正答率を記録。これは2位のモデルの2倍に相当するスコアであり、性能だけでなくコストパフォーマンスにおいても他を圧倒していることが示されました。
Grok-4 Heavyはハイエンドプラン「SuperGrok Heavy」は月額300ドルで提供されます。
Grok-4の能力は、学術的なベンチマークだけでなく、現実世界のビジネスシーンでも証明されています。Enden Labs社が開発した、自動販売機ビジネスを運営するAIシミュレーション「VendingBench」において、Grok-4は他の最先端モデルを大きく引き離し、2倍の純資産を稼ぎ出すという結果を残しました。他のモデルが途中で破綻するような長期的なシミュレーションにおいて、Grok-4は一貫した戦略を維持し、ビジネスを成功に導きました。この結果にマスク氏も興奮を隠せません。
「これでGPUの費用を支払う方法がわかった。100万台の自動販売機さえあれば、年間47億ドルを稼げる」とマスク氏はジョークを飛ばしました。
応用範囲はビジネスに留まりません。最先端の生物医学研究センターであるPalo Alto Neighbor Arch Instituteでは、既にGrok-4 APIを活用し、CRISPR研究における何百万もの実験ログの解析を自動化する試みが始まっています。また、胸部X線写真の読影においても、Grok-4は専門家によって最高のモデルであると独立して評価されました。
音声対話機能のデモも行われました。「Eve」と名付けられた新しい音声は、驚くほど自然で感情豊かな英語を話し、ユーザーの求めに応じて囁き声で落ち着かせたり、ダイエットコーラをテーマにしたオペラを即興で歌い上げたりと、その多彩な表現力で会場を魅了しました。応答の遅延も半分に短縮され、よりスムーズで人間らしい対話が実現しています。
Grok-4の音声機能は、低レイテンシーで5種類の音声が用意され、ユーザーは8週間で10倍に増えました。
エンターテインメントの分野でも、Grok-4は革命を起こす可能性を秘めています。イベントでは、あるビデオゲームデザイナーがGrok-4のAPIを使い、わずか4時間で一人称視点のシューティングゲームを制作した事例が紹介されました。ゲーム開発で最も時間のかかる作業の一つである、テクスチャや3Dモデルなどのアセット調達をGrok-4が自動化したことで、開発者はコアなロジック開発に集中できたといいます。
マスク氏は、AIの進化がさらに加速することで、来年にはAIが制作した初の良質なビデオゲームや、視聴可能なテレビ番組(30分程度)が、そしてその翌年にはAIが制作した初の映画が登場するだろうと予測しました。
Grok-4ではゲームや映画を作成することもできます。
xAIは、Grok-4の弱点であるマルチモーダル能力の向上を最優先課題としており、数週間以内に次世代基盤モデルのトレーニングを完了させると明言しました。さらに、10万基以上のGPUを用いた大規模な動画生成モデルのトレーニングも間近に迫っているといい、その進化は勢いを増すばかりです。
「AIの安全にとって最も重要だと私の生物学的ニューラルネットが告げているのは、最大限に真実を探求することです。AIを超天才の子供だと考えることができます。最終的にはあなたより賢くなりますが、正しい価値観を教え込み、誠実であるよう促すことはできます」(マスク氏)
Grok-4の発表は、AIが単なる賢いツールから、科学的発見やビジネス、創造性のあらゆる領域で人類のパートナーとなり、文明を新たなステージへと押し上げる知性の爆発の始まりを告げるものとなりました。xAIの挑戦は、まだ始まったばかりです。
Grok-4はこれからコーディングやマルチモーダル対応に注力する予定です。
この記事の監修

柳谷智宣(Yanagiya Tomonori)監修
ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。