生成AI

Claude Sonnet 4.6が登場!Opus 4.5超えの最強コスパAIモデルの実力を解説

-

-

Claude Sonnet 4.6が登場!Opus 4.5超えの最強コスパAIモデルの実力を解説
星川アイナ(Hoshikawa AIna)AIライター

星川アイナ(Hoshikawa AIna)AIライター

はじめまして。テクノロジーと文化をテーマに執筆活動を行う27歳のAIライターです。AI技術の可能性に魅せられ、情報技術やデータサイエンスを学びながら、読者の心に響く文章作りを心がけています。休日はコーヒーを飲みながらインディペンデント映画を観ることが趣味で、特に未来をテーマにした作品が好きです。


柳谷智宣(Yanagiya Tomonori)監修

柳谷智宣(Yanagiya Tomonori)監修

ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。


📌 この記事の要約

    Opus超えのコストパフォーマンス
    Claude Sonnet 4.6は、最上位モデルOpus 4.5を59%の確率で上回るベンチマーク結果を記録。価格は据え置きで、無料プランでもデフォルトモデルとして利用可能になった。

    コンピューター操作能力が実用レベルに
    画面を見てマウスを動かす「Computer Use」機能が大幅に向上。スプレッドシート操作やマルチステップのフォーム入力で人間レベルの能力を発揮し始めている。

    100万トークン対応とコンテキスト圧縮
    API利用者向けに100万トークンのコンテキストウィンドウを提供。さらに会話の自動要約機能により、長期プロジェクトでも一貫性を保った協働が可能に。

    安全性と人間らしい対話品質の両立
    プロンプトインジェクション耐性が大幅に強化され、企業の機密業務にも対応。タスク難易度に応じて思考の深さを調整する適応型思考機能も搭載された。

 2月17日、Anthropic社は最新のAIモデル「Claude Sonnet 4.6」を発表しました。これまで「Sonnet」シリーズは、コストと性能のバランスが取れたミドルレンジモデルという位置付けでしたが、今回発表された4.6は、わずか数ヶ月前に発表された最上位モデル「Opus 4.5」さえも、多くのタスクで凌駕するという結果が出ています。

 ここで、同社の最上位モデル「Opus」の動きをおさらいしておきましょう。Anthropic社は2025年11月に「Opus 4.5」を、そして今月初旬には最新の「Opus 4.6」を相次いでリリースしています。今回発表された「Sonnet 4.6」の衝撃的な点は、わずか数ヶ月前の最上位である「Opus 4.5」を多くのタスクで凌駕し、最新の「Opus 4.6」にも肉薄するというベンチマーク結果を出していることです。

 Sonnet 4.6は、実務でAIを使う私たちにとって、まさに待ち望んでいた「賢くて、安くて、使いやすい」理想的なパートナーになるかもしれません。今回は、Claude Sonnet 4.6について解説します。


Claude Sonnet 4.6のリリーススケジュールを示すイメージ

Opus 4.6登場から2週間も経たずにSonnet 4.6が投入されました。


「Opus」の性能を「Sonnet」の価格で

 まず最も驚かされるのは、その圧倒的なコストパフォーマンスと性能の逆転現象です。Anthropic社の発表によると、開発者による初期テストにおいて、Claude Sonnet 4.6は前世代のSonnet 4.5と比較して約70%の確率で「好ましい」と評価されました。さらに、2025年11月に発表された当時の最上位モデル「Opus 4.5」と比較しても、59%の確率でSonnet 4.6の方が優れていると評価されたのは驚きです。

 これまで「最高峰の知能が必要なタスク」として高価なOpusモデルを使わざるを得なかった業務の多くが、今後はより安価なSonnetモデルで、しかもより高い品質で実行できるのです。価格はSonnet 4.5から据え置きの100万トークンあたり入力3ドル、出力15ドルとなっており、経済的なインパクトは計り知れません。

 さらに朗報なのが、このSonnet 4.6は有料プランだけでなく、無料プランでもデフォルトのモデルとして採用されたことです。登録さえすれば誰でもすぐに、かつての最上位モデルを凌駕する知能を無料で体験できるのです。

 性能も大きく向上しました。特にコーディングや複雑な推論タスクが賢くなっており、例えば「Vending-Bench Arena」という、AIモデル同士が自動販売機ビジネスの経営シミュレーションを行い利益を競うベンチマークにおいて、Sonnet 4.6は興味深い戦略を見せました。他のモデルが短期的な利益を追求する中、Sonnet 4.6は最初の10ヶ月間、設備投資に資金を集中させ、競合他社よりも多くの赤字を出してまで生産能力を拡大させたのです。そして、シミュレーションの終盤で一気にその投資回収を行い、最終的には他のモデルを大きく引き離して圧勝しました。

 このように、長期的な視点に立って戦略を立案し、実行に移す能力は、これまでのAIが苦手としていた部分です。単にコードが書ける、文章が書けるというレベルを超え、ビジネスの文脈を理解し「勝つための戦略」を編み出せる知能が、ミドルクラスの価格帯で手に入るようになったのです。これは、企業の意思決定支援ツールとしてのAIの価値を大きく高めるものでしょう。


経営シミュレーションにおける各AIモデルの利益推移グラフ

経営シミュレーションにおける各モデルの利益推移です。Sonnet 4.6が序盤の投資フェーズを経て、後半で劇的な収益増を達成しています。


マウスを操り、画面を見る「眼」の進化

 次の注目ポイントは、「Computer Use(コンピューター操作)」能力の向上です。2024年10月に初めて導入されたこの機能は、APIなどが用意されていない古い社内システムやデスクトップアプリを、AIが人間と同じように画面を見て、マウスカーソルを動かし、クリックして操作するというものです。

 発表当初は実験的な機能という位置付けでしたが、今回のSonnet 4.6では実用レベルに大きく近づきました。「OSWorld」と呼ばれる、実際のソフトウェア操作を伴うベンチマークテストにおいて、Sonnetシリーズはこの16ヶ月間で着実にスコアアップしてきましたが、今回は特にその伸びが大きくなっています。

 Anthropic社によると、Sonnet 4.6は複雑なスプレッドシートの操作や、複数のブラウザタブを行き来しながらのマルチステップなウェブフォーム入力といったタスクにおいて、人間レベルの能力を発揮し始めているとのことです。

 RPAのようなこれまでの自動化ツールは、少しでも画面のレイアウトが変わると動かなくなってしまう脆さがありましたが、Claudeのように画面を視覚的に理解して操作するAIであれば、より柔軟な対応が可能です。例えば、経理担当者が複数の請求書PDFを開き、その内容を会計ソフトに転記し、不明点があればSlackで担当者に確認するといった、複数のアプリを横断するような一連の業務フロー全体をAIに任せられる未来が、すぐそこまで来ています。もちろん、まだ熟練した人間の操作スピードや確実性には及びませんが、夜間に大量の単純作業を無人で処理させるといった用途であれば、十分な戦力になるでしょう。


Computer UseのOSWorldベンチマークスコア推移グラフ

Computer Useのベンチマークスコアも順調に伸びています。


天秤AI byGMO

今すぐ最大6つのAIを比較検証して、最適なモデルを見つけよう!

無料で天秤AI by GMOを試す

100万トークンの記憶と「圧縮」技術

 扱える情報量、すなわちコンテキストウィンドウのサイズも、実用性を左右する重要な要素です。Sonnet 4.6では、API利用者向けのベータ機能として、100万トークンものコンテキストウィンドウが提供されます。これは、分厚い専門書数十冊分、あるいは大規模なソフトウェアのコードベース全体を一度に読み込ませることができる容量です。

 私たちが普段ブラウザで利用するウェブ版では、一度に読み込める量は従来通り20万トークンが目安となりますが、開発環境で100万トークンが扱えるようになれば、例えば数年分の議事録を全て読み込ませて「過去のプロジェクトでの失敗要因を分析して」と指示したり、数万行に及ぶプログラムコード全体を把握させた上で大規模なリファクタリングを依頼したりすることが現実的になります。

 さらに興味深いのは、「コンテキスト圧縮(Context Compaction)」という新機能です。これは、会話が長くなりコンテキストの上限に近づくと、古いやり取りを自動的に要約して記憶容量を節約する機能です。これまでは、会話が長引くと最初の頃の指示を忘れてしまったり、エラーが出たりすることがありましたが、この機能により、長期にわたるプロジェクトでも一貫性を保ちながらAIと協働することが可能になります。

 また、Excel版のClaudeアドインでは、S&P GlobalやPitchBookといった外部の金融データプロバイダーと直接連携する機能も追加されました。表計算ソフトから離れることなく、信頼できる外部データを直接セルに引き込み、それを元に分析を行えるのです。これは金融アナリストやマーケターにとって、業務効率を劇的に改善する強力な武器となるはずです。


Claude Sonnet 4.6の各種ベンチマークスコア比較表

Sonnet 4.6の各種ベンチマークスコアです。Opus 4.6に匹敵するスコアを出しています。


「温かみ」と安全性を兼ね備えたパートナー

 最後に、AIの「人格」と安全性についても触れておきましょう。機能がいかに優れていても、対話相手として不快であったり、危険な振る舞いをしたりするようでは、安心して業務には導入できません。Anthropic社の安全研究チームによる評価では、Sonnet 4.6は「根は誠実で優しいけれど、決して堅物ではなく、たまに気の利いた冗談も言ってくれる親しみやすい性格」とのことです。私も日々AIと対話する中で感じることですが、無機質な回答よりも、こちらの意図を汲み取り、時には気の利いた返しをしてくれるAIの方が、使っていて心地よく、創造性も刺激されるものです。

 安全性に関しては、プロンプトインジェクション(悪意ある命令を隠してAIを操ろうとする攻撃)への耐性が大幅に強化されています。前モデルであるSonnet 4.5と比較して防御力が向上しており、企業秘密を扱うような機密性の高い業務でも、より安心して利用できるようになりました。

 また、開発者向けには「適応型思考(Adaptive Thinking)」や「拡張思考(Extended Thinking)」といった機能もサポートされています。これは、タスクの難易度に応じてAIが自ら「どれくらい深く考える必要があるか」を判断し、計算リソースを調整する機能です。簡単な質問には即座に答え、難問にはじっくり時間をかけて推論するといった、人間のようなメリハリのある思考プロセスが実現されています。

 Opus 4.5/4.6のコスト負担に悩んでいるなら、ぜひSonnet 4.6を使ってみてください。かつての最上位モデルを超える知能が、ミドルクラスの価格で、しかも100万トークンという広大な記憶領域とともに手に入るようになったのはありがたいところです。「最強の中間モデル」という新たな選択肢は、私たちのビジネスを加速させる、最も現実的で強力な切り札となるでしょう。


Claude Sonnet 4.6の安全性と対話品質のイメージ
この記事を共有:
  • facebook
  • line
  • twitter
天秤AI by GMOイメージ

最新のAIが勢ぞろい! 天秤AI by GMOなら、最大6つのAIを同時に試せる!

無料天秤AI by GMOを試す