AI指示文・プロンプトなら 教えてAI byGMO

AIニュース

DeepSeek R1 vs OpenAI o1/o1 Pro:数学力対決で見えた中国産生成AIの実力

-

-

  • facebook
  • line
  • twitter
DeepSeek R1 vs OpenAI o1/o1 Pro:数学力対決で見えた中国産生成AIの実力
アイサカ創太(AIsaka Souta)AIライター

アイサカ創太(AIsaka Souta)AIライター

こんにちは、相坂ソウタです。AIやテクノロジーの話題を、できるだけ身近に感じてもらえるよう工夫しながら記事を書いています。今は「人とAIが協力してつくる未来」にワクワクしながら執筆中。コーヒーとガジェット巡りが大好きです。

突如現れた中国初生成AI「DeepSeek R1」とOpenAI「o1」「o1 Pro」に数学の問題を解かせてみた

○執筆:アイサカ創太 AIsaka Souta  ○編集:柳谷智宣

2025年に入っても、生成AIの進化は留まることを知りません。もうすぐOpenAIのo3がリリースされる予定で、みな心待ちにしているところに、大ニュースが飛び込んできました。

1月20日に中国のAIスタートアップDeepSeekから「DeepSeek R1」という推論が得意なAIモデルが発表されたのです。その性能はOpenAI o1に匹敵するほど。そして、開発コストを低く抑えたため、API料金が激安なうえ、ウェブUIは無料で提供するという大盤振る舞いをしたのです。

そこまで格安で開発、提供できるのであれば、アメリカのAI企業に果たしてそこまで巨額の投資が必要なのか、という意見が出て、1月下旬にNVIDIA株をはじめテック市場に大きな影響が出ました。

果たしてDeepSeek R1の実力はどのくらいなのでしょうか。DeepSeekが公開している資料によると、各種ベンチマークテストでOpenAI o1 miniよりは明らかに高性能で、ほぼo1と同等のスコアを出しています。とは言えベンチマークスコアだけでは性能を感じられないので、いろいろと比較してみましょう。ChatGPT Proで使える格上のo1 Pro modeも試してみました。


ベンチマークスコア比較

ベンチマークスコアを見ると「DeepSeek R1」の性能はほぼOpenAI o1並みとなっています。

数学オリンピックの問題にチャレンジ

まずは、従来の生成AIが苦手な小数点の比較をしてもらいます。このネタ、人間でも意外と間違えるので面白いです。「10.11と10.9はどちらが大きいですか?」という質問ですが、当然10.9の方が大きいのですが、小数点以下の11と9を比べて、10.11が大きい答えてしまうことがあるのです。

結果は、余裕でDeepSeek R1、o1、o1 Proともに正解となりました。


小数点比較テスト結果

10.11と10.9はどちらが大きいですか?


問題 モデル 結果
10.11と10.9はどちらが大きいですか? DeepSeek R1 正解
OpenAI o1 正解
OpenAI o1 Pro Mode 正解

ChatGPT 4oの結果

推論性能が弱いChatGPT 4oなどは間違えます。


次は難しい問題にチャレンジ。2016年の年日本数学オリンピック予選に出題された整数問題でしたが、どれも長く考えずに正解です。


数学オリンピック予選問題の結果

1以上2016以下の整数のうち、20で割った余りが16で割った余りよりも小さいものはいくつあるか。


問題 モデル 結果
1以上2016以下の整数のうち、20で割った余りが16で割った余りよりも小さいものはいくつあるか。 DeepSeek R1 正解
OpenAI o1 正解
OpenAI o1 Pro Mode 正解

他にもいくつも日本数学オリンピック予選の問題を出したのですが、全部正解してしまいました。試行するスピードはo1がもっとも早く、次いでDeepSeek R1といった感じでした。とは言え、差は少しです。僕にはまったく解くことができない問題なので驚きです。

次に、超難問と言われている1990年 国際数学オリンピック中国大会 第3問にチャレンジしました。人間にとっても難問とのことで、答えは3。こちらもどれも正解してしまいました。


国際数学オリンピック問題の結果

2 以上の整数 n で (2^n+1)/n^2 が整数となるようなものを全て求めよ。


問題 モデル 結果
2 以上の整数 n で (2^n+1)/n^2 が整数となるようなものを全て求めよ。 DeepSeek R1 正解
OpenAI o1 正解
OpenAI o1 Pro Mode 正解

2023 慶應大学 理工 数学での性能差

ほとんどのケースで、正解する時は3つのAIとも正解し、間違えるときは3つとも不正解となりました。どうしても差が付くまでやりたくて、色々と試したところ、2023 慶應大学 理工 数学の問題で不正解が出ました。

6個の穴埋め問題で、o1は4個正解、o1 Proは5個正解しました。DeepSeek R1は最初から不正解でした。何度かDeepSeek R1にやり直させてみると、時どき正解が出ることもありましたが、それでも最初の数問という感じでした。ただし、「思考過程では解き切れませんでしたが」と前置きし、とりあえずそれっぽい回答を提示してきたのにはびっくりです。間違えてはいたのですが、人間みたいですね。


■プロンプト
何も入っていない2つの袋 A, B がある。いま、「硬貨を1枚投げて表が出たら袋 A, 裏が出たら袋 B を選び、以下のルールに従って選んだ袋の中に玉を入れる」という操作を繰り返す。

**ルール**  
- 選んだ袋の中に入っている玉の数がもう一方の袋の中に入っている玉の数より多いか、2つの袋の中に入っている玉の数が同じとき、選んだ袋の中に玉を1個入れる。  
- 選んだ袋の中に入っている玉の数がもう一方の袋の中に入っている玉の数より少ないとき、選んだ袋の中に入っている玉の数がもう一方の袋の中に入っている玉の数と同じになるまで選んだ袋の中に玉を入れる。

たとえば、上の操作を3回行ったとき、硬貨が順に表、表、裏と出たとすると、A, B 2つの袋の中の玉の数は次のように変化する。

初期状態: A: 0個、B: 0個  
1回目操作後: A: 1個、B: 0個  
2回目操作後: A: 2個、B: 0個  
3回目操作後: A: 2個、B: 2個  

(1) 4回目の操作を終えたとき、袋 A の中に3個以上の玉が入っている確率は (カ) である。また、4回目の操作を終えた時点で袋 A の中に3個以上の玉が入っているという条件の下で、7回目の操作を終えたとき袋 B の中に入っている玉の数が3個以下である条件付き確率は (キ) である。

(2) n 回目の操作を終えたとき、袋 A の中に入っている玉の数の方が、袋 B の中に入っている玉の数より多い確率を \(p_n\) とする。  
\(p_{n+1}\) を \(p_n\) を用いて表すと \(p_{n+1} = \text{(ク)}\) となり、これより \(p_n\) を用いて表すと \(p_n = \text{(ケ)}\) となる。

(3) n回目(n≧4)の操作を終えたとき、袋 A の中に n-1 個以上の玉が入っている確率は (コ) であり、n-2 個以上の玉が入っている確率は (サ) である。

慶應大学理工学部数学問題の結果

Deepseekの回答のようす


モデル 正解数 詳細
DeepSeek R1 3問正解 問(カ)(キ)(ク)正解、問(ケ)(コ)(サ)不正解
OpenAI o1 4問正解 問(カ)(キ)(ク)(ケ)正解、問(コ)(サ)不正解
OpenAI o1 Pro Mode 5問正解 問(カ)(キ)(ク)(ケ)(コ)正解、問(サ)のみ不正解

結論:ほぼ互角の超ハイレベルな性能

結果として、わずかに差は付いたものの、超ハイレベルでほぼ互角の性能を持っていると感じました。DeepSeekは推論過程を日本語で表示してくれるのもいいですね。o1やo1 Proは英語で推論しているので、何を考えているのかわかりにくいところがありました。

DeepSeekはもう数学に関しては、一般人をはるかに超える能力を持っています。


この記事の監修

柳谷智宣(Yanagiya Tomonori)監修

柳谷智宣(Yanagiya Tomonori)監修

ITライターとして1998年から活動し、2022年からはAI領域に注力。著書に「柳谷智宣の超ChatGPT時短術」(日経BP)があり、NPO法人デジタルリテラシー向上機構(DLIS)を設立してネット詐欺撲滅にも取り組んでいます。第4次AIブームは日本の経済復活の一助になると考え、生成AI技術の活用法を中心に、初級者向けの情報発信を行っています。

比較検索なら 天秤AI byGMO天秤AI by GMOイメージ

最新のAIが勢ぞろい! 天秤AI by GMOなら、最大6つのAIを同時に試せる!

無料天秤AI by GMOを試す