DeepSeek R1 vs OpenAI o1/o1 Pro：数学力対決で見えた中国産生成AIの実力

$DeepSeek R1 vs OpenAI o1/o1 Pro：数学力対決で見えた中国産生成AIの実力$

[]

突如現れた中国初生成AI「DeepSeek R1」とOpenAI「o1」「o1 Pro」に数学の問題を解かせてみた

○執筆：アイサカ創太　AIsaka Souta 　○編集：柳谷智宣

2025年に入っても、生成AIの進化は留まることを知りません。もうすぐOpenAIのo3がリリースされる予定で、みな心待ちにしているところに、大ニュースが飛び込んできました。

1月20日に中国のAIスタートアップDeepSeekから「DeepSeek R1」という推論が得意なAIモデルが発表されたのです。その性能はOpenAI o1に匹敵するほど。そして、開発コストを低く抑えたため、API料金が激安なうえ、ウェブUIは無料で提供するという大盤振る舞いをしたのです。

そこまで格安で開発、提供できるのであれば、アメリカのAI企業に果たしてそこまで巨額の投資が必要なのか、という意見が出て、1月下旬にNVIDIA株をはじめテック市場に大きな影響が出ました。

果たしてDeepSeek R1の実力はどのくらいなのでしょうか。DeepSeekが公開している資料によると、各種ベンチマークテストでOpenAI o1 miniよりは明らかに高性能で、ほぼo1と同等のスコアを出しています。とは言えベンチマークスコアだけでは性能を感じられないので、いろいろと比較してみましょう。ChatGPT Proで使える格上のo1 Pro modeも試してみました。

$ベンチマークスコア比較$

ベンチマークスコアを見ると「DeepSeek R1」の性能はほぼOpenAI o1並みとなっています。

数学オリンピックの問題にチャレンジ

まずは、従来の生成AIが苦手な小数点の比較をしてもらいます。このネタ、人間でも意外と間違えるので面白いです。「10.11と10.9はどちらが大きいですか？」という質問ですが、当然10.9の方が大きいのですが、小数点以下の11と9を比べて、10.11が大きい答えてしまうことがあるのです。

結果は、余裕でDeepSeek R1、o1、o1 Proともに正解となりました。

$小数点比較テスト結果$

10.11と10.9はどちらが大きいですか？

問題	モデル	結果
10.11と10.9はどちらが大きいですか？	DeepSeek R1	正解
	OpenAI o1	正解
	OpenAI o1 Pro Mode	正解

$ChatGPT 4oの結果$

推論性能が弱いChatGPT 4oなどは間違えます。

次は難しい問題にチャレンジ。2016年の年日本数学オリンピック予選に出題された整数問題でしたが、どれも長く考えずに正解です。

$数学オリンピック予選問題の結果$

1以上2016以下の整数のうち、20で割った余りが16で割った余りよりも小さいものはいくつあるか。

問題	モデル	結果
1以上2016以下の整数のうち、20で割った余りが16で割った余りよりも小さいものはいくつあるか。	DeepSeek R1	正解
	OpenAI o1	正解
	OpenAI o1 Pro Mode	正解

他にもいくつも日本数学オリンピック予選の問題を出したのですが、全部正解してしまいました。試行するスピードはo1がもっとも早く、次いでDeepSeek R1といった感じでした。とは言え、差は少しです。僕にはまったく解くことができない問題なので驚きです。

次に、超難問と言われている1990年国際数学オリンピック中国大会第3問にチャレンジしました。人間にとっても難問とのことで、答えは3。こちらもどれも正解してしまいました。

$国際数学オリンピック問題の結果$

2 以上の整数 n で (２^ｎ+1)/ｎ^２が整数となるようなものを全て求めよ。

問題	モデル	結果
2 以上の整数 n で (２^ｎ+1)/ｎ^２が整数となるようなものを全て求めよ。	DeepSeek R1	正解
	OpenAI o1	正解
	OpenAI o1 Pro Mode	正解

2023 慶應大学理工数学での性能差

ほとんどのケースで、正解する時は3つのAIとも正解し、間違えるときは3つとも不正解となりました。どうしても差が付くまでやりたくて、色々と試したところ、2023 慶應大学理工数学の問題で不正解が出ました。

6個の穴埋め問題で、o1は4個正解、o1 Proは5個正解しました。DeepSeek R1は最初から不正解でした。何度かDeepSeek R1にやり直させてみると、時どき正解が出ることもありましたが、それでも最初の数問という感じでした。ただし、「思考過程では解き切れませんでしたが」と前置きし、とりあえずそれっぽい回答を提示してきたのにはびっくりです。間違えてはいたのですが、人間みたいですね。

■プロンプト
何も入っていない2つの袋 A, B がある。いま、「硬貨を1枚投げて表が出たら袋 A, 裏が出たら袋 B を選び、以下のルールに従って選んだ袋の中に玉を入れる」という操作を繰り返す。

**ルール**  
- 選んだ袋の中に入っている玉の数がもう一方の袋の中に入っている玉の数より多いか、2つの袋の中に入っている玉の数が同じとき、選んだ袋の中に玉を1個入れる。  
- 選んだ袋の中に入っている玉の数がもう一方の袋の中に入っている玉の数より少ないとき、選んだ袋の中に入っている玉の数がもう一方の袋の中に入っている玉の数と同じになるまで選んだ袋の中に玉を入れる。

たとえば、上の操作を3回行ったとき、硬貨が順に表、表、裏と出たとすると、A, B 2つの袋の中の玉の数は次のように変化する。

初期状態: A: 0個、B: 0個  
1回目操作後: A: 1個、B: 0個  
2回目操作後: A: 2個、B: 0個  
3回目操作後: A: 2個、B: 2個  

(1) 4回目の操作を終えたとき、袋 A の中に3個以上の玉が入っている確率は (カ) である。また、4回目の操作を終えた時点で袋 A の中に3個以上の玉が入っているという条件の下で、7回目の操作を終えたとき袋 B の中に入っている玉の数が3個以下である条件付き確率は (キ) である。

(2) n 回目の操作を終えたとき、袋 A の中に入っている玉の数の方が、袋 B の中に入っている玉の数より多い確率を \(p_n\) とする。  
\(p_{n+1}\) を \(p_n\) を用いて表すと \(p_{n+1} = \text{(ク)}\) となり、これより \(p_n\) を用いて表すと \(p_n = \text{(ケ)}\) となる。

(3) n回目（n≧4）の操作を終えたとき、袋 A の中に n-1 個以上の玉が入っている確率は (コ) であり、n-2 個以上の玉が入っている確率は (サ) である。

$慶應大学理工学部数学問題の結果$

Deepseekの回答のようす

モデル	正解数	詳細
DeepSeek R1	3問正解	問(カ)(キ)(ク)正解、問(ケ)(コ)(サ)不正解
OpenAI o1	4問正解	問(カ)(キ)(ク)(ケ)正解、問(コ)(サ)不正解
OpenAI o1 Pro Mode	5問正解	問(カ)(キ)(ク)(ケ)(コ)正解、問(サ)のみ不正解

結論：ほぼ互角の超ハイレベルな性能

結果として、わずかに差は付いたものの、超ハイレベルでほぼ互角の性能を持っていると感じました。DeepSeekは推論過程を日本語で表示してくれるのもいいですね。o1やo1 Proは英語で推論しているので、何を考えているのかわかりにくいところがありました。

DeepSeekはもう数学に関しては、一般人をはるかに超える能力を持っています。

この記事の監修

この記事を共有：