AI業界の最新ニュースを追う代表岡田が、OpenAIの新たなフラッグシップモデル「o3-pro」のリリース報道をキャッチ。その驚異的な性能と、SNSで囁かれる「遅くて使えない」という評判の真相を探るべく、エンジニアの秋月氏と緊急対談を実施しました。学術的なベンチマークで圧倒的なスコアを叩き出す一方、実用性には疑問符が付くというこの最新モデル。果たしてAIの未来をどう変えるのか、それとも単なる技術デモで終わるのか。二人のリアルな視点から、最新AIの可能性と現実を紐解きます。岡田:昨日(6月10日)の夜に公開された「o3-pro」のニュースについて話しましょうか。秋月:へえ、知らなかったです。岡田:ニュースによると、学術的な評価ではo3-proは既存のo3を常に上回っているようです。特にプログラミング、科学、化学、競技数学、競技プログラミングといった分野で、すべてのベンチマークを上回っています。岡田:ただ、信頼性は高い一方で、速度がどれだけあるかという問題があります。SNSを少し見ていたら、「遅くて使い物にならない」という声もありましたね。例えばプログラミングで、少しマイナーな言語を使う必要がある場面で、これまでのモデルだと正しくコーディングしてくれないことがありました。秋月:大きいモデルだと、情報が少ないライブラリや言語でも正しくコーディングしてくれる可能性は高くなりそうですね。ただ、やはり遅そうな空気はします。岡田:賢くなった、というレベルかもしれませんね。秋月:時間かかってもいいから、正しい結果を導き出してほしい、といった特殊な状況で使えるのかもしれないですね。岡田:ニュースリリースには「物理、数学、コーディングなどの領域で、信頼性の高いパフォーマンスを可能にする」とありました。あとは、これを使ってAIエージェントを組んだら、性能が上がるかもしれません。秋月:エージェントの性能は上がりますよね。一晩中動かしておくような使い方なら、応答速度も気にならないかもしれません。岡田:Web検索、ファイルの分析、視覚的入力の推論、Pythonの使用といった、使えるツール自体はこれまでと変わらず、純粋に頭脳の性能が上がったという感じですね。ただ、驚いたことに画像生成はできないみたいです。結構使う機能なんですけどね。秋月:へえ、そうなんですね。岡田:各種ベンチマークのスコアは本当に高いです。秋月:ただ、そういうベンチマークって、性能の良かったところだけを抜き出して発表している可能性はありますよね。岡田:それはありますね。評価でよく使われるMMLU(大規模マルチタスク言語理解)は、57のタスクにわたる初等数学や法律などの知識を問うもので、選択式だから評価しやすいという側面もあります。岡田:実際に試してみると、本当に応答が長い。マジでどれだけ考えているんだ、というレベルです。秋月:マジで長いですね。長すぎて思考プロセスを示す横棒だけになっていますね。岡田:これだと1つの回答に10分くらいかかるかもしれません。実用には耐えられないですね。逆に何をやらせたらいいのか…やはり高難度のプログラミングとかでしょうか。秋月:でも、現状では一度に1ファイルしか読み込めないですよね。岡田:そうか。それなら複数のファイルを読み込めるClaudeの方がコーディングには向いていますね。最近のClaudeはプログラミングにかなり力を入れて差別化しようとしている印象があります。秋月:若干そういう方向に来ていると思います。岡田:もしかしたら、o3-proでディープリサーチ機能を使えば、超詳細なデータを取ってきてくれるのかもしれません。秋月:期待するとしたら、そこですかね。岡田:個人的にはo3が出た時でさえ、革命的に性能が高いと感じて、これまで解けなかった問題が解けるようになった実感はあったんですけどね。o3-proは、まだ最適な使い道を見つける必要がありそうです。その業務課題、AIで解決できるかもしれません「AIエージェントで定型業務を効率化したい」 「社内に眠る膨大なデータをビジネスに活かしたい」このような課題をお持ちではありませんか?私たちは、お客様一人ひとりの状況を丁寧にヒアリングし、本記事でご紹介したような最新のAI技術を活用して、ビジネスを加速させるための最適なご提案をいたします。AI戦略の策定から、具体的なシステム開発・導入、運用サポートまで、一気通貫でお任せください。「何から始めれば良いかわからない」という段階でも全く問題ありません。 まずは貴社の状況を、お気軽にお聞かせください。>> AI開発・コンサルティングの無料相談はこちら記事で言及されたツール・用語o3-pro OpenAIの最新モデル。MMLU (Massive Multitask Language Understanding) AIモデルの知識と問題解決能力を測定するための主要なベンチマークの一つ。幅広い分野の多肢選択問題で構成される。AIエージェント 自律的にタスクを分解し、計画を立てて実行するAIシステム。高性能なモデルを搭載することで、より複雑なタスクの自動化が期待される。Claude Anthropic社が開発したAIモデル。特に長い文章の読解や生成、コーディング能力に定評がある。ディープリサーチ 特定のテーマについて、Web上の情報を深く検索・分析し、詳細なレポートを生成する機能。