Claude Code の Deep Research ワークフロー(計223エージェント、1371ツール使用)を使って調査したレポートです。

発端は単純な問いでした。LLMは「行き詰まったときに突破口を見つける能力」を持っているのか。AnthropicやOpenAIが発する警告は、その確証に基づいているのか。AI Scientistのような全自動研究システムは本当に新しい発見をしているのか。

調査結果は、発表されている印象とはかなり異なる内容でした。


要旨

本調査は、大規模言語モデル(LLM)が行き詰まり状況における突破的洞察(本稿では「知恵」と定義する)を有するか否か、および主要AI研究機関がその点についてどのような評価に基づいているかを検討した。あわせて、全自動科学発見システムの実力を独立評価の結果から検証し、反復探索型アプローチの位置づけを考察した。

調査の結果は以下の通りである。現在のLLMは事前学習データへの依存という根本的制約を持ち、未習得領域での自律的推論に限界がある。Anthropicは能力向上の速度への懸念を公表しているが、同社の内部評価では目標設定能力において人間優位を認めている。全自動科学発見システム(AI Scientist)は、新規性評価の構造的欠陥と高いエラー率が独立評価で確認されており、開発者自身も限界を認めている。成果を上げているシステムはいずれも問題ドメインを特化させ形式的検証を組み込んでいるという共通点を持つ。


1. 背景と目的

近年、LLMの能力向上に伴い、主要AI研究機関から「近い将来にノーベル賞受賞者に匹敵するAIが登場しうる」といった予測が示されている。一方で、こうした主張の根拠となる評価結果と、独立した研究者による評価結果との間には乖離が見られる。

本調査では、以下の問いを検討した。

  • LLMは、行き詰まり状況における自律的な突破的洞察(以下、「知恵」)を示すか
  • 主要AI研究機関は、LLMがこの能力を持つという評価を内部でも有しているか
  • 全自動科学発見システムは、独立した評価においてどのような実力を示しているか
  • 反復探索型アプローチ(ラルフループ)は、Chollet型問題に対して有効か

2. 調査方法

Deep Researchシステムを用いて、以下の手順で調査を実施した。

  1. 問いを5つの調査角度に分解し、並列ウェブ検索を実施
  2. 取得した上位ソースから検証可能な主張を抽出
  3. 各主張に対して独立した検証エージェント3体が賛否を判定(2/3以上が否定した場合に棄却)
  4. 確認された主張を統合・整理

3. 結果

3.1 LLMの推論能力評価——ARC-AGIベンチマーク

ARC-AGIの概要

ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)は、AI研究者François Cholletが設計した能力評価基準(ベンチマーク)である。「事前に習得した知識に依存せず、その場で帰納的推論を行う能力」の測定を目的としており、視覚的パターンから規則を発見して新たなパターンに適用する問題で構成される。人間の正答率はほぼ100%である。

ARC-AGI-1におけるo3の結果

2024年末、OpenAIのモデルo3がARC-AGI-1(初期版)で87.5%のスコアを記録した。Cholletはこれを「質的な転換点」と評価しつつ、以下のように述べた。

「o3の仕組みは、深層学習で誘導された自然言語プログラム探索である。人間的直観とは本質的に異なる。o3はAGIではない」[ARC Prize, 2024]

o3の動作原理は、問題に対して大量の候補プログラムを生成し、与えられた例題で検証して正解を選出するものである。これは大規模な探索に分類される動作であり、問題を直接推論する動作ではない。

ARC-AGI-2における結果

2025年に公開されたより難度の高いARC-AGI-2では、AIシステムと人間の間に大きな差が残っている。

評価対象スコア
最良のAIシステム(NVARC)約24%
人間100%

ARC Prize 2025技術報告書(2026年1月)は以下のように結論している。

「現在のLLMは事前学習の知識カバレッジに根本的に依存しており、知識と推論を分離する手法は未解決のまま残っている。また、パラダイム転換型のイノベーションに高効率で適応できる機械はSFの領域に留まる」[ARC Prize, 2026]

ここで「事前学習」とは、LLMがインターネット等の大規模テキストコーパスを学習する過程を指す。LLMの推論能力はこの学習データの範囲と分布に強く依存しており、学習データの密度が低い領域では性能が低下する傾向がある。

3.2 主要AI研究機関の評価

Anthropicの外部向け発言

Anthropic CEOのDario Amodeiは2024年10月公開のエッセイ”Machines of Loving Grace”において次のように述べた。

「ノーベル賞受賞者より賢く、数週間の自律タスクをこなせるAIが早ければ2026年に来うる」

Anthropic内部評価との対照

同時期にAnthropicが公開した内部評価レポート”When AI builds itself”(2026年6月)には、以下の記述がある。

「目標設定における判断力において大きな性能ギャップが依然存在する。人間の現時点での比較優位は、全体像を見て即時タスクの枠を超えて考えることにある」

ここで「目標設定能力」とは、与えられたタスクを実行する能力ではなく、何に取り組むべきかを自律的に選択する能力を指す。研究に例えると、実験を設計・実行する能力と、どの実験が科学的価値を持つかを判断する能力の後者に相当する。

すなわちAnthropicは、タスク実行能力の急速な向上を根拠に警告を発しているが、「知恵」の中核と見なせる目標設定能力については人間優位が持続していると内部評価している。

3.3 全自動科学発見システムの評価——AI Scientist

システムの概要

AI Scientistは、Sakana AI(日本)が2024年に発表したシステムである。仮説生成・実験設計・実験実行・論文執筆を全自動で行うことを目標としている。

独立評価の結果

Beel et al.(ACM SIGIR Forum, 2025)による独立評価で以下が確認された。

新規性評価の誤り

システムが生成した12件のアイデアを全件「novel(新規)」と判定した。この中には2018年発表済みの手法「SGDのマイクロバッチ処理(Jain et al., 2018)」が含まれていた。新規性判定はSemantic Scholar(論文データベース)のAPIを用いたキーワード検索に基づいており、論文の内容を概念レベルで理解して比較する処理は行われていない。

論文品質

指標数値
コーディングエラーによる実験失敗率42%(12件中5件)
ハルシネーション(※)を含む論文の割合57%
図の欠損・配置誤りを含む論文の割合57%
論文1本あたり引用文献数(中央値)5件

※ ハルシネーションとは、LLMが事実に基づかない情報を生成する現象を指す。

自己レビュー機能の不全

システム内蔵のレビュー機能は、上記の欠陥を検出しなかった。また、自動レビュースコアとハルシネーション頻度の間に正の相関が観察されており、自動スコアによる品質評価は信頼性に問題があると報告されている。

開発者自身による評価

Sakana AIはNature誌(651号, 2026年3月)掲載の論文において、自社システムの限界として以下を明記した。

「未熟・未発達なアイデアを生成することがある」「幻覚や不正確な引用が発生しやすい」

なお、「ICLRワークショップのブラインド査読で人間著者論文の採択閾値を超過した」という主張については、本調査の検証プロセスで独立した証拠が確認されなかった。ICLRは国際的な機械学習の学術会議であり、ワークショップセッションは本会議より採択基準が緩い。

3.4 成功している全自動システムの共通特性

同時期に以下のシステムが具体的な科学的成果を上げている。

システム(開発元)問題ドメイン主な成果
AlphaFold(DeepMind)タンパク質の3D構造予測ノーベル化学賞(2024年)。数億種類の構造解明
FunSearch(DeepMind)組合せ数学(※1)キャップセット問題で50年ぶりの新記録
AlphaProof(DeepMind)数学的証明IMO(※2)2024年問題で銀メダル相当の成績

※1 キャップセット問題:特定の算術的条件を満たす集合の最大サイズを求める組合せ論の問題。1970年代から研究されており長年未解決だった。

※2 IMO(国際数学オリンピック):世界の高校生を対象とした最高難度の数学コンテスト。6問構成。「銀メダル相当」はその水準に達した問題数を意味する。

これらのシステムに共通するのは、問題ドメインの特化と形式的検証の組み込みである。形式的検証とは、解の正誤を機械的・論理的に確認できる仕組みを指す。タンパク質構造は実験で検証でき、数学的証明は形式的に確認できる。この性質により、誤った解に対して即座のフィードバックが得られ、探索と修正のループが機能する。

AI Scientistが扱う「研究アイデアの新規性・価値」には機械的に確認できる正解が存在せず、自己採点ループが正常に機能しない。


4. 考察

4.1 「知恵」とLLMの能力差の構造的要因

調査結果から、現在のLLMと人間の「知恵」の間には以下の能力差が存在すると考えられる。

能力LLMの現状
学習済み知識の高速な検索・適用人間を上回る水準に達している
形式的に検証可能な探索空間の網羅AlphaFold等で実証済み
未習得領域での推論(知識と推論の分離)根本的制約が残る
何に取り組むべきかの自律的選択(目標設定)Anthropic内部評価で人間優位を確認
自己の知識の限界の把握(メタ認知)(※)限定的な能力の証拠があるが科学的コンセンサス未確定

※ メタ認知とは、自分が何を知り何を知らないかを認識する能力を指す。

4.2 反復探索型アプローチの位置づけ

反復ループを組み込んだシステム(本調査ではラルフループ型と呼ぶ)は、LLMによる解の生成と評価・修正を繰り返す局所探索アプローチである。候補解を生成し、評価スコアが閾値を下回った場合に前の状態に戻しながら探索を進める。

ARC-AGI-2において反復ループを組み込んだシステムはベースラインから改善する可能性が示唆されているが、具体的な数値は調査時点で独立した確認が取れていない。

3.4節の分析から、反復探索の有効性は「生成した解の品質を機械的に評価できるかどうか」に依存すると考えられる。ARC-AGI問題はパターンマッチングの正否確認が可能であるため、反復探索との相性はよい。一方、AI Scientistが扱うような「研究アイデアの価値評価」には同じ原理が適用できない。


5. 結論

本調査の結果、以下の点が確認または示唆された。

  1. 現在のLLMは事前学習データへの依存という根本的制約を持ち、ARC-AGI-2では人間(100%)に対してAIの最高スコアは約24%にとどまっている。

  2. Anthropicの警告は能力向上速度への懸念に基づくものであり、「知恵」の中核に相当する目標設定能力については内部評価で人間優位を認めている。外部発言と内部評価の間には乖離がある。

  3. AI Scientistは新規性評価の構造的欠陥(全件novel誤分類)、高いエラー率(42%)、ハルシネーション(57%)が独立評価で確認されており、開発者自身も限界を認めた。「全自動で新規の科学的発見を行う」という主張は現時点では支持されない。

  4. 成功している全自動研究システム(AlphaFold、FunSearch、AlphaProof)はいずれも問題ドメインを特化させ形式的検証を組み込んでいる。この構造がフィードバックループを機能させ、成果につながっている。

  5. 反復探索型アプローチは形式的評価と組み合わせることでARC型問題に対して純粋なLLM推論より有効な可能性がある。有効性の条件は解の評価可能性にある。


6. 未解決課題

以下の問いは本調査の範囲外であり、今後の調査対象となる。

  1. 「知識と推論の分離」に向けたアプローチ——ニューロシンボリック(記号論理と深層学習の統合)、外部メモリ、プログラム合成——の2026年時点での進捗

  2. AI Scientist v2(2025年4月、テンプレート依存を排除した改訂版)における新規性評価の改善有無

  3. 反復探索の寄与と基盤LLMの能力の寄与を分離した定量評価の可能性

  4. AlphaFold・FunSearch型の成功パターン(特化ドメイン+形式的検証)をより開放的な問題設定に拡張する試みの現状


参考文献

  • ARC Prize. (2024). OpenAI o3 Breakthrough. arcprize.org/blog/oai-o3-pub-breakthrough
  • ARC Prize. (2026). ARC Prize 2025 Technical Report. arxiv.org/html/2601.10904v1
  • Amodei, D. (2024). Machines of Loving Grace. darioamodei.com/essay/machines-of-loving-grace
  • Anthropic. (2026). When AI builds itself. anthropic.com/institute/recursive-self-improvement
  • Beel, J. et al. (2025). Evaluating AI Scientist. ACM SIGIR Forum. arxiv.org/html/2502.14297v2
  • Lu, C. et al. (2026). The AI Scientist. Nature, 651. sakana.ai/ai-scientist-nature/
  • Lu, C. et al. (2025). AI Scientist v2. arxiv.org/pdf/2504.08066