李飛飛が11月に発表した新文章： AIは「話せる存在」から「世界を見られる存在」へ

11月 14, 2025

—— 今後10年、AIは「空間知能」を備えることで、現実世界との関わり方が根本的に変わる。

■ 李飛飛とは誰か？

彼女はAI界の伝説的存在で、「コンピュータビジョンの母」と呼ばれる人物。

2006年に ImageNet を作り、コンピュータが初めて「写真を理解する」能力を得た。これが、今日のAIによる画像認識・顔認識の時代を切り開いた。

（原文リンク：英語版；全文は彼女のSubstack：drfeifei.substack.com）

■ 彼女が11月に語ったこと

いまのAIは、文章を書いたり絵を描いたりするのは得意だが、
実は「盲目」だという。

たとえば――

「猫がテーブルに飛び乗る」文章は書ける
　→ しかしテーブルの高さも、猫がどう跳ぶかも、コップに当たるかも分からない。
動画は作れる
　→ だが3秒後には破綻する。
　　なぜなら「空間」や「物理法則」を理解していないから。

彼女は言う：

AIの次のステップは「空間知能」を身につけることだ。

人間の赤ちゃんが、生まれた瞬間から世界を見て、触って、歩き方を学ぶように、
AIにも以下を学ばせるべきだという。

■ 人間ができてAIがまだできないこと

機能	人間	AI（現在）
3D世界を理解する	可能：コップが左30cmにあると分かる	ほぼできない
次の動きを予測する	可能：ドアを押せばどちらに開くか理解	できない
新しい場面を想像する	可能：「雨なら地面が濡れる」	推測が不安定

■ 10年後、AIはどう変わるか？

空間知能を持つAI＝「話すだけではなく、世界を理解し、行動できるAI」

場面	現在のAI	空間知能を持つAI
家庭用ロボット	指示通り動くだけ	散らかった部屋を見て自ら片づけ、小さな子供を避けて歩く
自動運転	道は読むが誤判定が多い	「転がるボールの後ろに子供がいる」と予測できる
ゲーム・映像	見た目は綺麗、論理は破綻	「生きた都市」を生成、雨なら水たまりができる
医療	報告書だけを読む	手術前に「仮想人体」で100回練習

■ どうやって実現するのか？

彼女が進めていること

1. コンピュータ上で“現実世界をシミュレートする”

→ 無数の仮想の部屋・街を作り、AIに「見る」「動く」練習をさせる。

（彼女の定義する「ワールドモデル」には3つの能力が必要：

首尾一貫した世界生成
マルチモーダル入力
相互作用による次の予測）

2. AIに物理の常識を教える

→ 子供に教えるように
「コップは落ちると割れる」「坂ではボールは加速する」
を学習させる。

（課題：大量の映像データ、合成データ、より高性能なセンサーが必要）

3. 彼女の会社 World Labs

→ AI用の「3Dトレーニングキャンプ」を構築中。
AIが子供のように“成長”する環境。

最近発表された「Marble」モデルは、
画像や文章から インタラクティブな3D空間 を生成し、
物語の世界を歩いて探索できるようになった。

■ 私たちへの影響

現在	未来（5–10年後）
Siriに「電気つけて」と言う	「充電器どこ？」→AIが歩いて取ってくる
AIに絵を描かせる	AIが作った「仮想公園」を歩き、木やボールに触れる
ゲームで行き詰まる	AIが仲間になり、「こう飛べば届く」と助言してくれる

■ まとめ

李飛飛は言う：

AIは、言葉だけを操る存在では不十分。
これからのAIは、人間のように
“世界を理解し、未来を予測し、行動する”存在になるべきだ。

これこそが、今後10年でAIが本当に進化すべき方向だ。

原文は、空間知能の歴史的進化（DNA構造の発見など）や技術的課題も詳しく説明している。
興味があれば、ぜひ全文を読むことをおすすめする！

搜尋此網誌

QUANTIUM AI STUDY