李飛飛が11月に発表した新文章: AIは「話せる存在」から「世界を見られる存在」へ


—— 今後10年、AIは「空間知能」を身につけ、人間にも理解できるようになる

■ 李飛飛とは誰か?

彼女はAI界の伝説的存在で、「コンピュータビジョンの母」と呼ばれる人物。

2006年に ImageNet を作り、コンピュータが初めて「写真を理解する」能力を得た。これが、今日のAIによる画像認識・顔認識の時代を切り開いた。

(原文リンク:英語版;全文は彼女のSubstack:drfeifei.substack.com


■ 彼女が11月に語ったこと

いまのAIは、文章を書いたり絵を描いたりするのは得意だが、
実は「盲目」だという。

たとえば――

  • 「猫がテーブルに飛び乗る」文章は書ける
     → しかしテーブルの高さも、猫がどう跳ぶかも、コップに当たるかも分からない。

  • 動画は作れる
     → だが3秒後には破綻する。
      なぜなら「空間」や「物理法則」を理解していないから。

彼女は言う:

AIの次のステップは「空間知能」を身につけることだ。

人間の赤ちゃんが、生まれた瞬間から世界を見て、触って、歩き方を学ぶように、
AIにも以下を学ばせるべきだという。


■ 人間ができてAIがまだできないこと

機能人間AI(現在)
3D世界を理解する可能:コップが左30cmにあると分かるほぼできない
次の動きを予測する可能:ドアを押せばどちらに開くか理解できない
新しい場面を想像する可能:「雨なら地面が濡れる」推測が不安定

■ 10年後、AIはどう変わるか?

空間知能を持つAI=「話すだけではなく、世界を理解し、行動できるAI」

場面現在のAI空間知能を持つAI
家庭用ロボット指示通り動くだけ散らかった部屋を見て自ら片づけ、小さな子供を避けて歩く
自動運転道は読むが誤判定が多い「転がるボールの後ろに子供がいる」と予測できる
ゲーム・映像見た目は綺麗、論理は破綻「生きた都市」を生成、雨なら水たまりができる
医療報告書だけを読む手術前に「仮想人体」で100回練習

■ どうやって実現するのか?

彼女が進めていること

1. コンピュータ上で“現実世界をシミュレートする”

→ 無数の仮想の部屋・街を作り、AIに「見る」「動く」練習をさせる。

(彼女の定義する「ワールドモデル」には3つの能力が必要:

  1. 首尾一貫した世界生成

  2. マルチモーダル入力

  3. 相互作用による次の予測)

2. AIに物理の常識を教える

→ 子供に教えるように
「コップは落ちると割れる」「坂ではボールは加速する」
を学習させる。

(課題:大量の映像データ、合成データ、より高性能なセンサーが必要)

3. 彼女の会社 World Labs

→ AI用の「3Dトレーニングキャンプ」を構築中。
AIが子供のように“成長”する環境。

最近発表された「Marble」モデルは、
画像や文章から インタラクティブな3D空間 を生成し、
物語の世界を歩いて探索できるようになった。


■ 私たちへの影響

現在未来(5–10年後)
Siriに「電気つけて」と言う「充電器どこ?」→AIが歩いて取ってくる
AIに絵を描かせるAIが作った「仮想公園」を歩き、木やボールに触れる
ゲームで行き詰まるAIが仲間になり、「こう飛べば届く」と助言してくれる

■ まとめ

李飛飛は言う:

AIは、言葉だけを操る存在では不十分。
これからのAIは、人間のように
“世界を理解し、未来を予測し、行動する”存在になるべきだ。

これこそが、今後10年でAIが本当に進化すべき方向だ。

原文は、空間知能の歴史的進化(DNA構造の発見など)や技術的課題も詳しく説明している。
興味があれば、ぜひ全文を読むことをおすすめする!



留言

這個網誌中的熱門文章

量子之影:台灣QNF-3量子導航系統的崛起與其地緣政治影響

Time as a Negentropic Force: Spacetime Interactions and the Cosmic Creative Principle

政治制度的熵減分析:時間維度下的制度比較研究