李飛飛が11月に発表した新文章: AIは「話せる存在」から「世界を見られる存在」へ
—— 今後10年、AIは「空間知能」を身につけ、人間にも理解できるようになる
■ 李飛飛とは誰か?
彼女はAI界の伝説的存在で、「コンピュータビジョンの母」と呼ばれる人物。
2006年に ImageNet を作り、コンピュータが初めて「写真を理解する」能力を得た。これが、今日のAIによる画像認識・顔認識の時代を切り開いた。
(原文リンク:英語版;全文は彼女のSubstack:drfeifei.substack.com)
■ 彼女が11月に語ったこと
いまのAIは、文章を書いたり絵を描いたりするのは得意だが、
実は「盲目」だという。
たとえば――
-
「猫がテーブルに飛び乗る」文章は書ける
→ しかしテーブルの高さも、猫がどう跳ぶかも、コップに当たるかも分からない。 -
動画は作れる
→ だが3秒後には破綻する。
なぜなら「空間」や「物理法則」を理解していないから。
彼女は言う:
AIの次のステップは「空間知能」を身につけることだ。
人間の赤ちゃんが、生まれた瞬間から世界を見て、触って、歩き方を学ぶように、
AIにも以下を学ばせるべきだという。
■ 人間ができてAIがまだできないこと
| 機能 | 人間 | AI(現在) |
|---|---|---|
| 3D世界を理解する | 可能:コップが左30cmにあると分かる | ほぼできない |
| 次の動きを予測する | 可能:ドアを押せばどちらに開くか理解 | できない |
| 新しい場面を想像する | 可能:「雨なら地面が濡れる」 | 推測が不安定 |
■ 10年後、AIはどう変わるか?
空間知能を持つAI=「話すだけではなく、世界を理解し、行動できるAI」
| 場面 | 現在のAI | 空間知能を持つAI |
|---|---|---|
| 家庭用ロボット | 指示通り動くだけ | 散らかった部屋を見て自ら片づけ、小さな子供を避けて歩く |
| 自動運転 | 道は読むが誤判定が多い | 「転がるボールの後ろに子供がいる」と予測できる |
| ゲーム・映像 | 見た目は綺麗、論理は破綻 | 「生きた都市」を生成、雨なら水たまりができる |
| 医療 | 報告書だけを読む | 手術前に「仮想人体」で100回練習 |
■ どうやって実現するのか?
彼女が進めていること
1. コンピュータ上で“現実世界をシミュレートする”
→ 無数の仮想の部屋・街を作り、AIに「見る」「動く」練習をさせる。
(彼女の定義する「ワールドモデル」には3つの能力が必要:
-
首尾一貫した世界生成
-
マルチモーダル入力
-
相互作用による次の予測)
2. AIに物理の常識を教える
→ 子供に教えるように
「コップは落ちると割れる」「坂ではボールは加速する」
を学習させる。
(課題:大量の映像データ、合成データ、より高性能なセンサーが必要)
3. 彼女の会社 World Labs
→ AI用の「3Dトレーニングキャンプ」を構築中。
AIが子供のように“成長”する環境。
最近発表された「Marble」モデルは、
画像や文章から インタラクティブな3D空間 を生成し、
物語の世界を歩いて探索できるようになった。
■ 私たちへの影響
| 現在 | 未来(5–10年後) |
|---|---|
| Siriに「電気つけて」と言う | 「充電器どこ?」→AIが歩いて取ってくる |
| AIに絵を描かせる | AIが作った「仮想公園」を歩き、木やボールに触れる |
| ゲームで行き詰まる | AIが仲間になり、「こう飛べば届く」と助言してくれる |
■ まとめ
李飛飛は言う:
AIは、言葉だけを操る存在では不十分。
これからのAIは、人間のように
“世界を理解し、未来を予測し、行動する”存在になるべきだ。
これこそが、今後10年でAIが本当に進化すべき方向だ。
原文は、空間知能の歴史的進化(DNA構造の発見など)や技術的課題も詳しく説明している。
興味があれば、ぜひ全文を読むことをおすすめする!

留言
張貼留言