李飛飛11月新文章:AI要從「會說話」變成「會看世界」
—— 未來10年,AI要學會「空間智能」
誰是李飛飛?
她是AI界的傳奇人物,像「電腦視覺之母」。 2006年她做出 ImageNet,讓電腦第一次「看懂照片」,開啟了今天AI看圖、辨識臉的時代。 (原文連結:英文版;完整宣言見她的Substack:drfeifei.substack.com)
她11月說了什麼?
現在的AI很會聊天、寫文章、畫圖,但它其實是「瞎子」。
- 它能寫出「一隻貓跳上桌子」, 但看不懂桌子有多高、貓怎麼跳、會不會撞到杯子。
- 它能生成一段影片, 但3秒後就亂掉,因為它不懂「空間」和「物理規則」。
她說:AI的下一步是學會「空間智能」。 就像嬰兒從出生就開始看世界、摸東西、學走路一樣, AI也要學會:
| 功能 | 就像人會… | AI現在會嗎? |
|---|---|---|
| 看懂3D世界 | 知道杯子在桌子的左邊,離我30公分 | 不會 |
| 預測下一步 | 推門時知道門會往哪邊開 | 不會 |
| 想像新場景 | 想「如果下雨,地上會濕」 | 只能亂猜 |
未來10年,AI會變成什麼?
有了空間智能,AI不只會「說」,還會「懂世界、動手做」。
| 場景 | 現在的AI | 有了空間智能的AI |
|---|---|---|
| 家裡機器人 | 只能照指令走 | 看到廚房亂了,會自己收玩具、躲開小孩 |
| 自動駕駛 | 看路但常誤判 | 能預測「那個球滾出來,後面有小孩」 |
| 玩遊戲 / 看電影 | 畫面漂亮但邏輯亂 | 整個虛擬城市都「活著」,下雨會積水 |
| 看醫生 | 只能看報告 | 手術前先在虛擬人體裡練習100次 |
怎麼做到?她正在做的事
- 用電腦「模擬真實世界」 → 做出無數個虛擬房間、街道,讓AI練習「看」和「動」。 (她定義的「世界模型」有三個關鍵能力:生成一致的世界、多模態輸入、互動預測下一步。)
- 教AI物理常識 → 像教小孩: 「杯子掉下去會碎」「球滾下坡會加速」。 (挑戰:需要海量影像/影片數據,加上合成數據和更好感測器。)
- 她的公司 World Labs 正在打造「AI的3D訓練營」,讓AI像小孩一樣「長大」。 最近測試了「Marble」模型:用圖片/文字提示,就能生成可互動的3D環境,讓故事家探索和創作。
對你我的影響
| 現在 | 未來(5–10年後) |
|---|---|
| 叫Siri開燈 | 對AI說「幫我找充電器」,它自己走過去拿 |
| 看AI畫一張圖 | 走進AI做的「虛擬公園」,可以摸樹、踢球 |
| 玩遊戲卡關 | AI當隊友,會幫你想「怎麼跳過去」 |
總結:
李飛飛說:AI不能只會說話, 它要像我們一樣, 「看懂世界、預測未來、動手做事」。 這就是未來10年,AI真正的升級方向。
這是基於原文的精華摘要,原文更詳細討論了空間智能的演化、歷史例子(如DNA結構發現)和技術挑戰。如果你想深入,推薦讀完整版!
留言
張貼留言