李飛飛11月新文章:AI要從「會說話」變成「會看世界」


—— 未來10年,AI要學會「空間智能」

誰是李飛飛?

她是AI界的傳奇人物,像「電腦視覺之母」。 2006年她做出 ImageNet,讓電腦第一次「看懂照片」,開啟了今天AI看圖、辨識臉的時代。 (原文連結:英文版;完整宣言見她的Substack:drfeifei.substack.com

她11月說了什麼?

現在的AI很會聊天、寫文章、畫圖,但它其實是「瞎子」。

  • 它能寫出「一隻貓跳上桌子」, 但看不懂桌子有多高、貓怎麼跳、會不會撞到杯子。
  • 它能生成一段影片, 但3秒後就亂掉,因為它不懂「空間」和「物理規則」。

她說:AI的下一步是學會「空間智能」。 就像嬰兒從出生就開始看世界、摸東西、學走路一樣, AI也要學會:

功能就像人會…AI現在會嗎?
看懂3D世界知道杯子在桌子的左邊,離我30公分不會
預測下一步推門時知道門會往哪邊開不會
想像新場景想「如果下雨,地上會濕」只能亂猜

未來10年,AI會變成什麼?

有了空間智能,AI不只會「說」,還會「懂世界、動手做」。

場景現在的AI有了空間智能的AI
家裡機器人只能照指令走看到廚房亂了,會自己收玩具、躲開小孩
自動駕駛看路但常誤判能預測「那個球滾出來,後面有小孩」
玩遊戲 / 看電影畫面漂亮但邏輯亂整個虛擬城市都「活著」,下雨會積水
看醫生只能看報告手術前先在虛擬人體裡練習100次

怎麼做到?她正在做的事

  1. 用電腦「模擬真實世界」 → 做出無數個虛擬房間、街道,讓AI練習「看」和「動」。 (她定義的「世界模型」有三個關鍵能力:生成一致的世界、多模態輸入、互動預測下一步。)
  2. 教AI物理常識 → 像教小孩: 「杯子掉下去會碎」「球滾下坡會加速」。 (挑戰:需要海量影像/影片數據,加上合成數據和更好感測器。)
  3. 她的公司 World Labs 正在打造「AI的3D訓練營」,讓AI像小孩一樣「長大」。 最近測試了「Marble」模型:用圖片/文字提示,就能生成可互動的3D環境,讓故事家探索和創作。

對你我的影響

現在未來(5–10年後)
叫Siri開燈對AI說「幫我找充電器」,它自己走過去拿
看AI畫一張圖走進AI做的「虛擬公園」,可以摸樹、踢球
玩遊戲卡關AI當隊友,會幫你想「怎麼跳過去」

總結:

李飛飛說:AI不能只會說話, 它要像我們一樣, 「看懂世界、預測未來、動手做事」。 這就是未來10年,AI真正的升級方向。


這是基於原文的精華摘要,原文更詳細討論了空間智能的演化、歷史例子(如DNA結構發現)和技術挑戰。如果你想深入,推薦讀完整版!



留言

這個網誌中的熱門文章

量子之影:台灣QNF-3量子導航系統的崛起與其地緣政治影響

量子化學範式轉變對社會科學的啟示

從台灣視角探討法律韌性原則與中國挑戰國際秩序之影響