李飛飛11月新文章：AI要從「會說話」變成「會看世界」

—— 未來10年，AI要學會「空間智能」

她是AI界的傳奇人物，像「電腦視覺之母」。 2006年她做出 ImageNet，讓電腦第一次「看懂照片」，開啟了今天AI看圖、辨識臉的時代。（原文連結：英文版；完整宣言見她的Substack：drfeifei.substack.com）

現在的AI很會聊天、寫文章、畫圖，但它其實是「瞎子」。

她說：AI的下一步是學會「空間智能」。就像嬰兒從出生就開始看世界、摸東西、學走路一樣， AI也要學會：

有了空間智能，AI不只會「說」，還會「懂世界、動手做」。

用電腦「模擬真實世界」 → 做出無數個虛擬房間、街道，讓AI練習「看」和「動」。（她定義的「世界模型」有三個關鍵能力：生成一致的世界、多模態輸入、互動預測下一步。）
教AI物理常識 → 像教小孩：「杯子掉下去會碎」「球滾下坡會加速」。（挑戰：需要海量影像/影片數據，加上合成數據和更好感測器。）
她的公司 World Labs 正在打造「AI的3D訓練營」，讓AI像小孩一樣「長大」。最近測試了「Marble」模型：用圖片/文字提示，就能生成可互動的3D環境，讓故事家探索和創作。

李飛飛說：AI不能只會說話，它要像我們一樣，「看懂世界、預測未來、動手做事」。這就是未來10年，AI真正的升級方向。

這是基於原文的精華摘要，原文更詳細討論了空間智能的演化、歷史例子（如DNA結構發現）和技術挑戰。如果你想深入，推薦讀完整版！

QUANTIUM AI STUDY