從ChatGPT到Optimus都中槍?楊立昆為什麼說現在的AI路線根本錯了?世界模型JEPA才是未來?
最近(大概就在達沃斯論壇那陣子,2026年1月左右), Yann LeCun (楊立昆,圖靈獎得主、卷積神經網路之父、前Meta AI首席科學家,現在自己開AMI Labs)在AI House的閉門會上,直接開砲說: 「目前所有做人形機器人的公司,一家都沒有真正知道怎麼讓這些機器人變得夠聰明、能在真實世界派上用場!」 這話一出,直接戳到 Elon Musk (馬斯克)的痛點,因為他把特斯拉的未來很大一部分押在 Optimus (擎天柱)人形機器人上。現場影片被截出來傳到X上,有人酸楊立昆「怎麼老是這麼負面、潑冷水」,馬斯克馬上跳出來酸回去: 「Yann覺得自己做不到,就覺得別人也做不到。」 (超酸的嘲諷滿點!) 楊立昆當然不吞這口氣,幾小時後就回擊: 「恰恰相反,我知道我做得到,我也知道怎麼做。只是現在大家賭的那些技術路線(大語言模型那一套)根本走不通。我賭的是 JEPA (聯合嵌入預測架構)、世界模型(world models)、跟規劃(planning)。總有一天你們會發現我才是對的。」 這場對嗆不只是兩個大佬的嘴砲,而是AI發展路線的 大分水嶺 。下面用台灣國語口語風格,加上圖解,來好好拆解楊立昆到底在吵什麼、為什麼他敢這樣硬嗆馬斯克。 第一層:語言其實很「簡單」,生成式AI騙不了真正智能 現在大家看到ChatGPT、Gemini、Claude寫文章、寫程式、翻譯超猛,就覺得「哇,這就是智能啦!」 楊立昆直接潑冷水: 語言是人類把真實世界高度壓縮、抽象化後的符號 。文字裡面沒有顏色、重量、溫度、物理碰撞的細節。大語言模型只是在學這些符號之間的機率關係, 它在玩「統計模仿」 ,不是真的理解世界。 生成圖片/影片的擴散模型(像Midjourney、Sora)也一樣,試圖像素級預測未來,但真實世界太多隨機細節(風吹樹葉每一片怎麼晃、光影變化),算力爆表也預測不準,最後只能生成「平均模糊版」或看起來漂亮但物理不通的東西。 ai-supremacy.com A Path Towards Autonomous Machine Intelligence (這張圖就是世界模型的概念:不是像素級生成,而是抽象預測未來狀態) 第二層:真正智能的基石是「預測性世界模型」,不是生成式 楊立昆的核心主張: 智能的核心是腦袋裡有一個能預測「我做這...