從ChatGPT到Optimus都中槍？楊立昆為什麼說現在的AI路線根本錯了？世界模型JEPA才是未來？

1月 31, 2026

最近（大概就在達沃斯論壇那陣子，2026年1月左右），Yann LeCun（楊立昆，圖靈獎得主、卷積神經網路之父、前Meta AI首席科學家，現在自己開AMI Labs）在AI House的閉門會上，直接開砲說：

「目前所有做人形機器人的公司，一家都沒有真正知道怎麼讓這些機器人變得夠聰明、能在真實世界派上用場！」

這話一出，直接戳到Elon Musk（馬斯克）的痛點，因為他把特斯拉的未來很大一部分押在Optimus（擎天柱）人形機器人上。現場影片被截出來傳到X上，有人酸楊立昆「怎麼老是這麼負面、潑冷水」，馬斯克馬上跳出來酸回去：

「Yann覺得自己做不到，就覺得別人也做不到。」

（超酸的嘲諷滿點！）

楊立昆當然不吞這口氣，幾小時後就回擊：

「恰恰相反，我知道我做得到，我也知道怎麼做。只是現在大家賭的那些技術路線（大語言模型那一套）根本走不通。我賭的是JEPA（聯合嵌入預測架構）、世界模型（world models）、跟規劃（planning）。總有一天你們會發現我才是對的。」

這場對嗆不只是兩個大佬的嘴砲，而是AI發展路線的大分水嶺。下面用台灣國語口語風格，加上圖解，來好好拆解楊立昆到底在吵什麼、為什麼他敢這樣硬嗆馬斯克。

第一層：語言其實很「簡單」，生成式AI騙不了真正智能

現在大家看到ChatGPT、Gemini、Claude寫文章、寫程式、翻譯超猛，就覺得「哇，這就是智能啦！」

楊立昆直接潑冷水：語言是人類把真實世界高度壓縮、抽象化後的符號。文字裡面沒有顏色、重量、溫度、物理碰撞的細節。大語言模型只是在學這些符號之間的機率關係，它在玩「統計模仿」，不是真的理解世界。

生成圖片/影片的擴散模型（像Midjourney、Sora）也一樣，試圖像素級預測未來，但真實世界太多隨機細節（風吹樹葉每一片怎麼晃、光影變化），算力爆表也預測不準，最後只能生成「平均模糊版」或看起來漂亮但物理不通的東西。

ai-supremacy.com

A Path Towards Autonomous Machine Intelligence

（這張圖就是世界模型的概念：不是像素級生成，而是抽象預測未來狀態）

第二層：真正智能的基石是「預測性世界模型」，不是生成式

楊立昆的核心主張：智能的核心是腦袋裡有一個能預測「我做這件事，世界會怎麼變」的內部模型。

人類/動物不用真的跳崖，就知道會死，因為腦中模擬過後果。這不是靠生成每一個像素畫面，而是在抽象概念空間裡推演。

他推的JEPA（Joint Embedding Predictive Architecture，聯合嵌入預測架構）就是幹這個的：

把輸入（影片/圖片）壓成抽象表示（忽略噪音）
在抽象空間預測未來狀態
只抓穩定的因果關係（例如「樹在風中搖」），不用管每一片葉子

V-JEPA（視覺版JEPA）已經展現初步物理常識：看到球在空中懸停或杯子穿桌子的違物理影片，預測誤差超大，模型會「驚訝」，就像小寶寶看到魔術一樣。

turingpost.com

What is Joint Embedding Predictive Architecture (JEPA)?

（JEPA基本架構圖：從過去預測未來抽象表示，不是像素重建）

youtube.com

JEPA - A Path Towards Autonomous Machine Intelligence (Paper Explained)

（另一張JEPA如何通往自主智能的腦圖）

第三層：強化學習只是「櫻桃」，不是蛋糕主體

現在ChatGPT好用是因為RLHF（人類反饋強化學習），但楊立昆說這是本末倒置。

他用經典蛋糕比喻：

蛋糕本體（90%）：自監督學習（看世界、自己總結規律，像嬰兒觀察）
糖霜（9%）：監督/模仿學習（看專家示範）
櫻桃（1%）：強化學習（最後微調）

現在業界拼命找櫻桃、想用櫻桃蓋蛋糕，結果AI常一本正經唬爛，因為沒有底層常識。

medium.com

Yann LeCun Cake Analogy 2.0. Facebook AI Chief Yann LeCun ...

（楊立昆的蛋糕比喻：自監督是主體，RL只是小櫻桃）

medium.com

Yann LeCun Cake Analogy 2.0. Facebook AI Chief Yann LeCun ...

（另一版強化學習在蛋糕裡的定位）

第四層：未來靠影片+具身互動，不是更多文字

文本資料再多，也輸給影片資料100倍以上資訊量。影片有物理、光影、碰撞、重力，文本是壓縮後的，缺太多細節。

所以單靠文本永遠到不了人類級智能，必須看世界、摸世界（具身機器人）。

這也解釋他為什麼嗆馬斯克：Optimus雖然在做機器人，但如果腦袋還是生成式/語言模型那一套，路就走歪了。

cbtnews.com

Elon Musk bets Tesla's future on humanoid robots

（馬斯克的Optimus，特斯拉最新人形機器人）

techcrunch.com

Elon Musk sets 2026 Optimus sale date. Here's where other humanoid ...

（Optimus站姿，超帥但楊立昆覺得「還不夠聰明」）

第五層：楊立昆的堅持 vs. 現在主流

主流：大力出奇蹟、堆算力、堆文本、生成式通吃一切（OpenAI路線）

楊立昆：反過來，從物理世界預測與規劃下手，學抽象表徵、長程規劃、有理解能力。

他離開Meta就是因為覺得公司太「LLM上頭」，現在自己搞世界模型路線。

總結：這不是兩個大佬吵架，是哲學路線之爭——「語言就是思維」還是「物理世界才是思維基礎」？

wdez.com

Yann LeCun to leave Meta, launch AI startup focused on Advanced ...

（楊立昆本人，圖靈獎得主，現在自己搞AMI Labs，眼神超堅定）

time.com

Elon Musk Is on the 2025 TIME100 List | TIME

（馬斯克，Optimus的頭號推手，表情永遠在「我就是要幹大事」模式）

楊立昆的五重啟發金句（直接抄他的原話風格）

「語言其實很簡單，生成式AI永遠騙不了真正智能」 原味金句：「Language is easy. Generative AI is just pattern matching on compressed symbols. True intelligence comes from understanding the physical world, not just predicting the next token.」 → 啟發：別被ChatGPT寫詩寫code騙了，它只是在玩機率遊戲，沒有真的「懂」世界。未來AI要會「感覺」重力、碰撞、因果，而不是只會背文本。
「世界模型才是智能的基石，不是生成像素」 原味金句：「The path to human-level AI is through predictive world models in latent space, not generative reconstruction of every pixel. JEPA learns to predict abstract representations, ignoring irrelevant noise — that's how animals and humans do it.」 → 啟發：人類腦袋不是在腦中重播高清影片，而是抽象預測「如果我這樣做，世界會怎樣變」。JEPA就是在學這個！

malcolmlett.medium.com

Critical review of LeCun's Introductory JEPA paper | Medium

（JEPA世界模型腦圖：從感知到行動，全靠內部預測，不是像素生成）

「強化學習只是櫻桃，別用櫻桃蓋蛋糕」 原味金句：「Reinforcement learning is just the cherry on the cake. 90% is self-supervised learning to build world models by observing the world like a baby does — no labels, no rewards needed. The cake is self-supervision, icing is imitation, cherry is RL.」 → 啟發：現在業界瘋狂RLHF、找人類反饋，其實本末倒置。真正的智能基礎是「自己看世界、自己總結規律」，像嬰兒一樣。

medium.com

Yann LeCun Cake Analogy 2.0. Facebook AI Chief Yann LeCun ...

（楊立昆經典蛋糕比喻：自監督是厚厚蛋糕本體，RL只是小小一顆櫻桃）

「影片資料資訊量比文本高100倍，未來靠物理世界，不是更多文字」 原味金句：「High-quality video contains 100x more information about the physical world than text. Text is highly compressed and abstracted by humans — you'll never reach human-level intelligence by scaling text alone. We need embodied interaction with reality.」 → 啟發：別再卷語料庫了！真正的金礦在YouTube、監控影片、機器人互動裡。Optimus如果腦袋還是語言模型那一套，楊立昆覺得根本走偏。

robotsguide.com

Optimus (Tesla Bot) - ROBOTS: Your Guide to the World of Robotics

（Tesla Optimus最新版：看起來帥，但楊立昆說「還缺真正懂世界的腦袋」）

「LLM永遠到不了AGI，我知道怎麼做，總有一天你們會發現我對」 原味金句（對馬斯克回擊）：「Quite the opposite — I know I can do it, and I know how to do it. The current path everyone is betting on (pure scaling of generative models) is a dead end. World models, planning, and JEPA will win. You'll see.」 → 啟發：這句直接對馬斯克開嗆！楊立昆不是在酸，是真的相信另一條路（非生成式、預測式、世界模型），並且已經在自己公司實幹。3-5年內JEPA可能取代LLM成為主流。

最後總結一句超級啟發金句（楊立昆風格）

「別急著堆算力、堆數據、堆生成，先問自己：這個AI真的懂世界嗎？還是只會模仿人類的壓縮版描述？真正的智能，從理解物理現實開始。」

搜尋此網誌

QUANTIUM AI STUDY