這一套AI理論簡直可以開宗立派了!
牛津大學AI研究:武林高手打通任督二脈啦! 各位觀眾,今天這個AI研究真的要來顛覆一下我們的觀念了! 我們以前是不是都以為,AI如果想要學會推理、學會一套厲害的武功,就得經過那種 「複雜的後期訓練」,像 RLHF 啦,等於是讓它從頭開始學習一門全新的武功對不對? 結果,牛津大學這篇論文就告訴我們——事情可能不是我們想的那樣! 「內力說」: 基礎模型就像是一位內力深厚的武林高手,在預訓練階段早已習得各種推理的核心知識與模式(「核心招式」),只是這些能力處於沉睡狀態,或者說它不知道「何時出招」。 它的推理潛能並非不存在,而是尚未被激活——也就是還沒「打通任督二脈」。 關鍵在於「引導」: 這篇論文最厲害的地方就在於:它教我們如何 不改變模型任何一個權重參數(不動筋骨),只透過精心設計的 Prompting(引導),就像是給了它一本「心法口訣」,喚醒沉睡的推理內力! Chain-of-Thought (CoT) Prompting:心法口訣的精髓 • 核心思想:只要在Prompt中加入「讓我們一步步來思考」(“Let’s think step by step”)的指令,或提供少量包含中間推理步驟的示例(Few-shot),就能顯著提升模型在數學、常識、符號推理上的表現。 • 武俠比喻:這就像是教武林高手把複雜的招式拆解成簡單步驟,讓內力外顯、招招到位。 • 相關性:CoT正是「不改權重、只靠引導」來解鎖推理能力的代表,它讓模型將預訓練中學到的知識(內力)以連貫的方式展現出來(打通任督二脈)。 Reasoning Unfaithfulness:隔空打牛的真相 • 牛津的相關研究指出,CoT雖然能提升表現,但它的推理步驟未必忠實反映模型的內部計算過程。 • 武俠比喻:模型可能說「我先出了一招『推窗望月』,再接『撥雲見日』」,但實際上它是直接用「隔空打牛」的內力得到了答案。 • 這支持了「核心能力早已存在,CoT只是輸出格式」的觀點——真正的武功在心法裡,不在表面招式。 Scaling Laws & Emergence:武功涌現的臨界點 • 核心思想:許多高階能力(如推理)並非隨模型規模線性增長,而是在參數達到某個臨界點後突然涌現。 • 相關性:這種涌現現象暗示能力早已潛藏於模型之中,只是需要一個「開關」——例如CoT Prompting——來激活並展現。 • ...