40萬Token卻過不了嬰兒測試？AI的效率狂歡與認知困局_模型_訓練

時間：2025-10-11 07:07:06 來源：香港算命王關鍵詞：婴儿,认知,能力,效率,物理,模型,测试,训练,Token,客体,消息资讯,模型,文本,OpenAI,客体,视角

香港算命王

當 GPT-5 Pro API 能在幾分鐘內完成人工數小時的工作，卻有研究揭示：230 個多模態大模型在嬰幼兒核心認知測試中集體失利 —— 這種 “能解複雜方程卻不懂基本常識” 的荒誕圖景，正暴露出當前 AI 發展的深層悖論。OpenAI 宣稱的 “專業 AI 時代” 背後，CoreCognition 基準測試的 1503 道題目撕開了殘酷真相：大模型在客體永恒、視角采擇等人類嬰幼兒階段便掌握的基礎能力上，仍處於認知荒漠。對科技領域關注者而言，這絕非技術細節的缺失，而是 AI “偽理解” 本質與人類認知邏輯的根本分野。

GPT-5 Pro API 的技術參數有多耀眼，認知測試的結果就有多刺眼。這款能消化 30 萬字學術論文的模型，其底層認知能力卻連 1 歲嬰兒都不如：當測試呈現 “小球被擋板遮擋後是否存在” 的經典客體永恒實驗時，多數多模態大模型會錯誤判定 “小球消失”；面對 “從他人視角觀察水杯的形狀” 這類視角采擇題目，模型正確率甚至低於隨機猜測。

這種斷層源於兩類能力的本質差異。GPT-5 Pro 的 40 萬 Token 上下文與動態路由架構，本質是 “模式識別與數據處理效率” 的升級 —— 牠能精準匹配法律條文與判例的關聯、快速整合多源風控數據，靠的是對海量文本中統計規律的掌握。而 CoreCognition 測試考察的底層認知，是人類通過與物理世界互動形成的 “先天 + 後天” 核心知識，比如 “物體不會憑空消失”“視角不同看到的畫面不同”，這些無需語言描述卻支配一切認知的基礎法則，恰恰是大模型的知識盲區。正如研究指出的，模型依賴表面數據模式生成答案，而非真正理解物理世界的運行邏輯。

更值得警惕的是 “規模無效性” 陷阱。OpenAI 通過擴大模型規模提升了專業領域的推理能力，卻無法改善底層認知 ——CoreCognition 測試顯示，參數從千億級增至萬億級的模型，在客體永恒題目上的正確率僅提升 3%。這印證了一個關鍵結論：認知能力的構建並非 “參數堆砌” 的產物，缺乏核心知識底座的大模型，再強的效率優化也只是 “空中樓閣”。

病根溯源：預訓練邏輯與認知形成的背離

大模型的認知短板，早在訓練之初便已注定。字節跳動技術團隊的研究揭示，大模型本質是 “通過計算 token 概率建模語言分布” 的工具，其預訓練目標是提升文本連貫性而非事實理解能力。這種 “重語言輕現實” 的訓練邏輯，使其難以獲得人類通過感官體驗建立的認知基礎。

以客體永恒性為例，人類嬰兒通過無數次 “尋找被藏玩具” 的實踐理解這一法則，而大模型只能從文本中學習 “物體被遮擋後仍然存在” 的描述。當測試場景稍有變化 —— 比如擋板顏色改變或遮擋角度調整，模型便會因缺乏 “物理直覺” 而判斷失誤。研究提出的 “概念干預法” 更證實了這一點：當人為強化 “遮擋物與物體存在性” 的關聯後，模型正確率顯著提升，但移除干預後立刻退回原點，說明其並未真正建立認知概念。

這種認知形成路徑的差異，直接導致大模型的 “專業能力” 存在致命隱患。GPT-5 Pro 能快速生成風控報告，卻可能因 “不懂因果關係” 將相關性誤判為因果性；牠能解析專利文檔的技術細節，卻可能因 “缺乏空間認知” 誤解附圖中的結構關係。這些隱患在專業領域可能引發災難性後果 —— 醫療場景中，模型若因視角采擇能力不足誤判醫學影像，金融領域若因因果認知缺失錯判風險關聯，效率越高反而危害越大。

破局關鍵：從 “文本學習” 到 “世界互動” 的轉向

當前 AI 的認知困局，並非無法突破的技術壁壘，而是發展路徑的方向偏差。解決底層認知缺失，需要跳出 “擴大參數 + 優化架構” 的慣性思維，構建 “文本數據 + 物理交互” 的雙輪訓練體系。

一種可行路徑是引入 “具身智能” 訓練。讓模型通過虛擬環境模擬人類嬰幼兒的認知發展過程：在數字空間中 “觸摸” 物體感知硬度、“移動” 視角觀察變化、“操作” 工具理解因果，將物理世界的基本法則內化為認知本能。已有研究顯示，經過虛擬抓握訓練的模型，在客體永恒題目上的正確率提升至 68%，較純文本訓練模型提高 42%。

另一種方案是重構預訓練目標。在現有語言建模基礎上，加入 “認知先驗” 約束 —— 比如將物理定律、空間關係等核心知識轉化為訓練任務，強制模型學習 “物體不會憑空消失”“視角決定觀察結果” 等基礎法則。OpenAI 若能在 GPT 系列中融入這類訓練，或許能讓 40 萬 Token 的上下文能力真正落地於 “理解” 而非 “匹配”。

對企業級用戶而言，當前階段更需建立 “效率與認知的雙重評估體系”。在使用 GPT-5 Pro API 處理專業任務時，需通過三重驗證規避認知風險：用物理常識核查推理邏輯（如 “庫存數據是否符合物質守恒”）、用多視角交叉驗證結論（如 “從供需雙方視角判斷市場分析合理性”）、用人工審核關鍵決策環節（如醫療診斷、重大風控結論）。這並非否定技術價值，而是在認知短板補齊前，為 AI 的 “效率狂歡” 裝上安全剎車。

香港算命王

40萬Token卻過不了嬰兒測試？AI的效率狂歡與認知困局_模型_訓練_能力

12星座明日運勢：

百科小知識：

你可能感興趣的：