當 GPT-5 Pro API 能在幾分鐘內完成人工數小時的工作,卻有研究揭示:230 個多模態大模型在嬰幼兒核心認知測試中集體失利 —— 這種 “能解複雜方程卻不懂基本常識” 的荒誕圖景,正暴露出當前 AI 發展的深層悖論。OpenAI 宣稱的 “專業 AI 時代” 背後,CoreCognition 基準測試的 1503 道題目撕開了殘酷真相:大模型在客體永恒、視角采擇等人類嬰幼兒階段便掌握的基礎能力上,仍處於認知荒漠。對科技領域關注者而言,這絕非技術細節的缺失,而是 AI “偽理解” 本質與人類認知邏輯的根本分野。
GPT-5 Pro API 的技術參數有多耀眼,認知測試的結果就有多刺眼。這款能消化 30 萬字學術論文的模型,其底層認知能力卻連 1 歲嬰兒都不如:當測試呈現 “小球被擋板遮擋後是否存在” 的經典客體永恒實驗時,多數多模態大模型會錯誤判定 “小球消失”;面對 “從他人視角觀察水杯的形狀” 這類視角采擇題目,模型正確率甚至低於隨機猜測。
這種斷層源於兩類能力的本質差異。GPT-5 Pro 的 40 萬 Token 上下文與動態路由架構,本質是 “模式識別與數據處理效率” 的升級 —— 牠能精準匹配法律條文與判例的關聯、快速整合多源風控數據,靠的是對海量文本中統計規律的掌握。而 CoreCognition 測試考察的底層認知,是人類通過與物理世界互動形成的 “先天 + 後天” 核心知識,比如 “物體不會憑空消失”“視角不同看到的畫面不同”,這些無需語言描述卻支配一切認知的基礎法則,恰恰是大模型的知識盲區。正如研究指出的,模型依賴表面數據模式生成答案,而非真正理解物理世界的運行邏輯。
更值得警惕的是 “規模無效性” 陷阱。OpenAI 通過擴大模型規模提升了專業領域的推理能力,卻無法改善底層認知 ——CoreCognition 測試顯示,參數從千億級增至萬億級的模型,在客體永恒題目上的正確率僅提升 3%。這印證了一個關鍵結論:認知能力的構建並非 “參數堆砌” 的產物,缺乏核心知識底座的大模型,再強的效率優化也只是 “空中樓閣”。
病根溯源:預訓練邏輯與認知形成的背離
大模型的認知短板,早在訓練之初便已注定。字節跳動技術團隊的研究揭示,大模型本質是 “通過計算 token 概率建模語言分布” 的工具,其預訓練目標是提升文本連貫性而非事實理解能力。這種 “重語言輕現實” 的訓練邏輯,使其難以獲得人類通過感官體驗建立的認知基礎。
以客體永恒性為例,人類嬰兒通過無數次 “尋找被藏玩具” 的實踐理解這一法則,而大模型只能從文本中學習 “物體被遮擋後仍然存在” 的描述。當測試場景稍有變化 —— 比如擋板顏色改變或遮擋角度調整,模型便會因缺乏 “物理直覺” 而判斷失誤。研究提出的 “概念干預法” 更證實了這一點:當人為強化 “遮擋物與物體存在性” 的關聯後,模型正確率顯著提升,但移除干預後立刻退回原點,說明其並未真正建立認知概念。
這種認知形成路徑的差異,直接導致大模型的 “專業能力” 存在致命隱患。GPT-5 Pro 能快速生成風控報告,卻可能因 “不懂因果關係” 將相關性誤判為因果性;牠能解析專利文檔的技術細節,卻可能因 “缺乏空間認知” 誤解附圖中的結構關係。這些隱患在專業領域可能引發災難性後果 —— 醫療場景中,模型若因視角采擇能力不足誤判醫學影像,金融領域若因因果認知缺失錯判風險關聯,效率越高反而危害越大。
破局關鍵:從 “文本學習” 到 “世界互動” 的轉向
當前 AI 的認知困局,並非無法突破的技術壁壘,而是發展路徑的方向偏差。解決底層認知缺失,需要跳出 “擴大參數 + 優化架構” 的慣性思維,構建 “文本數據 + 物理交互” 的雙輪訓練體系。
一種可行路徑是引入 “具身智能” 訓練。讓模型通過虛擬環境模擬人類嬰幼兒的認知發展過程:在數字空間中 “觸摸” 物體感知硬度、“移動” 視角觀察變化、“操作” 工具理解因果,將物理世界的基本法則內化為認知本能。已有研究顯示,經過虛擬抓握訓練的模型,在客體永恒題目上的正確率提升至 68%,較純文本訓練模型提高 42%。
另一種方案是重構預訓練目標。在現有語言建模基礎上,加入 “認知先驗” 約束 —— 比如將物理定律、空間關係等核心知識轉化為訓練任務,強制模型學習 “物體不會憑空消失”“視角決定觀察結果” 等基礎法則。OpenAI 若能在 GPT 系列中融入這類訓練,或許能讓 40 萬 Token 的上下文能力真正落地於 “理解” 而非 “匹配”。
對企業級用戶而言,當前階段更需建立 “效率與認知的雙重評估體系”。在使用 GPT-5 Pro API 處理專業任務時,需通過三重驗證規避認知風險:用物理常識核查推理邏輯(如 “庫存數據是否符合物質守恒”)、用多視角交叉驗證結論(如 “從供需雙方視角判斷市場分析合理性”)、用人工審核關鍵決策環節(如醫療診斷、重大風控結論)。這並非否定技術價值,而是在認知短板補齊前,為 AI 的 “效率狂歡” 裝上安全剎車。