新智元報導
編輯:lumina
【新智元導讀】加州大學的研究人員通過反向和錯位圖靈測試,探討了人類和AI在區分對話者是人類還是AI時的能力。但結果表明,在不進行主動互動時,無論是人類還是當前的大語言模型都難以區分二者。
由AI生成的內容漸漸充斥了互聯網。
現在的人們比起直接與AI進行對話,更多的是在閱讀和瀏覽AI生成的文本。
而經典的圖靈測試賦予了評判者一個關鍵優勢:他們可以實時調整問題,以對參與者進行對抗性測試。
但這在被動消費AI生成文本時並不總是存在。
因此,來自加州大學聖地亞哥分校的研究者提出,我們需要在更接近現實的環境中,開展圖靈測試的變體,以確定人們在現實場景中區分人類和AI的效果。
論文地址:https://arxiv.org/pdf/2407.08853
並進一步理清以下問題:
人類是否能夠僅通過觀察對話來可靠地區分人類與AI?
LLM是否可以作為AI檢測器,不僅適用於靜態文本(如文章和段落),還適用於動態對話?
錯位圖靈測試會提高還是降低準確性?
反向圖靈測試能否揭示人工系統中的樸素心理學?
以及在現實世界的對話環境中,哪些方法最適合進行AI檢測?
這項研究將通過兩種圖靈測試的變體——「反向圖靈測試」(inverted Turing test)和「錯位圖靈測試」(displaced Turing test),來測量人類和大語言模型在這種區分上的表現。
其中,GPT-3.5、GPT-4,以及作為評判者的人類基於圖靈測試的對話記錄判斷參與者是人類還是AI。
經典圖靈測試與其系列變體
經典圖靈測試
在經典的圖靈測試中,一位人類評判者與兩位參與者進行純文本對話,其中一位是人類,另一位是機器。
如果評判者無法準確區分人類和計算機,那麽計算機就通過了測試,可被視為智能體。
自圖靈的原始論文發表以來,圖靈測試掀起了激烈的辯論,對現代智能概念的理解和構建起到了關鍵作用。
但另一方面,牠作為智能測試的有效性或充分性也受到了廣泛質疑。
可不論其作為智能測試的有效性如何,圖靈測試仍然是評估人類和AI寫作相似性的重要手段,也是研究AI欺騙行為的有力工具。
多年來,已有多個通過圖靈測試的嘗試,包括1990年至2020年間的Loebner獎競賽,但沒有任何系統通過該測試。
「HumanorNot」是一個大規模的社會圖靈測試實驗,發現評判者的準確率為60%;2024年的一項研究報告了第一個通過率與隨機水平(54%)無統計學差異但仍低於人類標準(67%)的系統。
圖靈測試存在多種變體,每種變體都為理論和實踐提供了不同的視角。
反向圖靈測試(Inverted TuringTest)
反向圖靈測試,即讓AI系統擔任評判者的角色。
1996年,Watt提出了反向測試作為一種「樸素心理學」的測量方法,即人類天生具有識別與自身相似的智能並將其歸因於其他心智的傾向。
如果AI系統「無法區分兩個真人,或無法區分一位人類和一臺通過正常圖靈測試的機器,但能夠區分一位人類和一臺在有真人觀察者的正常圖靈測試中可以分辨出來的機器」,則該測試通過。
Watt認為,通過讓AI充當觀察者角色,並將其對不同參與者的判斷與人類的準確性進行比較,可以揭示AI是否具有人類類似的樸素心理學。
錯位圖靈測試(Displaced TuringTest)
錯位圖靈測試,即讓評判者閱讀由另一位人類或AI評判者先前進行的互動圖靈測試的對話記錄,從而評估AI的表現。
新的評判者被描述為「錯位」的,因為他們「置身事外」,未曾參與和AI的互動。
這是一種新的靜態圖靈測試,因為判斷基於預先存在且不變的、由人類或AI生成的內容。
其次,在傳統圖靈測試中,互動評判者可以提出動態、靈活且對抗性的問題,而靜態圖靈測試中的評判者只能基於對話內容進行判斷,無法通過互動來深入探討最有效的問詢方向。
靜態測試在評估模型能力時有一定局限性,但牠們很可能反映了現實世界中的常見情況,因為許多互動是由更廣泛的觀眾閱讀的,而不僅僅是直接的對話當事人。
統計方法檢測AI生成內容
目前存在多種統計方法來檢測AI生成的內容。這些方法主要基於大語言模型(LLM)通過對詞語的概率分布進行采樣生成內容的原理:
這可能會留下特定的概率特徵,例如LLM生成的內容在統計概率上比人類生成的內容更可能出現。
2023年,Mitchell等人開發了一種相關指標「曲率」,牠通過使用掩碼語言模型生成的小擾動來衡量一段文本的局部最優性,LLM生成的內容相對於附近的擾動更可能是最優的。
2024年,Mireshghallah等人發現,較小的LLM往往是更好的檢測模型,其中具有125m參數的OPT模型在檢測AI生成內容時表現最佳,在檢測GPT-4內容時達到了90%的準確率。
基於這些方法和其他文本分類計算方法,已經開發了各種商業工具。研究在不同環境中評估了這些方法的有效性,結果不一:雖然在某些領域中準確性較高,但模型往往不可靠,可能會產生誤報。
反向圖靈測試
在反向圖靈測試中,GPT-3.5和GPT-4扮演裁定者的角色,評估先前圖靈測試的文字記錄以判斷參與者是人類還是AI。
研究設定了五個假設:
1.GPT-4的準確率是否顯著高於或低於人類的準確率。
2.GPT-4是否也難以準確識別參與者。
3.模型是否更傾向於將真人類判斷為人類,而非將最佳的GPT-4參與者判斷為人類。
4.GPT-4作為裁定者在較長的文字記錄中是否會表現出更高的準確率。
5.GPT-4作為裁定者的準確率是否高於GPT-3.5。
探討了這兩個模型的識別準確性,以及對話長度和模型質量對判斷的影響、以及大語言模型的質量在判斷文字記錄中的作用。
方法
使用Jones和Bergen在2023年的研究中超過6000次圖靈測試的文字記錄。
其中,Jones和Bergen研究中的AI參與者基於以下三個模型:GPT-3.5、GPT-4和ELIZA。
並且,樣本需要平衡人類和AI參與者的數量,以及表現最佳的GPT-4參與者的遊戲比例與整個數據集中的比例相同。並確保表現最佳模型的人類和人工智能判決分布相同。
模型需判斷參與者的類型,並指出其判決的信心程度,同時提供判斷依據。
結果
GPT-4作為裁定者的準確性顯著低於互動人類裁定者,尤其是在判斷表現最佳的AI參與者時,準確率低於隨機水平。
文字記錄長度和模型質量(GPT-4 vs GPT-3.5)對準確性沒有顯著影響。
討論
在反向圖靈測試中,兩個AI系統作為裁定者的準確性均低於互動人類評判者,尤其是在面對表現最佳的AI參與者時,準確性更低。
AI參與者的通過率高於人類參與者,這意味著AI裁定者更容易將AI參與者誤判為人類,同時將人類參與者誤判為AI。
這些結果表明,當前的大語言模型在區分人類和AI生成的內容方面表現不佳——即使牠們正在評估由相同大語言模型生成的內容。
對此結果的一個可能解釋是,這些系統的輸出受其對人類訓練數據的表征所驅動。
因此,模型可能缺乏能夠區分自身輸出與其模仿的訓練數據之間差異的細致或上下文敏感的表征。
當前的大語言模型不適合作為檢測對話中AI貢獻的有效工具。
錯位圖靈測試
錯位圖靈測試評估人們在無法直接與AI互動環境中,如閱讀社交媒體對話來識別AI的準確性。
在這項測試中,參與者作為人類裁定者,根據文字記錄樣本判斷參與者是否為人類或AI。
研究設定了與反向圖靈測試類似的一組問題。
方法
將相同的500份文字記錄樣本展示給加州大學聖叠戈分校的學生(共109人,其中84名女性,年齡範圍為19至31歲),每位參與者隨機接收到50份文字記錄的子集。
每份記錄平均由10名參與者進行判斷。
參與者需要為每份記錄指出他們的信心水平和判斷依據。並通過使用R語言中的lmertest包擬合線性混合效應模型。
結果
錯位人類裁定者的識別準確性低於互動的人類裁定者,尤其是在識別基於GPT的AI模型時。
長度較短的文字記錄似乎對裁定者更有幫助。
討論
錯位環境增加了識別大語言模型AI的挑戰,阻止了參與者進行對抗性詢問或觀察參與者的響應時間,可能導致他們做出更快的決策或投入較少的精力。
在現實場景中,當人類裁定者無法直接審問文本內容的來源時,這些結果表明人們可能難以可靠地區分人類和AI生成的內容。
與反向圖靈測試類似,表現最佳的GPT-4參與者的通過率高於人類參與者。
這表明,在閱讀人類與AI模型之間的在線對話時,AI系統可能更容易被判斷為人類,而真正的人類反而不易被識別。
另外,文字記錄長度對準確性的負面影響似乎違反直覺:為什麽較少的信息反而對裁定者更有幫助?
事實上,這種反常現象可能是由於次要混雜因素導致的,特別是在文字記錄長度的確定方式上。
在原始研究中,裁定者可以選擇提前結束對話,當他們確信自己在與人類或AI交流時,可能會這麽做。
因此,較短的文字記錄更可能包含對互動裁定者特別有幫助的信息,也可能同樣幫助了錯位裁定者。
結果分析
語境分析
錯位人類實驗與反向實驗之間的一個關鍵區別在於,人類裁定者是連續完成 50 份文字記錄的,而大語言模型裁定者則是逐個呈現每份記錄。
研究發現,連續處理文本記錄的方式可能幫助人類裁定者更好地掌握文本記錄的整體趨勢,並識別重覆出現的AI參與者的特徵,從而逐漸提高判斷的準確性。
為了測試是否連續呈現記錄也能提高AI裁定者的表現,研究人員進行了類似的實驗,連續向GPT-4展示文本記錄。
結果顯示,通過這種方式,GPT-4的準確率從36.4%提高到58%,接近人類裁定者的表現。
此外,當詢問GPT-4其判斷策略時,GPT-4表示其策略由單純檢查語法逐漸轉向評估對話的一致性、幽默和情感差異、長期上下文關聯等複雜因素,顯示了其在識別真實人類對話時的進步。
這表明連續的文本呈現可以增強裁定者,無論是人還是AI,對文本特徵的理解和識別能力。
原因分析
為了評估不同裁定者在評判文本記錄是由人還是AI生成時依賴的決策理由,研究使用了GPT-4o模型,根據一種預設的分類方案來分析裁定者的判斷理由。
這個方案由Jones和Bergen提供,旨在捕捉和分類裁定者為其決策提供的具體理由。
研究結果顯示,無論是AI裁定者還是人類裁定者,他們引用的理由類型有很大的相似性。
在判斷對話來自AI時,最常見的理由是對話內容顯得「不自然」。
AI裁定者在判斷時,更多地關注對話者是否展示出人類特有的社會情感特質,如個性的缺失。而人類裁定者的理由分布則相對更均衡,涵蓋多個不同的類別。
當判斷對話來自人類時,三種裁定者通常都會指出對話中的合理回應和非正式語氣,同時也會關注社會情感因素和語言風格。
這表明,不論裁定者是人還是AI,在進行決策時,他們都傾向於強調對話中的相似特徵,這些特徵幫助他們區分人類和AI生成的內容。
統計人工智能檢測方法
為了研究利用統計方法在圖靈測試中檢測AI生成的內容的有效性,研究使用了Mireshghallah等人提出的兩種主要方法:一種是測量文字記錄中的平均對數似然值,另一種是測量曲率。
對數似然值是指在給定前置詞的情況下,計算文本內容生成的可能性;曲率則是通過比較文本與其相似內容的概率差異來進行評估。
使用OPT-125m模型進行實驗,結果表明,這兩種方法在區分AI和人類生成的文本方面有不同的效果。
對數似然方法得出的整體準確率為62%,而曲率方法的準確率更高,達到了69%。
曲率方法尤其有效,因為牠能更好地區分人類和AI生成的文本,尤其是在處理最新和最高級的AI模型(如GPT-4)時。
這些發現表明,儘管這些統計方法提供了一種區分人類和AI文本的工具,但在處理最先進的AI模型時,牠們的可靠性仍有待提高。
未來的研究需要探討更多的統計方法,以提高在這種環境下的檢測準確性。
總結
樸素心理學
Watt對通過反向圖靈測試的標準是機器的表現應與人類評估者相當。
如果人類評估者能夠區分人類和特定的AI,那麽AI裁定者也應能夠做到。如果人類無法區分,那麽機器也應該失敗。
研究中發現,GPT-4的判斷準確性與錯位人類裁定者相當,兩者的準確率都在58%左右。
通過上下文學習(ICL),GPT-4的表現甚至提高到與人類幾乎一致的水平。
然而,儘管準確率相似,GPT-4與人類裁定者的錯誤模式卻不同,這表明兩者在思維和判斷過程中存在根本差異。
這些發現支持了Watt的理論,即AI的思維模型與人類裁定者的模型存在系統性的差異。
未來的研究可以通過增加互動性和系統性地修改文本記錄的特徵來進一步探討人類和AI在思維方式上的不同。
這些研究有助於更好地理解AI在模擬人類心理狀態方面的潛力和局限。
實際檢測
實際檢測指的是在日常生活中常見的環境,如社交媒體和論壇,評估人和AI之間對話的真實性。
這類環境中的圖靈測試通常是的,因為觀察者無法直接與對話者互動來驗證他們是否為AI。
研究發現,在這種環境下,無論是GPT-4還是人類裁定者,在區分AI和人類時都表現不佳,尤其是面對表現良好的AI時,這些AI往往能夠比真正的人類更成功地偽裝自己。
統計AI檢測方法,如分析話語曲率,顯示出在區分人類和AI生成消息時的潛力,ROC分析顯示這種方法的準確率可以達到69%。
然而,實際應用中的誤報問題可能會對真實用戶產生不利影響,表明這種方法在實際場景中的限制。
研究還發現,經驗的積累可能提高裁定者的判斷準確性,錯位人類裁定者和GPT-4在多次判斷後都表現出改進的趨勢。
未來的研究可以通過給予參與者反饋來探索學習效果,或者進一步探討不同裁定工具之間的相互影響。這些發現強調了在實際環境中AI檢測的複雜性和挑戰。
結論
在反向圖靈測試中,GPT-3.5和GPT-4作為AI裁定者,以及錯位圖靈測試中的人類裁定者都參與了評判對話中某個參與者是否為人類。
但結果顯示,無論是AI裁定者還是錯位人類裁定者,在被動閱讀的情境下,他們的準確性都低於直接互動的原始圖靈測試中的裁定者。
這表明,在不進行主動互動時,無論是人類還是當前的大語言模型都難以區分二者。
參考資料:
https://arxiv.org/pdf/2407.08853