6月29日消息,最新研究發現,人工智能生成的推文比真人寫的更具說服力。也就是說,人們更傾向于相信由大語言模型GPT-3生成的推文,而非人類編寫的內容。
在這項研究中,研究人員對比了人類編寫的內容和OpenAI開發的GPT-3生成的內容。研究作者進行了調查,看看人們是否能夠區分出一條推文是由人類還是由GPT-3寫的。結果顯示,人們實際上無法準確判斷。調查還要求參與者判斷每條推文中的信息是否真實。結果表明,相對于其他人編寫的虛假信息,參與者更難辨別出由大語言模型編寫的虛假信息。同樣的,如果內容是由GPT-3而不是人類寫的,參與者更容易辨認出其中的準確信息。
換句話說,無論人工智能生成的信息是否準確,參與者都更相信GPT-3生成的內容。這表明,人工智能語言模型在向公眾提供準確信息或誤導內容方面具有強大的能力。
研究的第一作者、瑞士蘇黎世大學生物醫學倫理和醫學史研究所的博士后研究員、數據研究主管經理喬瓦尼·斯皮塔萊(Giovanni Spitale)表示:“這些技術很容易被人當作武器,在人們關注的任何話題上制造虛假信息風暴。”
然而,斯皮塔萊指出情況并非一定如此。還有許多方法可以改進人工智能技術,使其更難被用于傳播錯誤信息。斯皮塔萊表示:“人工智能本身并沒有好壞之分,只是人類意圖的放大器。”
在這項研究中,斯皮塔萊和他的同事們從社交媒體推特上收集了11個不同的科學話題,涵蓋疫苗、氣候變化和物種進化等多個領域。然后,研究人員使用GPT-3生成了各種準確或不準確的推文。2022年,研究團隊通過Facebook廣告功能收集了697名參與者的反饋。這些參與者都說英語,大多來自英國、澳大利亞、加拿大、美國和愛爾蘭。研究結果于本周三發表在《科學進展》雜志上。
研究得出結論,GPT-3生成的內容和人類編寫的內容“幾乎沒有區別”,參與者根本無法分辨。研究還指出,研究人員自己也無法百分之百確定他們從社交媒體收集到的推文是否是在使用ChatGPT等應用程序的幫助下編寫的,這是研究的一個限制之一。
這項研究還存在其他限制,例如參與者必須根據推文內容獨立判斷,無法查看與內容相關的推特賬戶個人資料,那樣可能有助于判斷發布內容的是人還是機器人。此外,查看某一推特賬戶過去發布的推文和個人頭像,也能幫助參與者更容易辨別與該賬戶相關的內容是否具有誤導性。
研究發現,參與者更容易指出真實推特用戶編寫的虛假信息。GPT-3生成的帶有虛假信息的推文在欺騙參與者方面稍微有效。研究人員推測,目前更先進的大語言模型可能比GPT-3更具說服力。例如,人工智能聊天機器人ChatGPT使用的是GPT-3.5模型,用戶還可以通過訂閱服務使用更先進的GPT-4模型。
當然,在現實世界中已經出現了許多語言模型出現錯誤的真實例子。科技媒體Verge的編輯詹姆斯·文森特(James Vincent)在一次重要的機器學習會議上決定禁止作者使用人工智能工具撰寫學術論文后寫道,畢竟“這些人工智能工具是龐大的自動補全系統,通過訓練來預測任何固定句型中接下來可能會出現的單詞。因此,它們沒有固定的‘事實’數據庫可供參考,只有生成聽起來似乎是合理陳述的內容的能力。”
這項新研究還發現,在某些情況下,參與者對內容準確性的判斷比GPT-3更準確。研究人員還要求大語言模型分析推文并判斷內容的準確性。在判斷推文內容準確性方面,GPT-3的得分低于參與者。在辨別虛假信息方面,人類和GPT-3的表現相當。
至關重要的是,這項研究表明,改進用于開發大語言模型的訓練數據集可能會使惡意使用者更難使用這些工具來傳播虛假信息。在某些研究中,GPT-3甚至“違背”了一些研究人員生成不準確內容的指示,特別是涉及疫苗和自閉癥等主題時更為明顯。這可能是因為與訓練數據集中的其他問題相比,這些主題上有更多揭穿陰謀論的信息。
但根據斯皮塔萊的說法,打擊虛假信息的最佳長期策略實際上并沒有太多科技含量。這就是鼓勵人們培養批判性思維技能,這樣就能更好地辨別事實和虛假信息。由于研究中的參與者在判斷準確信息方面似乎已經與GPT-3不相上下,甚至更好,所以稍加培訓就可以使他們更加熟練。研究認為,精通事實核查的人可以與GPT-3等大語言模型合作,從而改善公共信息傳播。
“不要誤解我的意思,我是這項技術的忠實擁護者,”斯皮塔萊說。“我相信生成式人工智能將改變世界……但它是否變得更好取決于我們自己。”(辰辰)