現(xiàn)在,AI系統(tǒng)的預(yù)測(cè)準(zhǔn)確率達(dá)到甚至超過(guò)了人群。
在不斷發(fā)展的人工智能(AI)領(lǐng)域,語(yǔ)言模型已取得了重大進(jìn)展,實(shí)現(xiàn)了曾經(jīng)被認(rèn)為人類(lèi)認(rèn)知才能實(shí)現(xiàn)的非凡成就。比如說(shuō),Anthropic新的Claude 3語(yǔ)言模型似乎能夠意識(shí)到它被測(cè)試或被評(píng)估,這為AI領(lǐng)域原本惹人矚目的進(jìn)步另外增添了一層復(fù)雜性。
這個(gè)進(jìn)展特別值得注意的一個(gè)新領(lǐng)域是預(yù)測(cè)領(lǐng)域——對(duì)未來(lái)事件做出準(zhǔn)確預(yù)測(cè)的能力。
我們?cè)谶@篇博文中將深入研究一篇突破性的研究論文(https://arxiv.org/pdf/2402.19379.pdf),探究大語(yǔ)言模型(LLM)的預(yù)測(cè)能力,并將它們與人群預(yù)測(cè)這個(gè)參照標(biāo)準(zhǔn)進(jìn)行比較。這項(xiàng)研究由倫敦政治經(jīng)濟(jì)學(xué)院、麻省理工學(xué)院和賓夕法尼亞大學(xué)的研究人員共同進(jìn)行,研究結(jié)果刷新了我們對(duì)AI能力的理解,并揭示了LLM在現(xiàn)實(shí)場(chǎng)景中與人類(lèi)專(zhuān)業(yè)知識(shí)相媲美的潛力。
背景介紹
預(yù)測(cè)是指基于過(guò)去和現(xiàn)在的數(shù)據(jù)、趨勢(shì)和模式對(duì)未來(lái)事件做出預(yù)測(cè),它在經(jīng)濟(jì)、政治、技術(shù)和科學(xué)等領(lǐng)域發(fā)揮著至關(guān)重要的作用。準(zhǔn)確的預(yù)測(cè)有助于更好的決策、資源分配和風(fēng)險(xiǎn)管理。
傳統(tǒng)上,最可靠的預(yù)測(cè)方法是“群體智慧”效應(yīng),即利用一群不同的個(gè)體的集體知識(shí)。1907年,英國(guó)著名人類(lèi)學(xué)家Francis Galton對(duì)這一現(xiàn)象進(jìn)行了著名的論證,當(dāng)時(shí)他觀察到,一群人在縣集市上猜測(cè)的中位數(shù)準(zhǔn)確地預(yù)測(cè)了一頭牛的體重。從那以后,眾多研究已證實(shí),將大量不同預(yù)測(cè)者的預(yù)測(cè)值匯總起來(lái),可以得出非常準(zhǔn)確的結(jié)果。
然而,依靠人群進(jìn)行預(yù)測(cè)存在幾個(gè)局限性:
成本和時(shí)間:召集一群足夠龐大且多樣化的熟練預(yù)測(cè)者費(fèi)錢(qián)又費(fèi)時(shí)。
偏見(jiàn)和相關(guān)性:人類(lèi)判斷容易受到各種認(rèn)知偏見(jiàn)的影響,個(gè)人預(yù)測(cè)之間的相關(guān)性可能會(huì)削弱群體的集體準(zhǔn)確性。
可擴(kuò)展性:組織和管理大規(guī)模的人類(lèi)預(yù)測(cè)比賽操辦起來(lái)很復(fù)雜,很難擴(kuò)展。
AI預(yù)測(cè)的前景
近些年來(lái),AI的快速發(fā)展(尤其是在自然語(yǔ)言處理領(lǐng)域)已經(jīng)引出了使用機(jī)器智能進(jìn)行預(yù)測(cè)的誘人前景。像GPT-3、GPT-4和Claude 3這樣的LLM在理解和生成類(lèi)似人類(lèi)的文本方面表現(xiàn)出了非凡的能力(Claude 3現(xiàn)在甚至知道它在接受測(cè)試),這促使研究人員調(diào)查L(zhǎng)LM對(duì)未來(lái)事件做出準(zhǔn)確預(yù)測(cè)的潛力。
然而之前的研究表明,與人群預(yù)測(cè)相比,各個(gè)LLM的表現(xiàn)常常不佳。比如說(shuō),Schoenegger和Park在2023年發(fā)現(xiàn),盡管GPT-4擁有出眾的語(yǔ)言技能,但其表現(xiàn)不如一個(gè)簡(jiǎn)單的無(wú)信息衡量基準(zhǔn),即預(yù)測(cè)所有二元問(wèn)題的50%概率。
硅群體智慧
然而在這篇新論文中,Schoenegger等人假設(shè),要釋放LLM的預(yù)測(cè)潛力,關(guān)鍵可能在于匯總來(lái)自多個(gè)不同模型的預(yù)測(cè),這相當(dāng)于一種機(jī)器“群體智慧”效應(yīng)。為了測(cè)驗(yàn)這個(gè)想法,他們進(jìn)行了兩項(xiàng)研究:
研究1:LLM并聯(lián)vs.人群
在第一項(xiàng)研究中,研究人員從12個(gè)不同的LLM那里收集了多達(dá)31個(gè)二元問(wèn)題的預(yù)測(cè),這些問(wèn)題來(lái)自預(yù)測(cè)平臺(tái)Metaculus上的一項(xiàng)實(shí)時(shí)預(yù)測(cè)比賽,925名人類(lèi)預(yù)測(cè)者也參與了為期3個(gè)月的比賽。LLM涵蓋廣泛的體系結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)集和微調(diào)方法,包括來(lái)自O(shè)penAI、Anthropic、谷歌、Meta等公司的模型。
圖1. 測(cè)試的模型
針對(duì)每個(gè)問(wèn)題,研究人員使用標(biāo)準(zhǔn)化的提示對(duì)每個(gè)LLM詢問(wèn)三次,提示包括問(wèn)題背景、解答標(biāo)準(zhǔn)以及作為“超級(jí)預(yù)測(cè)者”的應(yīng)答說(shuō)明。然后,他們算出了12個(gè)LLM中所有非缺失預(yù)測(cè)的中位數(shù),以獲得“LLM群體”預(yù)測(cè)。
圖2. LLM并聯(lián)機(jī)制概況圖
結(jié)果是驚人的:LLM群體在所有問(wèn)題上的預(yù)測(cè)都達(dá)到了50%的無(wú)信息基準(zhǔn)(p = 0.026),并且在統(tǒng)計(jì)上與人群的準(zhǔn)確率沒(méi)有區(qū)別(p = 0.850)。探索性等效測(cè)試進(jìn)一步表明,LLM和人群在中等效應(yīng)大小范圍內(nèi)不相上下。
研究2:利用人類(lèi)認(rèn)知輸出改進(jìn)LLM預(yù)測(cè)
圖3. 第二項(xiàng)預(yù)測(cè)干預(yù)提示
第二項(xiàng)研究調(diào)查了是否可以通過(guò)為L(zhǎng)LM提供人群的中位數(shù)預(yù)測(cè)作為附加信息,進(jìn)一步提高其預(yù)測(cè)精度。研究人員專(zhuān)注于兩個(gè)最先進(jìn)的模型:GPT-4和Claude 2,并采用了模型內(nèi)設(shè)計(jì),每個(gè)模型都進(jìn)行了初步預(yù)測(cè),然后在接收人群中位數(shù)后進(jìn)行了更新預(yù)測(cè)。
兩個(gè)模型在接收人類(lèi)人群信息后都顯示出準(zhǔn)確性有了顯著提高,GPT-4的平均Brier評(píng)分(衡量預(yù)測(cè)誤差的指標(biāo))從0.17降至0.14 (p = 0.003),Claude 2則從0.22降至0.15(p < 0.001)。當(dāng)人群中位數(shù)處于初始范圍內(nèi)時(shí),這些模型也適當(dāng)?shù)乜s小了其預(yù)測(cè)區(qū)間,顯示了以合理的方式整合額外信息的能力。
圖4. 接收人類(lèi)預(yù)測(cè)前后,GPT-4(左)和Claude 2(右)的LLM預(yù)測(cè)。顏色區(qū)分首次預(yù)測(cè)高于、低于或介于人類(lèi)中位數(shù)預(yù)測(cè)的20個(gè)百分點(diǎn)。高亮顯示的變化和間隔是該組內(nèi)相應(yīng)的中位數(shù)預(yù)測(cè)。”
然而探索性分析顯示,僅僅將最初的機(jī)器預(yù)測(cè)與人類(lèi)中位數(shù)相平均,可以得到甚至比模型的更新預(yù)測(cè)更高的準(zhǔn)確率。這表明,雖然LLM可能受益于人類(lèi)認(rèn)知輸出,但其推理能力可能還沒(méi)有達(dá)到整合這類(lèi)信息的最佳調(diào)校水平。
影響和限制
這里的研究發(fā)現(xiàn)對(duì)預(yù)測(cè)和AI-人類(lèi)協(xié)作的未來(lái)具有重要意義:
可擴(kuò)展且經(jīng)濟(jì)有效的預(yù)測(cè):通過(guò)利用“硅群體智慧”,組織可以比單獨(dú)依賴人群更快速、更廉價(jià)地獲得高質(zhì)量的預(yù)測(cè)。這可以使數(shù)據(jù)驅(qū)動(dòng)的決策在各個(gè)領(lǐng)域更容易獲得。
人類(lèi)和AI的互補(bǔ)優(yōu)勢(shì):雖然LLM并聯(lián)可能與人群準(zhǔn)確性相當(dāng),但這項(xiàng)研究也表明,人類(lèi)認(rèn)知輸出可以進(jìn)一步改善機(jī)器預(yù)測(cè)。這凸顯了人類(lèi)專(zhuān)家和AI系統(tǒng)在預(yù)測(cè)任務(wù)方面協(xié)同合作的潛力(這與另一項(xiàng)研究多少有點(diǎn)矛盾;另一項(xiàng)研究發(fā)現(xiàn),AI在診斷疑難疾病方面的表現(xiàn)優(yōu)于人類(lèi)醫(yī)生,無(wú)論AI醫(yī)生的參與程度如何)。
促進(jìn)AI推理能力:該研究提供了LLM參與復(fù)雜推理(或至少看起來(lái)是推理)和信息整合的能力的證據(jù),盡管還有進(jìn)一步優(yōu)化的空間。隨著模型不斷改進(jìn),我們可能會(huì)看到它們?cè)陬A(yù)測(cè)性能方面取得更大的進(jìn)步。
然而,有必要承認(rèn)這項(xiàng)研究的局限性和注意事項(xiàng):
該研究致力于短期(3個(gè)月)二元預(yù)測(cè)。需要做更多的工作來(lái)評(píng)估LLM在長(zhǎng)期預(yù)測(cè)和更復(fù)雜類(lèi)型的問(wèn)題上的表現(xiàn)。
LLM表現(xiàn)出了一種默認(rèn)偏差,即使在經(jīng)驗(yàn)基礎(chǔ)率接近均等的情況下,它們也往往預(yù)測(cè)概率> 50%。它們還顯示出了整體校準(zhǔn)欠佳,表明需要進(jìn)一步的改進(jìn)。
隨著LLM的訓(xùn)練數(shù)據(jù)變得越來(lái)越過(guò)時(shí),如果沒(méi)有定期更新以跟上不斷變化的實(shí)際環(huán)境,預(yù)測(cè)準(zhǔn)確性可能會(huì)隨之下降。
結(jié)語(yǔ)
盡管存在這些局限性,這項(xiàng)研究還是意義重大,表明AI系統(tǒng)在某些預(yù)測(cè)領(lǐng)域具有匹配甚至超越人群集體智慧的潛力。通過(guò)利用“硅群體智慧”,我們可以讓高質(zhì)量的、數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)比以往任何時(shí)候更具可擴(kuò)展性、更普及。
當(dāng)然,LLM并不能完全取代人類(lèi)判斷,人類(lèi)專(zhuān)家在解釋、結(jié)合上下文處理和根據(jù)機(jī)器預(yù)測(cè)采取行動(dòng)方面將始終扮演至關(guān)重要的角色。但隨著AI能力不斷提升,越來(lái)越明顯的是,未來(lái)的預(yù)測(cè)將是人類(lèi)智能和機(jī)器智能之間密切合作和協(xié)同作用的結(jié)果。
有些人重視對(duì)我們所居住的復(fù)雜世界做出準(zhǔn)確、及時(shí)和可操作的預(yù)測(cè),硅群體時(shí)代即將到來(lái),這對(duì)他們來(lái)說(shuō)確實(shí)是令人興奮的前景。隨著研究人員不斷突破AI預(yù)測(cè)方面的極限,本人一定會(huì)替讀者密切關(guān)注這方面。