您可能已經使用過一些AI寫作檢測器,但是現在您想知道AI檢測是如何工作的,對么?我不是AI研究專家。但是,我可以從數據科學的角度來解釋這個問題。
我將講述:
什么是AI檢測
在訓練這些模型時,需要用到哪些技術
誰需要使用它們
其他重要的常見問題
什么是AI檢測?
AI檢測是利用復雜的機器學習和自然語言處理模型,實現對人工文本與機器文本的區分。它包括使用人工智能檢測軟件,該軟件在已建立的文本庫中進行訓練,從而開發預測算法,這種算法能夠從新的測試材料中識別出模式。然后,您會獲得一個概率分值,用于判斷該被評估的材料是通過人工創建還是自動創建的。
為什么AI文本檢測很重要?
人工智能文本檢測對于確保信息的可靠性非常重要,在搜索引擎優化(SEO)、學術界和法律領域也能發揮關鍵作用。
AI內容生成器無疑很有用,而且在競爭中必不可少。但它們同樣也是出了名的不可靠。因此,無論是谷歌,還是學校,以及客戶,都想要確定內容,您不能不加審核就把原創內容發出去。
您能想象如果人們被允許:
不經事實核實就寫有關金錢和生活的話題(YMYL)
發表的期刊文章中“同行評議”這一術語不再具有任何價值
提供通用的AI智能生成的法律建議
信任將不復存在。
這也是為什么您要用到這些工具的原因,因為在大部分時間里,人們并不知道它們之間的區別。
AI文本檢測是如何工作的
我們再深入看下這些工具有那些不同的工作方式。
但這里有兩個主要概念:
語言分析:檢查句子結構以尋找語義或重復。
對比分析:與訓練數據集進行比較,尋找與先前識別的實例的相似性。
這些是訓練模型以使用上述兩個概念來檢測 AI 內容時使用的更常見的一些技術。
分類器:AI檢測的分類帽
分類器有點像哈利波特中的分類帽,將數據分到預先確定的類中。
使用機器或深度學習模型,這些分類器檢查各種特征,如用詞、語法、風格和語氣,以區分AI生成的文本和人工書寫的文本。
想象一個散點圖,其中每個數據點都是一個文本條目,這些特征將形成坐標軸。
那么,假設我們有兩個類:
AI文本
人工文本
您所測試的任何文本都將屬于這兩個集群中的一個。下面是我制作的圖形,方便您看到。
分類器的工作是形成一個邊界來分隔這兩個類。
根據使用的分類器模型,一些示例包括:
邏輯回歸
決策樹
隨機森林
支持向量機(SVM)
K-最近鄰(KNN)
注意:您不需要知道它們是什么,只需知道它們是以不同方式對數據進行排序的算法。
該邊界可能是一條線、曲線或其他一些隨機形狀。
當您測試一個新文本(數據點)時,分類器會簡單地將它們放在這些類中的任何一個中。
嵌入:單詞的DNA
如果每個單詞都有自己的秘密代碼,就像我們在看一些驚心動魄的間諜電影一樣,會怎么樣?
在人工智能(AI)和語言理解方面,這正是發生的情況。
這些代碼被稱為嵌入式編碼(Embeddings)。本質上,它們是單詞唯一的DNA。通過捕捉每個術語背后的核心含義,并理解每個術語在上下文中如何與其他術語相關,這些嵌入式編碼形成了一個語義網絡。
這是通過將每個單詞表示為N維空間中的向量并運行一些高級計算來實現的。它可以是2D、3D或302934809D。
注意:向量是一個同時具有大小和方向的量。但是對于這個解釋,只需把它當作是圖表上的坐標即可。
但是為什么是向量呢?
因為計算機無法理解單詞。令人震驚,但這是現實。因此,必須通過向量化將單詞首先轉換為數字。以下是一個表格示例:
注意:向量化的文本數值可以具有廣泛的取值范圍,不僅僅是二進制的1或0。我只是為了更容易地可視化而做出了這樣的表格。
這是另一個在二維圖形上繪制向量的例子:
我確信您能夠想象三維物體的外觀,但請不要讓我描繪四維物體,因為沒人知道會是什么樣。然而,通過數學算法,計算機可以使用數學魔法來呈現出四維物體。
這正是谷歌運作的方式。您在搜索欄中輸入內容,卻能獲得與其驚人相關的結果,這是如何實現的呢?
但是,如何區分人工生成的文本與使用 AI 生成的文本呢?
我們將所有文本轉換為它們各自的嵌入式向量,然后將它們輸入機器學習模型進行訓練。
模型即使不知道任何實際的措辭,也會形成所有這些連接,并找出與 AI 生成文本常見的所有“代碼”。
但是,如何區分人工生成的文本與使用 AI 生成的文本呢?
我們將所有文本轉換為它們各自的嵌入式向量,然后將它們輸入機器學習模型進行訓練。
模型即使不知道任何實際的措辭,也會形成所有這些連接,并找出與 AI 生成文本常見的所有“代碼”。
困惑度(Perplexity):AI 生成文本的試金石
困惑度是一個衡量概率分布或語言模型能夠預測樣本精度的指標。
在 AI 生成內容檢測的背景下,困惑度作為衡量 AI 生成文本的試金石。困惑度越低,文本由 AI 生成的概率越大。
這就像偵探使用指紋匹配來識別嫌疑人一樣。
以下的表格對此進行了詳解:
困惑度等級 | 解釋 | 舉例 |
低(接近1) | 語言模型對其預測非常自信。這就像一個博覽群書的書評家準確地預測小說中的下一個單詞。 | 在醫學文獻上訓練的語言模型來預測醫學教科書中術語。 |
中 | 語言模型對其預測有些自信。這就像一個偶然的讀者對小說中的下一個單詞做出一些準確和不準確的預測。 | 在普通英語文學中訓練的語言模型來預測科幻小說中術語。 |
高 | 語言模型對其預測沒有信心。這就像初學者試圖預測復雜哲學文本中的下一個單詞。 | 在體育文章上訓練的語言模型來預測法律文件中的術語。 |
爆發度(Burstiness):AI 生成文本的標志性特征
爆發度是由 AI 模型生成的句子長度和復雜程度的變化。
想象一下您在一家餐廳里,現場充斥著各種對話,有些大聲喧嘩,有些安靜私密。與這些對話相似,由人寫出的句子有很多細微差別,因此常常讓人難以預料。
但是,AI 模型產生的結果通常在長度和復雜性上更趨于一致,而人類寫作則表現出更多的多樣性或者說“爆發性”。如果 AI檢測器注意到句子的長度、結構和節奏的細微差異,它們也會將文本標記為潛在的 AI生成文本。
以下表格中的一些例子:
文本類型 | 舉例 | 爆發度 |
人工生成 | “我喜歡去公園。新鮮的空氣、鳥兒的鳴叫聲和孩子們玩耍的景象總是讓我精神振奮。這是一個我可以放松和休息的地方,遠離城市生活的喧囂。” | 高(句子長度和復雜性的變化) |
AI生成 | “我喜歡這個公園。它很漂亮。空氣新鮮且有很多鳥。孩子們在那里玩耍。它讓人感到很放松。” | 低(句子長度和復雜程度相似) |
AI 檢測的準確性如何?
我會直截了當地告訴您,即使分數為100%,它也永遠不會是100%準確的。
那只是模型的置信度。
當 AI 檢測器分析文本時,它通常會基于所給材料的顯著特征計算每種分類的分數或概率,而不僅僅由人類編寫或 AI 生成的內容之間的區別所決定。
例如,假設我們使用 AI 檢測器對某些文本進行了分析,它為“AI”和“人類”分別給出了0.7和0.3的分數。
這些數字表示我們的檢測器已經大致判斷出,我們的材料屬于同種類型和非同種類型的概率之比為7:3(70%對30%)。
因此,最終決定是否適用某種類型變得非常容易。
與其把事物劃分為“人類”與“AI”,倒不如給它們分配概率度量,這樣才能更深入地了解預測的可信度。除了把文字歸類成兩類外,還需要考慮許多因素來決定文字是由人寫的還是由AI寫的。
如果所使用的評估方法涉及計算概率得分,則這些得分之間的差距程度可能會影響 AI 模型對預測的確定性。
例如,如果分配給 AI 生成的作品和人工完成的作品的分數之間沒有太大的差異(例如得分分別為0.51和0.49),那么檢測它們的來源將比它們的概率差距很大的情況更具挑戰性(例如獲得0.9和0.1的概率差距)。
因此,盡管產生二進制結果,但這個決定包括詳細的分析,很大程度上依賴于概率得分之間的差異。
注意:您可能會看到其他文章討論 AI 檢測器如何通過計算每個單詞成為下一個預測單詞或溫度參數(temperature:指一種用于控制生成文本的隨機性和創造性的參數,通常使用softmax函數實現)的概率值來工作。這是指 AI 作者的工作方式,而不是 AI 檢測器。那些文章完全搞錯了搜索意圖。
這是一個相當長的段落,但這是我能夠最好地解釋它的方式。
AI內容檢測的前景如何?
隨著我們見證人工智能的進一步發展,機器生成內容的復雜程度也在不斷增加,這給有效檢測此類內容帶來了獨特的挑戰。因此,所有參與其開發過程的人都需要努力創建更加先進和準確的工具,以跟上應對這種復雜性的能力。
準確檢測由AI生成的虛假信息對于維護在線信息的可信度至關重要,這將是有效應對這些威脅的唯一途徑。
此外,我們需要特別關注與隱私侵犯、違背意愿和潛在的濫用這種強大技術相關的道德考慮。
誰使用AI檢測?
以下是一些最受益于使用AI檢測的群體:
學校:防止學生濫用AI寫作軟件。
企業:擺脫垃圾郵件、虛假評論或虛假新聞。
執法機構:消除冒充、身份欺詐和網絡欺凌等犯罪活動。
社交媒體平臺:清除散布和鼓吹不實信息的機器人和虛假賬號。
媒體和新聞組織:識別虛假新聞和宣傳,甚至替換過度依賴AI的作家。
政府組織:根除虛假信息的運動和宣傳。
常見問題
AI內容檢測工具是否存在限制或缺陷?
AI內容檢測工具確實存在一些限制和缺陷。隨著人工智能產生的內容不斷增多,人們越來越難分辨出這些文字是否是由人類產生的,因此它們的準確性并不總是完美的。
此外,AI檢測器可能難以識別那些被特意設計成不可被檢測出的AI生成內容。未來AI生成和檢測技術的發展將共同決定AI檢測的局限性程度。
為什么要在SEO中使用AI檢測?
盡管谷歌在最近的更新中表示,如果AI生成的內容有價值,就不再會被視為垃圾內容,但關于谷歌是否能夠檢測到AI生成的內容,仍然有爭議。您永遠無法真正知道谷歌何時或是否會改變立場而對您進行懲罰。因此,大多數SEO(搜索引擎優化)仍會使用AI檢測來確保安全。
AI檢測的準確性如何?
AI檢測只能準確判斷所檢測文本與其訓練數據的相似程度。它提供的是置信度評分,而不是簡單的是或否的結果。