簡單地說,AI引擎有兩個組件,第一個是一個廣泛的內容數據庫,稱為大型語言模型,其中包含了這家AI公司可以找到的所有信息,這包括維基百科、《紐約時報》和其他可公開獲取的內容。(關于侵犯版權的爭議很嚴重,而且越來越多,但這是另一個話題)
AI引擎的第二個組件是使用LLM數據來編寫對查詢的響應的算法。如果我讓AI引擎完成句子,“The Dog Run Up The…”,算法會檢查LLM,看看這個片段已經存在的頻率以及通常完成句子的單詞。然后,它向用戶提供統計上最有可能的下一個單詞。在這種情況下,“Hill”是典型的回答,而“casserole”不是。
一家試圖利用AI的公司可以從提問開始。例如,一家服裝公司可能會問:“男鞋的最新趨勢是什么?”然而,只要問這個問題,AI引擎就知道這家服裝公司正在考慮推出一款新產品,這是該公司希望對競爭對手隱瞞的信息。
對AI的一種更有效的使用是讓該公司上傳一些數據——客戶的反應或銷售歷史——然后要求AI引擎找到模式,并將它們與其LLM中的任何其他信息進行比較。然而,許多AI引擎會將上傳的公司數據添加到他們的LLM中,這樣來自另一家公司的人如果提出了完全正確的問題,就可以生成揭示這些數據的回應。盡管大多數AI公司都有政策和其他保護措施來防范這種數據泄露,但在最近的幾項研究中,60%-75%的公司已經宣布使用AI為非法,因為他們擔心這些保護措施不夠。(還有許多其他原因讓公司猶豫不決,但數據隱私始終位居榜首)
然而,并不是所有公司都擔心數據隱私。在咨詢公司NextAccess主持的一場討論中,一位與會者詢問如何故意將企業數據注入LLM,并提高這些數據在公開可用的AI算法中的使用。NextAccess是一家咨詢公司,為客戶提供建議,建議他們如何改進將產品推向市場并推動收入增長的戰略。
這個人經營著一家咨詢公司。如果有人向AI引擎提出問題,她的公司的數據將改善響應,她希望查詢者將她的公司視為智慧的來源,希望它能推動新的客戶互動。
將一家公司的智慧和品牌放在信息尋求者面前并不是一個新概念。搜索引擎優化是指使一家公司的網站更容易被谷歌等搜索引擎使用,從而使該公司的網頁鏈接出現在更多的谷歌查詢中。這種做法催生了一個由咨詢和技術公司組成的整個行業,這些公司可以幫助品牌設計自己的網站,以最大限度地提高對谷歌掃描工具的可見度。公司甚至可以付錢給谷歌,讓他們的網頁鏈接出現在相關查詢的頁面頂部。重要的是,這些“贊助商”搜索結果都有清晰的標記,這樣互聯網用戶就能知道哪些谷歌回復是基于有機內容,哪些是基于企業支付。
谷歌訓練我們所有人知道,其搜索引擎的結果不一定會給出正確的——甚至是最好的——答案。對于網絡搜索者來說,點擊多個鏈接搜索源網站已經成為一種正常的、意料之中的例行公事。
AI引擎的用戶目前有不同的期望。他們假設AI引擎正在提供可能的最佳答案。即使是已知的AI缺陷,如偏見和幻覺,在新的、更強大的AI引擎中也變得不那么頻繁了。用戶對AI準確性的信任正在增長。
額外收入的拉動是否會說服AI公司透露一些算法秘密,以創建一個AI引擎優化(AEO)行業,這樣公司就可以以一種特別容易讓AI公司連接到LLM的方式重新安排數據,并增加在對用戶查詢的AI響應中引用該公司的數據和品牌的可能性?AI引擎會向尋求出現在AI回復中的品牌提供付費植入(理想情況下是帶有贊助內容的標注)嗎?
AI用戶會有什么反應?他們會喜歡更相關、更具體的回應嗎?或者他們會質疑這家AI公司的客觀性和中立性?這些懸而未決的問題表明,AI既不同于以前的技術工具,因此還不確定它將走的道路。
到目前為止,我幾乎找不到關于一家公司如何將其內容強制放入LLM,并說服AI引擎使用該公司的數據(最好是引用來源)高于其他(同樣有用的)信息來源的建議。因此,我當然會問這些AI引擎,它們會受到什么影響來做到這一點。OpenAI的ChatGPT、谷歌的Gemini和Perplexity.ai都建議公司確保他們的內容結構正確、最新并得到可靠來源的支持,以增加他們的數據被包括在AI響應中的可能性。這些AI引擎都沒有定義它們如何判斷消息來源的可靠性。
Pplexity確實計劃很快推出一個基于廣告的AI引擎版本,明確區分其“客觀”回應和支付促銷費的公司贊助的回應。OpenAI已經有一個由私人實體使用預先選擇的數據構建的聊天機器人目錄,它計劃最終通過市場收費提供這些數據。這將需要用戶主動搜索特定的聊天機器人。谷歌使用Gemini來提高其在谷歌搜索、谷歌地圖和其他屬性中現有廣告的性能,因此它已經間接使用AI來突出一家公司的內容而不是其他公司的內容。
然而,這些回應都沒有就如何影響公開、開放、廣泛使用的AI引擎版本,以突出單個公司的數據和品牌提供實質性、可操作的指導。