由于OpenAI的ChatGPT火爆發布以及隨后谷歌和微軟之間的搜索引擎大戰,大型語言模型(LLM)及其應用程序突然成為熱門話題。ChatGPT和類似的系統正在重新激活我們對搜索的新體驗和新概念。現在用戶可以使用人類語言與搜索引擎進行自然交互,而不是依賴特定的關鍵詞或復雜的搜索查詢語法。
問答(QA)系統是自然語言處理(NLP)的一種能力,是LLM所能實現的一組語言能力,但QA系統并不總是一個流行的用例。NLP搜索公司Kyndi的的首席執行官Ryan Welsh回憶說,他在解釋公司對NLP搜索時遇到了困難:“我記得三年前籌集了資金,每個人都說,‘嘿,很酷,你是NLP,但這個搜索不是一個好的應用案例。’”
Welsh表示,因為ChatGPT的興起,越來越多人意識到自然語言能力的價值,這種反應已經完全改變:“我覺得ChatGPT在90-120天內達成了十年的宣傳效果。”
現在,數十億美元正在投資于下一代搜索技術。突然之間,市場對QA系統產生了真正的需求,該系統可以快速準確地回答利益相關者或訪問公司網站或知識門戶的外部客戶提出的問題,以及搜索公司文檔的內部員工提出的問題。
然而,Welsh表示,目前的這些聊天機器人技術無法滿足企業的需求,作為最終用戶信任的關鍵的可解釋性往往缺乏。企業對大型語言模型系統的要求是生成的答案準確可靠,而不是充滿了來自網絡內容的訓練數據的“錯亂”,這是像ChatGPT這樣的大型主流模型面臨的問題(延展閱讀:)。由于其底層技術的統計性質,聊天機器人可能會產生錯誤信息的混亂,因為他們實際上并不理解語言,只是在預測下一個最好的單詞。通常,訓練數據非常廣泛,幾乎不可能解釋聊天機器人是如何得出它給出的答案的。
這種缺乏可解釋性的人工智能“黑匣子”方法根本不適用于許多企業。Welsh舉了一個制藥公司的例子,該公司正在向醫療保健提供者或訪問其藥品網站的患者提供答案。該公司被要求知道并解釋每一個可以提供給提問者的搜索結果。因此,盡管最近對ChatGPT等系統的需求激增,但根據Welsh的說法,使其適應這些嚴格的企業要求并不是一項容易的任務,而且這種需求往往得不到滿足。
Welsh表示,多年來,他的公司一直專注于這些企業需求,從經驗中學習,并與客戶直接互動。Kyndi由威爾士人工智能專家Arun Majumbar和計算機科學家John Sowa于2014年創立,John Sowa是知識圖譜譜專家,1976年在IBM引入了一種稱為概念圖的特定類型。
Kyndi的自然語言搜索應用程序建立在知識圖譜和LLM突破的基礎上,采用了神經符號人工智能,這是一種補充統計機器學習技術的語義方法。該系統不只是預測文本中下一個最有可能的單詞,還是創建語言的符號表示,利用向量和知識圖譜技術來映射數據之間的關系。這使系統能夠理解最終用戶問題背后的真實意圖,有助于找到特定于上下文的答案,同時區分常見的同義詞、語義等效的單詞、縮寫詞和拼寫錯誤。
這項技術幾乎不需要訓練數據就能發揮作用,這可以緩解由于缺乏標記數據和人工智能專業知識而造成的瓶頸。與數據標簽相關的高成本使得訓練和微調LLM對許多企業來說過于昂貴。這種調整的容易性是Kyndi神經符號方法的另一個區別因素。Welsh表示,許多企業客戶已經被緩慢的人工智能部署折磨。一家大型制藥公司在與Kyndi合作之前,已經使用六名機器學習工程師和數據科學家對LLM進行了六個多月的調整。Welsh說,Kyndi只需要一名商業分析師的幫助,就可以在一天內訓練和調整他們的模型。在其他幾個案例中,Kyndi能夠在兩周內通過演示、沙箱驗證和部署來完成人工智能項目。
“我認為,在未來10年的某個時候,世界上每一家企業的每一個搜索欄和每一個聊天界面都會有一個答案引擎。這將是我們在企業軟件中看到的最大的轉變。”Welsh說,并將這一時刻與從預處理到云的轉變進行了比較。“我認為目前沒有任何供應商能夠主導這個市場。”
Welsh預測,在這個企業搜索領域的新時代,獲勝的公司是那些有遠見將產品投放市場的公司。盡管競爭目前正在升溫,但其中一些新公司已經落后了。他估計在獲得成功前,他們還有大約2-3年和價值3000萬美元的建設工作要做。