ChatGPT讓人們興奮不已,為什么蘋果、亞馬遜、摩根大通、德意志銀行、三星和埃森哲等這么多企業都禁止使用它呢?主要是由于擔心部署像ChatGPT這樣的外部大型語言模型(LLM),可能導致敏感數據被傳輸和存儲在企業安全環境之外。
生成式人工智能(GenAI)在企業中的有效性取決于能否根據公司自己的數據成功訓練大型語言模型(LLM),這些數據包括從電子郵件到財務報表的所有內容。這種專門的訓練確保人工智能對話的準確性和相關性。然而,企業數據的私有性質以及嚴格遵守數據隱私、治理和法規遵從性的需求帶來了重大挑戰。管理不善可能導致數據泄露和品牌損害等代價高昂的后果。
ChatGPT在企業應用方面準備不足的五大原因是:
準確性:為了獲得準確的結果,使用特定于業務的數據對人工智能模型進行微調至關重要。然而,OpenAI目前還沒有提供一種直接用這些數據訓練ChatGPT的方法。用戶必須快速開發自己提示模板,并針對獨立的GPT-3.5模型進行培訓,該模型既不與其他客戶共享,也不用于訓練其他模型。微調數據必須正確分類、準備、標記,如果數據敏感,還需要考慮識別功能,所有這些都必須在數據輸入之前進行。為微調而上傳的數據將由OpenAI無限期保留,直到客戶刪除這些文件。
透明度:人工智能領域通常對學習和改進保持高度開放的標準。然而,隨著GPT-4的發布,OpenAI選擇使其源代碼專有,并對同行評審保留技術細節。缺乏透明度阻礙了研究人員和數據科學家對結果進行核實和驗證,對需要完全透明和開源訪問以進行徹底評估的企業構成了挑戰。
消費者數據隱私:ChatGPT通過數據隱私協議(DPA)處理消費者數據隱私,以滿足GDPR請求。然而,DPA并沒有完全涵蓋關鍵行業法規(如醫療保健行業的PHI/HIPAA、信用卡處理行業的PCI/DSS或金融服務行業的SEC和FINRA)所需的更復雜的數據隱私要求。某些法規僅禁止某些形式的衍生數據處理,但將大部分衍生數據排除在DPA保護之外,引發了額外的擔憂。
安全性:OpenAI及其云合作伙伴保持著高安全標準,但ChatGPT的專有性質及其數據使用引發了對數據泄露和泄露的擔憂。沒有提供企業級的安全特性,如細粒度的、基于角色的訪問控制和主動的“權限管理”解決方案。OpenAI平臺缺乏端到端加密,這意味著OpenAI員工可能可以訪問數據和對話,并且沒有數據屏蔽或敏感數據發現工具等數據混淆解決方案來幫助數據準備。
數據治理:有效的企業數據管理需要遵守廣泛的行業和政府法規。除了信息生命周期管理(ILM)和SOC 2合規性之外,企業數據還必須遵守PHI/HIPAA、PCI-DSS、SEC、FINRA、FDA和FISMA等標準。不斷發展的人工智能相關法規,如歐盟的2021年人工智能法案和美國的人工智能權利法案,增加了復雜性。
鑒于這些挑戰,企業正在部署新的基礎設施解決方案,以滿足生成式人工智能應用程序的數據驅動需求。為了管理企業數據暴露的風險,必須采取嚴格的數據保護措施,以確保在利用人工智能技術的好處的同時滿足消費者數據隱私和安全目標。
各行各業的公司不得不考慮運行自己的私有LLM,以滿足監管合規義務。支持機器學習和高級數據準備以安全訓練模型的云數據管理平臺正變得越來越重要。跟蹤這些平臺中的工作流、實驗、部署和相關工件,可以為機器學習運營(MLOP)提供集中的模型注冊表,并提供監管監督所需的審計跟蹤、再現性和控制。
人工智能數據結構需要完整的數據工程能力,包括端到端安全、數據隱私、實時處理、數據治理、元數據管理、數據準備和機器學習。無論是使用私有LLM還是像ChatGPT這樣的公共模型,集中式MLOP都可以確保數據工程師控制整個機器學習生命周期。
雖然ChatGPT已經產生了重大影響,但它在企業中的集成取決于成功的數據治理和數據工程流程。正如德意志銀行發言人Sen Shanmugasivam所指出的那樣,盡管受到禁令的限制,該銀行仍在積極探索如何以“安全和合規的方式”使用生成式人工智能工具。企業對生成式人工智能和機器學習的興趣正在飆升,但企業運營將需要數據治理標準和保障措施,以確保企業人工智能的安全未來。