自從OpenAI公司研發的機器人聊天程序ChatGPT在2022年11月30日發布以來,在全世界迅速帶起了熱潮。ChatGPT是AI大模型驅動的自然語言處理工具,能夠基于在預訓練階段所見的模式和統計規律,來生成回答,還能根據聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務。
目前,ChatGPT背后的大模型及其應用已成為AI研究和應用的熱點。部分專家和學者提出,數字化的下一階段是智能化,而AI大模型及其應用是推動數字化轉型持續深化的引擎。
AI大模型在數字化轉型中的地位和作用還處于持續的探索之中。筆者在之前的文章中,已經描述了數字化轉型的基本概念和方法論。那么,在我們建立的知識體系當中,AI大模型應當處于什么位置,當前和未來將會發揮什么作用呢?
1.AI大模型與“以數據為中心的業務變革”
一直以來,我們提到,數字化轉型分為“業務活動步驟化”、“步驟環節要素化”、“要素數據規格化”和“以數據為中心的業務變革”四個階段。業務活動經過前三階段,逐步形成了規范化的業務運行數據。對于以數據為中心的AI大模型而言,其在數字化轉型中的應用理所應當處于“以數據為中心的業務變革”階段,屬于《“以數據為中心的業務變革”之三種范式》中的第三種范式“系統數字化、規則數字化、模型和業務相互驅動”:適合無明確的現有規則或僅依靠現有規則不足以支撐業務運行、主觀性強、容錯性高的應用場景,由于其技術特點,暫無法滿足業務規則專業型強、復雜度高的場景。
對于AI大模型在復雜專業領域的應用,在此舉個栗子:
數學家陶哲軒認為ChatGPT是“數學菜雞”,但在開展研究工作時,仍然很好地利用ChatGPT作為研究助理,包括以下三個步驟:1.明確GPT4的身份是“一個擅長給技巧性建議的數學合作專家”,目標是“提出一些建議”而非解決問題;2.使用Markdown輕量級標記語言而非數學算式來描述數學問題,便于GPT4理解;3.將問題描述中,涉及需要GPT-4自己查找資料的部分轉變為引用注釋,并在結尾給出網址。相比讓GPT-4直接化身數學家去“解決問題”,陶哲軒把它當做一個提供靈感來源的“專家”,給自己提供研究方向的建議,很大程度提高了數學家研究工作的效率。
陶哲軒使用GPT-4的經驗是:1.不要讓AI直接回答問題,因為這幾乎肯定會得到一些看起來專業的廢話;2.AI大模型擅長半成品的語義搜索工作,在巧妙的問題內容和格式設計下,可以成為科學家的合作者,提供有價值的策略建議。
在現實中,部分企業領導在缺乏對業務生產線深入調研和理解,并且同樣缺乏對大模型技術特點和應用場景理解的基礎上,僅被PPT忽悠,就認為AI大模型具有完全替代專業領域工作人員的能力,盲目推動一些高投入的項目上馬,其前景可想而知。
2.AI大模型與知識管理
上一節提到,AI大模型擅長半成品的語義搜索工作,在巧妙的問題內容和格式設計下,可以成為業務人員的合作者,提供有價值的策略建議,從而為業務活動創造便利,達到“降本增效”的效果。
看到這一點,不知道一直關注本號的讀者有沒有聯想到什么?對了,就是“知識管理”。在《數字化轉型企業需要什么樣的知識管理》中,我們提到:業務“數字化”后其運行規則發生的變化稱為知識數字化。知識數字化作為業務規則與業務“數字化”之間的橋梁,是數字化轉型企業的業務引擎。知識數字化依賴有效的知識管理來實現,知識管理的目標是:1.通過實施管理活動,將企業運行過程中積累的智力成果有效轉化為業務運行規則并動態更新;2.將業務規則與業務活動本身緊密耦合,以便在業務活動的任何環節和階段有效運用規則。這其中涉及兩方面內容,一是對業務運行規則也就是知識的積累和管理;二是對知識的應用。
而AI大模型作為業務人員的合作者,擁有大量模型參數,在海量業務數據的訓練下,一方面可以自動化實現業務運行規則的有效積累、集成和管理,另一方面在知識數字化、范式化、模板化、模型化的基礎上,還實現了知識的按需提供、集成化展示和智能推薦。
從知識管理的角度,AI大模型在數字化轉型企業知識數字化、范式化、模板化、模型化的基礎上,實現了知識管理的自動化和知識應用的智能化。
3.AI大模型與數據安全
筆者認為,企業在準備深度應用AI大模型之前,首先要考慮清楚一個問題——數據安全。這里讀者可能會有疑問:數據安全只是數據治理工作的一部分,在這一場景下為什么要首先考慮?在此先給出結論:企業對自身業務數據安全的考慮,將對AI大模型的建設和應用模式產生決定性影響。
從技術上講,AI大模型本質上是一個使用海量數據訓練而成的深度神經網絡模型。其巨大的數據和參數規模,實現了智能的涌現,展現出類似人類的智能。AI大模型在理解能力、推理能力、創作能力上的突破,建立在大量級、高質量的訓練數據基礎上。據稱GPT-3模型使用了不少于45TB的原始數據和570GB的預處理數據,GPT-4模型使用的數據則更多。而企業所需要的垂直領域AI大模型,在多領域、多行業及多樣性的海量數據基礎上,還要將更多的垂直領域知識、業務規則加入模型的訓練數據集,并需要業務領域專家的深度參與。
而用戶在使用AI大模型過程中,需要向大模型提供輸入以獲得期望的輸出。這些持續不斷的輸入反過來為大模型的改進和完善提供了矯正數據和反饋信息,從某種程度上講需要提供部分企業業務運行的敏感數據、流程和規則信息。如果企業完全不能接受這些信息的外泄,就必須自建AI大模型及其應用,而這需要較高的資源投入。
一方面,如果企業能夠接受員工在使用公共AI大模型過程中,向大模型提供企業運行的部分敏感數據,也需要進一步評估提供數據的邊界和方式,并在此基礎上制定相應的數據安全策略、制度和操作規程,而這些都是全新的領域。
另一方面,如果企業自建AI大模型,需要重點解決的是數據訪問的權限問題。簡單的說,就是在各崗位職工普遍使用AI大模型作為業務助手的情況下,需要根據崗位的知悉范圍,對其能夠從企業自建AI大模型中獲取的數據邊界進行限制,而這對于大模型提出了更高的技術和使用管理要求。
4.總結
在目前AI大模型的行業應用剛剛起步階段,部分企業領導寄希望大模型能夠一招定勝負,解決企業發展的數字化轉型問題的想法是不切實際的。目前,由于數據智能的技術局限性,AI大模型在數字化轉型中的作用尚未突破《“以數據為中心的業務變革”之三種范式》中第三種范式的邊界。但AI大模型在企業知識管理領域,可以在知識數字化、范式化、模板化、模型化的基礎上進一步實現知識管理的自動化和知識應用的智能化,進一步促進“降本增效”。而作為數據密集型的應用,AI大模型為傳統的數據安全和數據治理也帶來了新的課題和挑戰。