2022年,數據和人工智能為數字革命新篇章奠定基礎,并為越來越多的全球公司提供動力。那么,公司如何確保責任和道德是這些革命性技術的核心?
1.定義數據和人工智能的責任
注釋者和數據標記者間缺少多元化樣本是導致人工智能偏差的最大因素之一。
VentureBeat數據峰會的小組成員、東北大學Khoury計算機科學學院公民人工智能實驗室的助理教授兼主任Saiph Savage表示,負責任的人工智能需要從具有包容性的基礎工作開始做起。
“其中要考慮的關鍵問題是,需要不同類型的勞動力為其進行數據標記。”Savage在VentureBeat的數據峰會上表示,假設工人僅來自紐約,那么,其與來自農村地區的工人信息標簽方式就存在不同。這取決于工人不同類型的經歷和不同類型的偏見。”
據行業專家解釋,當今生產中的大量人工智能模型需要帶注釋、標記的數據來學習,用以增強人工智能的智能,并最終增強機器整體能力。
能夠支持這一點的技術很復雜,其中包括自然語言處理 (NLP)、計算機視覺和情感分析等,而這些技術的復雜性將決定訓練人工智能的誤差范圍。
研究表明,即使是著名的NLP語言模型中也包含種族、宗教、性別和職業偏見。同樣,在研究人員所記錄的計算機視覺算法中的偏見證據顯示,這些模型會自動從在線刻板地描繪人群(按種族、性別、體重等)的數據中學習到偏見,即使是情緒分析模型也面臨同樣的挑戰。
全球數據標簽平臺Toloka AI的數據峰會小組成員兼首席執行官Olga Megorskaya認為,負責任的人工智能很重要,但是,它只有在可操作的情況下才能發揮作用。面向企業時,負責任人工智能需要隨時監控生產中部署的模型質量及人工智能決策來源。用戶需要了解模型訓練數據,并根據模型運行的上下文來對其不斷進行更新。因此,負責任的人工智能意味著需要負責任地對待訓練人工智能模型的幕后行動人,而這也是現階段許多研究人員和大學密切合作的地方。
2.可解釋性和透明度
如果負責任的人工智能具有可操作性,那么人工智能背后的可解釋性和透明度與信息情緒同樣重要。這些信息情緒將取決于處理數據的注釋員和標簽商以及使用Toloka等服務的公司客戶。
Toloka自2014年啟動起,便將自己定位于眾包平臺和微任務處理項目,即從全球范圍尋找不同的個人,用以快速標記大量數據,然后用于機器學習和改進搜索算法。
在過去八年間,Toloka已然擴張,現階段,該項目擁有來自全球100多個國家的數據注釋和標簽的20多萬用戶。同時,Toloka還開發了工具來幫助檢測數據集和工具中的偏差,這些工具能夠快速反饋可能會影響請求公司接口、項目或工具等與標記項目有關的問題。此外,Toloka還與Savage工作的東北大學Khoury計算機科學學院的Civic AI實驗室中的研究人員存在密切合作。
Megorskaya表示,人工智能和數據標簽市場的公司應該努力實現透明度和可解釋性,這將“符合工人的利益,也符合企業的利益,使其成為每個人都能從共同發展中獲得優勢的雙贏局面。”
Megorskaya建議企業保持對以下內容的調整,以確保內部和外部的透明度和可解釋性:
1、不斷調整人工智能培訓的數據,使用能夠反映當前的現實生活情況的數據。
2、衡量模型質量,并使用這些信息來構建模型質量指標,用以跟蹤改進超時性能。
3、保持靈活度,將透明度視為數據標簽人在進行注釋時應遵循的可見性準則。
4、保證反饋易于訪問,并優先處理。
例如,Toloka的平臺提供了對可用任務的可見性以及為從事這項工作的標簽工提供出指南,確保進行標簽的工人和公司能夠進行直接、快速的反饋循環。如果需要調整標簽規則或指南,其就可以在短時間內進行更改。而這一標準,為標簽團隊提供了空間,讓他們能夠以更統一、準確及更新的方式處理數據標簽過程的其余部分,用以人為本的方法解決可能出現的偏見留出空間。
3.將“人性”推向創新的最前沿
Megorskaya和Savage均表示,通常,外包標簽和培訓人工智能模型的公司是不會選擇與實際標記數據的個人進行互動的。因此,公司把數據標簽和注釋任務留給第三方或外包的決定將使得其本身在人工智能負責任開發方面造成裂痕。
Toloka認為,消除人工智能生產領域偏見并打破系統斷開的循環,能夠讓人工智能和機器學習更具包容性和代表性。
而他們也希望能夠為這一變化鋪平道路,并讓開發工程師要求公司面對面地與數據標簽商會面。這樣一來,能夠了解到其數據和人工智能存在的用戶多樣性。若公司技術影響到真實人員、地點和社區的可見性,工程最終將造成差距,而消除這一差距將為團隊建造出更有利的發展。
"在現代世界,非有效人工智能模型可以根據一小部分預選人員收集的一些數據進行培訓,而他們一生都在做這個注釋。”Megorskaya說道。
現下,Toloka正在構建數據表用以展示工人可能存在的偏見。
“當您進行數據標簽時,這些工作表會顯示員工擁有的背景類型及可能缺少的背景等信息。”Savage解釋道,這對開發人員和研究人員來說特別有幫助,這樣他們就可以做出決定,獲得下次運行中可能缺失的背景和視角,使模型更具包容性。
盡管每個數據集和模型中都涵蓋無數種族、人員背景及經驗似乎是一項艱巨的任務。但對此,Savage和Megorskaya強調,對企業、研究人員和開發人員而言,增強公平和負責任的人工智能的最重要的方法就是讓盡可能多的主要利益相關者參與進來,因為糾正偏見是比這項工作更困難的任務。
“人工智能很難做到絕對負責和合乎道德,但盡可能貼近這一目標十分重要。”Megorskaya表示,需要擁有盡可能廣泛和包容的代表性,以便為工程師提供負責任地有效構建人工智能的最佳工具。