2017 年,《經濟學人》雜志宣布,數據而非石油已成為世界上最有價值的資源。從那時起,這句話就一直在重復。各行各業的組織已經并將繼續在數據和分析方面投入巨資。但與石油一樣,數據和分析也有其陰暗面。
根據 CIO 網站發布的《2023 年CIO狀況》報告,34% 的 IT 領導者表示,數據和業務分析將成為他們所在企業今年最大的 IT 投資驅動力。而 26% 的 IT 領導者表示,機器學習/人工智能將推動最多的 IT 投資。從分析中獲得的洞察力和機器學習算法驅動的行動可以為企業帶來競爭優勢,但失誤可能會在聲譽、收入甚至生命方面造成巨大損失。
了解你的數據和它告訴你的信息固然重要,但同樣重要的是掌握你的工具、了解你的數據,并牢記組織的價值觀。
以下這些在過去十年中發生的備受矚目的統計分析和人工智能方面的失誤,提示我們可能出現的問題。
01Gannett AI弄錯高中體育文章
2023 年 8 月,連鎖報業集團 Gannett 宣布將暫停使用一款名為 LedeAI 的人工智能工具,因為該人工智能撰寫的幾篇文章因重復、文筆差和缺乏關鍵細節而走紅網絡。
美國有線電視新聞網(CNN)指出了互聯網檔案館 Wayback Machine 保存的一個例子,它的開篇是這樣寫的:“周六,在俄亥俄州的一場男子足球比賽中,Worthington Christian 隊 [WINNING_TEAM_MASCOT] 以 2-1 的比分擊敗了Westerville North 隊 [LOSING_TEAM_MASCOT]。”
CNN 在其他地區的 Gannett 集團所屬的報紙上也發現了由 LedeAI 撰寫的類似報道,包括《路易斯維爾信使報》、《亞利桑那中央報》、《今日佛羅里達》和《密爾沃基哨兵報》。
這些報道的行文在社交媒體上遭到廣泛嘲諷后,Gannett 選擇在所有使用 LedeAI 服務的地方媒體上暫停使用該服務。
在給 CNN 的一份聲明中,LedeAI 首席執行官 Jay Allred 表示遺憾,并承諾將盡早改正這些問題。
02iTutorGroup 的招聘人工智能以年齡為由拒絕應聘者
2023 年 8 月,家教公司 iTutorGroup 同意支付 36.5 萬美元,以解決美國平等就業機會委員會(EEOC)提起的訴訟。聯邦機構稱,這家為中國學生提供遠程輔導服務的公司使用人工智能驅動的招聘軟件,自動拒絕 55 歲及以上的女性申請人和 60 歲及以上的男性申請人。
平等就業機會委員會稱,該軟件自動拒絕了 200 多名合格的求職者。
EEOC 主席 Charlotte A. Burrows 在一份聲明中說:“年齡歧視是不公正和非法的。即使是由于技術實現歧視的自動化,雇主仍應承擔責任。”
iTutorGroup 否認有任何不當行為,但決定就訴訟達成和解。作為和解和同意令的一部分,iTutorGroup 同意采取新的反歧視政策。
03ChatGPT 幻化法庭案例
大型語言模型(LLM)在 2023 年取得的進展激發了人們對生成式人工智能在幾乎所有行業的變革潛力的廣泛興趣。OpenAI 的 ChatGPT 是這股熱潮的中心,它預示著生成式人工智能將如何在幾乎所有商業領域顛覆工作的本質。
但這項技術要想可靠地接管大多數業務流程還有很長的路要走,正如Steven A. Schwartz 律師在 2023 年發現自己與美國地區法官 P. Kevin Castel 發生爭執時所了解到的那樣,他在起訴哥倫比亞航空公司 Avianca 時使用了 ChatGPT 來研究先例。
Schwartz 是 Levidow, Levidow & Oberman 律師事務所的律師,他使用 OpenAI 生成式人工智能聊天機器人查找以前的案例,以支持 Avianca 航空公司雇員 Roberto Mata 就其在 2019 年所受傷害提起的訴訟。你一定會關心問題是什么?問題是辯護狀中提交的案例中至少有6個是不存在的。在 5 月份提交的一份文件中,Castel 法官指出,Schwartz 提交的案件包括虛假的名稱和備審案件號,以及虛假的內部引用和引文。Schwartz 的合伙人 Peter LoDuca 是 Mata 的注冊律師,并在辯護狀上簽了名,這也讓他自己陷入了危險之中。
Schwartz 在一份宣誓書中告訴法庭,這是他第一次使用 ChatGPT 作為法律研究來源,他“沒有意識到其內容可能是虛假的”。他承認自己沒有確認人工智能聊天機器人提供的信息來源。他還說,他 “非常后悔利用生成式人工智能來補充在此進行的法律研究,承諾今后在沒有絕對核實其真實性的情況下絕不會這樣做”。
2023 年 6 月,Castel 法官對 Schwartz 和 LoDuca 處以 5000 美元的罰款。在今年 6 月的另一項裁決中,Castel 法官駁回了 Mata 對 Avianca 航空公司的訴訟。
04人工智能算法可識別除 COVID-19 以外的所有病毒
自 COVID-19 大流行開始以來,許多機構都在尋求應用機器學習(ML)算法來幫助醫院更快地診斷或分流病人。但據英國 Turing Institute(英國的國家數據科學與人工智能研究機構)稱,這些預測工具幾乎沒有起到任何作用。
《MIT Technology Review》記錄了一系列失敗案例,其中大部分源于工具訓練或測試方法的錯誤。使用標記錯誤的數據或來源不明的數據是常見的罪魁禍首。
劍橋大學的機器學習研究員 Derek Driggs 及其同事在《Nature Machine Intelligence》雜志上發表了一篇論文,探討了使用深度學習模型診斷病毒的問題。論文認為該技術不適合臨床使用。例如,Driggs 的研究小組發現,他們自己的模型存在缺陷,因為該模型是在一個數據集上訓練的,該數據集包括躺姿掃描的病人和站姿掃描的病人。躺著的病人更有可能患重病,因此算法學會了根據掃描過程中人的姿勢來識別 COVID 風險。
類似的例子還包括使用數據集訓練算法,該數據集包括健康兒童的胸部掃描結果。該算法學會了識別兒童,而不是高風險患者。
05Zillow 因算法購房災難減記數百萬美元并裁員
2021 年 11 月,在線房地產市場 Zillow 向股東表示,將在接下來的幾個季度里關閉 Zillow Offers 業務,并裁員 25%,約 2000 人。舊屋翻新部門的困境是其用于預測房價的機器學習算法的錯誤率造成的。
Zillow Offers 是該公司根據機器學習算法 Zestimate 對房屋估價后對房產進行現金收購的項目。他們的設想是翻新這些房產,然后迅速出售。但 Zillow 發言人告訴 CNN,該算法的中位誤差率為 1.9%,而那些未公開出售房屋資源的誤差率可能更是高達 6.9%。
CNN 報道稱,自 2018 年 4 月推出 Zillow Offers 以來,Zillow 通過該平臺購買了 2.7 萬套房屋,但截至 2021 年 9 月底僅售出 1.7 萬套。COVID-19 大流行和房屋裝修勞動力短缺等黑天鵝事件導致了該算法的準確性出現問題。
Zillow 表示,該算法導致其無意中以高于目前對未來售價估計的價格購買了房屋,導致 2021 年第三季度的庫存減記達 3.04 億美元。
Zillow 聯合創始人兼首席執行官 Rich Barton 在聲明發布后的投資者電話會議上表示,也許可以調整算法,但無論如何承擔風險太大。
06醫療保險算法將黑人患者排除
2019 年,發表在《科學》(Science)雜志上的一項研究顯示,美國各地的醫院和保險公司用來識別需要 “高風險護理管理”項目的患者的醫療預測算法,不太可能將黑人患者納入其中。
高風險護理管理計劃為慢性病患者提供訓練有素的護理人員和初級保健監測,以預防嚴重并發癥的發生。但與黑人患者相比,該算法更傾向于推薦白人患者參加這些項目。
研究發現,該算法將醫療支出作為確定個人醫療需求的替代指標。但據《科學美國人》報道,病情較重的黑人患者的醫療費用與較健康的白人患者的費用相當,這意味著即使他們的需求更大,他們得到的風險評分也較低。
該研究的研究人員認為,可能有幾個因素造成了這種情況。首先,有色人種更有可能收入較低,這可能使他們即使有保險也不太容易獲得醫療服務。隱性偏見也可能導致有色人種獲得較低質量的醫療服務。
雖然這項研究沒有指出算法或開發者的名字,但研究人員告訴《科學美國人》,他們正在與開發者合作解決這一問題。
07數據集訓練微軟聊天機器人發表種族主義推文
2016 年 3 月,微軟了解到,使用 Twitter 互動作為機器學習算法的訓練數據可能會產生令人沮喪的結果。
微軟在社交媒體平臺上發布了人工智能聊天機器人 Tay。該公司將其描述為 “對話理解”實驗。當時的設想是,這個聊天機器人將假扮成一個十幾歲的女孩,利用機器學習和自然語言處理相結合的方法,通過 Twitter 與個人互動。微軟將匿名的公共數據和一些喜劇演員預先寫好的材料作為種子,然后讓它在社交網絡的互動中學習和發展。
在 16 個小時內,聊天機器人發布了 95,000 多條推文,這些推文迅速變成了明顯的種族主義、歧視女性和反猶太言論。微軟迅速暫停該服務進行調整,并最終拔掉了插頭。
事件發生后,微軟研究與孵化部門企業副總裁(時任微軟醫療保健部門企業副總裁)Peter Lee 在微軟官方博客上發文寫道:“我們對Tay無意中發出的攻擊性和傷害性推文深表歉意。這些推文并不代表我們的身份和立場,也不代表我們設計 Tay 的方式。”
Lee 指出,2014 年微軟在中國發布的 Tay 的前身 “小冰”,并在 Tay 發布前的兩年里成功地與 4000 多萬人進行了對話。微軟沒有考慮到的是,一群推特用戶會立即開始在推特上向 Tay 發表種族主義和厭女主義的評論。該機器人迅速從這些材料中學習,并將這些素材融入自己的推特。
Lee 寫道:“盡管我們已經為許多類型的系統濫用做好了準備,但在這次特定的攻擊中,我們還是出現了嚴重的疏忽。結果,Tay 在推特上發布了大量不恰當且應受譴責的文字和圖片。”
08Amazon公司人工智能招聘工具只推薦男性
與許多大公司一樣,Amazon 也渴望獲得能幫助其人力資源部門篩選最佳人選的工具。2014 年,Amazon 開始研發人工智能驅動的招聘軟件來實現這一目標。問題只有一個:該系統極度偏愛男性求職者。2018 年, Reuters 爆料稱,Amazon 已經取消了該項目。
Amazon 的系統會給應聘者打 1 到 5 分的星級,但系統核心的機器學習模型是根據 10 年來向 Amazon 提交的簡歷訓練出來的,其中大部分來自男性。訓練數據的結果是,該系統開始懲罰簡歷中包含“女性”一詞的短語,甚至給來自全女子學院的應聘者降級。
當時,Amazon 表示,Amazon 的招聘人員從未使用過該工具來評估應聘者。
該公司試圖編輯該工具,使其保持中立,但最終決定不能保證它不會學到其他歧視性的應聘者排序方法,因此終止了該項目。
09Target 分析侵犯隱私
2012 年,零售巨頭 Target 的一個分析項目展示了公司可以從數據中了解到多少關于客戶的信息。據《紐約時報》報道,2002 年,Target 的營銷部門開始琢磨如何判斷顧客是否懷孕。這個問題引發了一個預測分析項目,導致該零售商無意中向一位少女的家人透露了她懷孕的消息。這反過來又導致各種文章和營銷博客引用這一事件,作為避免 “網絡恐怖”的建議的一部分。
Target 公司的市場營銷部門希望識別出懷孕的人,因為在人生的某些時期,人們最有可能徹底改變自己的購買習慣,懷孕就是其中之一。如果 Target 能在這個時期接觸到顧客,就可以培養這些顧客的新行為,讓他們到 Target 購買日用品、服裝或其他商品。
與所有其他大型零售商一樣,Target 一直在通過購物代碼、信用卡、調查等方式收集顧客數據。它將這些數據與人口統計數據和購買的第三方數據進行了整合。Target 的分析團隊通過對所有數據的分析,確定了 Target 銷售的約 25 種產品可以通過綜合分析得出 “懷孕預測 ”分數。市場營銷部門就可以針對高分顧客提供優惠券和營銷信息。
進一步的研究表明,研究客戶的生育狀況可能會讓一些客戶感到毛骨悚然。據《泰晤士報》報道,該公司并沒有放棄有針對性的營銷,但確實開始將他們知道孕婦不會購買的東西的廣告混合在一起以便讓客戶感覺廣告組合并非有意而為,比如在尿布廣告旁插入割草機廣告。