谷歌團隊警告:人人都想做模型而非數(shù)據(jù)工作,這很危險
AI 模型越來越多地應(yīng)用于健康監(jiān)測、雇員評價、信用評級等高風(fēng)險領(lǐng)域。
與之相比的是,數(shù)據(jù)質(zhì)量在 AI 中所發(fā)揮的作用卻被低估,然而真實的情況是,它在高風(fēng)險 AI 應(yīng)用中的價值是無可替代的。因為數(shù)據(jù)質(zhì)量對下游的影響巨大,尤其是癌癥檢測、野生動物偷獵和貸款分配等預(yù)測任務(wù)上。由此引出當(dāng)下的矛盾之處:“一貫被視為無足輕重的數(shù)據(jù),其影響從未被真正了解過”。
這個結(jié)論來自谷歌團隊的一篇題為“Everyone wants to do the model work, not the data work”: Data Cascades in High-Stakes AI”的論文,明確肯定了數(shù)據(jù)質(zhì)量在 AI 中的潛力和價值。
在該文章中,這支研究團隊通過與印度、東非和西非國家以及美國的53位AI從業(yè)者進行訪談,呈現(xiàn)出現(xiàn)有的高風(fēng)險 AI 數(shù)據(jù)實踐。
AI地基所在
數(shù)據(jù)是構(gòu)建 AI 系統(tǒng)所必需的關(guān)鍵基礎(chǔ)設(shè)施。因為數(shù)據(jù)在很大程度上決定了 AI 系統(tǒng)的性能、公平性、穩(wěn)健性、安全性和可擴展性。然而矛盾的是,對于 AI 研究人員和開發(fā)人員而言,數(shù)據(jù)方面通常是最不被重視的。
從直覺上看,AI 開發(fā)人員認(rèn)為數(shù)據(jù)質(zhì)量很重要。而實際上,大多數(shù)組織都沒有建立或滿足任何數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn),這是因為相對于模型開發(fā)任務(wù),數(shù)據(jù)工作的價值向來被忽視,更別提時間成本了。
研究團隊從來自印度、美國、東非和西非國家的 53 位 AI 從業(yè)者的實踐和結(jié)構(gòu)因素進行了定性研究并報告了結(jié)果,將 AI 應(yīng)用于高風(fēng)險領(lǐng)域,包括滑坡檢測、自殺預(yù)防和癌癥檢測,旨在了解這些從業(yè)者如何對端到端 AI 數(shù)據(jù)生命周期概念化和導(dǎo)航化。
研究采用的半結(jié)構(gòu)化訪談,主要關(guān)注以下幾個內(nèi)容:
(1)數(shù)據(jù)源和AI生命周期;
(2)定義數(shù)據(jù)質(zhì)量;
(3)數(shù)據(jù)質(zhì)量反饋回路;
(4)上下游數(shù)據(jù)效應(yīng);
(5)利益相關(guān)者和問責(zé)制;
(6)激勵結(jié)構(gòu);
(7)有效的干預(yù)措施。
他們通過開發(fā)者社區(qū)、分發(fā)名單、專業(yè)網(wǎng)絡(luò)和個人聯(lián)系人的組合方式來招募參與者,使用滾雪球式和有目的性的抽樣,不斷迭代直到飽和。
參與者人口統(tǒng)計的具體信息如表 1 所示:

為了更清楚的展示問題,他們定義、識別并提供了數(shù)據(jù)庫級聯(lián)(Data Cascades)的經(jīng)驗證據(jù)——由低估數(shù)據(jù)質(zhì)量的傳統(tǒng) AI/ML 實踐引發(fā)的復(fù)合事件,這些事件會造成數(shù)據(jù)問題的負(fù)面和下游影響。
研究發(fā)現(xiàn),低估數(shù)據(jù)工作的價值在 AI 開發(fā)中屢見不鮮。
換句話說,由此導(dǎo)致的數(shù)據(jù)庫級聯(lián)的存在非常普遍。數(shù)據(jù)庫級聯(lián)通常是由于應(yīng)用了傳統(tǒng)的 AI 實踐,低估了數(shù)據(jù)質(zhì)量而引發(fā)的。
在進行項目中,有 92% 的 AI 從業(yè)者報告經(jīng)歷了一個或多個級聯(lián),而 45.3% 的人報告了兩個或多個級聯(lián)。
例如,在無噪聲數(shù)據(jù)上訓(xùn)練以獲得高模型性能的眼部疾病檢測模型,無法根據(jù)圖像上的小灰塵斑點預(yù)測產(chǎn)生的疾病。數(shù)據(jù)庫級聯(lián)不透明且有延遲,指標(biāo)和衡量標(biāo)準(zhǔn)較差。級聯(lián)對模型的下游任務(wù)構(gòu)成了主要的負(fù)面影響,如昂貴的迭代、廢棄項目和對社區(qū)的危害。需要注意的是,如果通過有意的做法,級聯(lián)基本上是可以避免的。
這種高普遍性表明,AI 領(lǐng)域潛藏著一個更大的問題,即數(shù)據(jù)實踐、方法和激勵機制的損壞。數(shù)據(jù)庫級聯(lián)、其指標(biāo)和影響應(yīng)當(dāng)放在更廣闊的高風(fēng)險領(lǐng)域和 AI 生態(tài)系統(tǒng)中進行審查。
普遍存在的問題
影響高風(fēng)險領(lǐng)域中數(shù)據(jù)庫級聯(lián)因素有很多,論文主要總結(jié)出以下幾點:
1、AI 中的激勵機制:
“每個人都想做模型工作而不是數(shù)據(jù)工作”。
對 AI 中不可見、費力且理所當(dāng)然的數(shù)據(jù)工作缺乏系統(tǒng)認(rèn)識,導(dǎo)致糟糕的數(shù)據(jù)實踐,進而引發(fā)數(shù)據(jù)庫級聯(lián)。
與模型不同,對數(shù)據(jù)的關(guān)心和改進不容易被“跟蹤”或得到獎勵。據(jù)報道,在 ML 出版物中,AI 模型作為在該領(lǐng)域獲得聲望和上升流動的手段,使從業(yè)者在 AI/ML 工作及其他方面更具競爭力。然而,許多從業(yè)者將數(shù)據(jù)工作描述為耗時的、無法跟蹤的工作,并且經(jīng)常是在利潤壓力下快速完成的,往往無法專注于提升數(shù)據(jù)質(zhì)量。此外,在高質(zhì)量的數(shù)據(jù)收集和注釋工作上很難獲得客戶和投資者的支持,特別是在價格敏感的新興市場,比如東非、西非國家和印度。
2、數(shù)據(jù)教育:
在 AI 的數(shù)據(jù)質(zhì)量、收集和倫理道德方面缺乏培訓(xùn),導(dǎo)致從業(yè)者在處理高風(fēng)險領(lǐng)域創(chuàng)建數(shù)據(jù)集的復(fù)雜性方面準(zhǔn)備不足。
AI 課程專注于清洗數(shù)據(jù)后的小數(shù)據(jù)集(如UCI 人口普查, Kaggle數(shù)據(jù)集),但在實踐中,部署 AI 需要創(chuàng)建數(shù)據(jù)管道,通常是從零開始。正如西非國家從事醫(yī)療保健的工作人員解釋的那樣:“在現(xiàn)實生活中,我們從未看到干凈的數(shù)據(jù)。課程和培訓(xùn)側(cè)重于要使用的工具,而很少涉及數(shù)據(jù)清理和管道漏洞。”同樣,來自美國的一位教員也進行了說明:“我們從未接受過計算機科學(xué)(CS, Computer Science)的培訓(xùn),也沒有積極地考慮數(shù)據(jù)收集的問題?!笨偠灾?,數(shù)據(jù)工程一直都未得到足夠的重視。
3、數(shù)據(jù)自舉:
高風(fēng)險的 AI 領(lǐng)域需要按地區(qū)、人口、現(xiàn)象或物種劃分的專門數(shù)據(jù)集,尤其是在數(shù)字化不足的環(huán)境中。
例如,在泰米爾納德邦農(nóng)村地區(qū)的瘧疾傳播,馬賽馬拉的大象運動。74% 的從業(yè)者從零開始進行數(shù)據(jù)收集工作——許多人在對此無準(zhǔn)備的情況下坦然接受,也有的人為此放棄了 AI 項目。
來自美國的從業(yè)者大多是從現(xiàn)有資源和已建立的數(shù)字基礎(chǔ)設(shè)施中起步的,例如衛(wèi)星數(shù)據(jù)、傳感器數(shù)據(jù)和公共數(shù)據(jù)集,而東非、西非和印度等的大多數(shù)國家則從頭收集數(shù)據(jù),并“量身定制”在線數(shù)據(jù)集。使用其他地區(qū)的數(shù)據(jù)進行自舉會造成通用性方面的限制。例如,美國清潔能源使用美國東北部的衛(wèi)星數(shù)據(jù)進行自舉模型訓(xùn)練,但由于地形、云層和污染的差異,無法應(yīng)用到目標(biāo)位置。
4、下游問責(zé)制:
高風(fēng)險 AI 的定義特征之一是隱含著對生命體特別是人類自己的責(zé)任。
由于在與弱勢群體合作時缺乏數(shù)據(jù)和采用下游方法,所以當(dāng)從業(yè)者面臨挑戰(zhàn)時便會發(fā)生數(shù)據(jù)庫級聯(lián)。性能差的風(fēng)險主要表現(xiàn)為對社區(qū)的傷害,但也會降低用戶的信任度。
“如果你建立了預(yù)測眼疾的模型,然而預(yù)測結(jié)果是這個人沒有患上眼病,那么你就會讓這個人失明?!?因此,研究報告顯示,消費者 AI(例如廣告技術(shù))的目標(biāo)通常是 70-75% 的準(zhǔn)確率,而針對于高風(fēng)險領(lǐng)域,每增加 1% 的準(zhǔn)確率都至關(guān)重要?!澳壳斑€沒有一種明確的方法來有效地進行模型測試,以防止對患者造成某種傷害。可見,一切都始于風(fēng)險?!?/span>
研究確定了數(shù)據(jù)庫級聯(lián)和相應(yīng)從業(yè)者行為的根本原因,并再次強調(diào),在構(gòu)建 AI 系統(tǒng)時需要高質(zhì)量的數(shù)據(jù),對數(shù)據(jù)工作的付出應(yīng)視為 AI 生態(tài)系統(tǒng)的寶貴貢獻。任何解決方案都需要考慮AI生態(tài)系統(tǒng)的社會、技術(shù)和結(jié)構(gòu)這三方面。
更細(xì)節(jié)的場景下,數(shù)據(jù)庫級聯(lián)受到以下因素的影響:
(a)參與 AI 開發(fā)的行為體(例如,開發(fā)人員、政府和現(xiàn)場合作伙伴)的活動和相互作用,
(b)AI 系統(tǒng)所處的物理世界和社區(qū)(例如,配備數(shù)據(jù)收集傳感器的農(nóng)村醫(yī)院)。
而且數(shù)據(jù)庫級聯(lián)表現(xiàn)出以下屬性:
1.不透明(Opaque):數(shù)據(jù)庫級聯(lián)是復(fù)雜的、長期的、頻繁和持續(xù)發(fā)生的;它們在診斷和表現(xiàn)上是不透明的,具體表現(xiàn)在沒有明確的指標(biāo)、工具來檢測和衡量其對系統(tǒng)的影響。在缺乏明確定義和及時信號的情況下,從業(yè)者將目光轉(zhuǎn)向了替代性指標(biāo)(例如,準(zhǔn)確率、精確度或 F1 分?jǐn)?shù)),注意其中的度量單位是整個系統(tǒng),而非指數(shù)據(jù)集。
2.觸發(fā)者(Triggered by):當(dāng)傳統(tǒng) AI 實踐被應(yīng)用于高風(fēng)險領(lǐng)域時,就會觸發(fā)數(shù)據(jù)庫級聯(lián),這些領(lǐng)域的特點是高問責(zé)性、跨學(xué)科工作和資源緊張。
3.負(fù)面影響(Negative impact):數(shù)據(jù)庫級聯(lián)對 AI 開發(fā)和部署過程有負(fù)面影響,導(dǎo)致在很多種場景下,一些意想不到的策略難免引發(fā)進一步的級聯(lián),從而頻繁造成技術(shù)債務(wù)。
哪些領(lǐng)域存在高風(fēng)險 AI?
文章特別關(guān)注對生物環(huán)境有安全影響的高風(fēng)險領(lǐng)域中的數(shù)據(jù)低估現(xiàn)象,并總結(jié)出以下趨勢:
1.開發(fā)人員正越來越多地在復(fù)雜的人道主義領(lǐng)域部署 AI 模型,例如在孕產(chǎn)婦健康、道路安全和氣候變化等方面;
2.高風(fēng)險領(lǐng)域的低質(zhì)量數(shù)據(jù)可能會對脆弱的社區(qū)和環(huán)境造成巨大影響。
正如 Hiatt 等人所言,這些高風(fēng)險的工作不同于日常的客戶服務(wù);這些項目是為那些面臨一連串恐怖事件風(fēng)險的人群服務(wù)的。例如,不良的數(shù)據(jù)實踐降低了 IBM 癌癥治療 AI 的準(zhǔn)確性,并導(dǎo)致谷歌流感預(yù)測與流感高峰期的差值達 140%。
3.高風(fēng)險 AI 系統(tǒng)通常部署在低資源環(huán)境下,明顯缺乏現(xiàn)成的高質(zhì)量數(shù)據(jù)集。應(yīng)用程序擴展到生活在現(xiàn)代數(shù)據(jù)基礎(chǔ)設(shè)施之外的社區(qū),或日常功能尚未得到持續(xù)追蹤的社區(qū)。例如,在農(nóng)村地區(qū)通過步行距離來收集水資源數(shù)據(jù),這與直接點擊數(shù)據(jù)形成鮮明對比。
4.高風(fēng)險 AI 通常是由兩種或更多學(xué)科組合而成。例如,AI 和糖尿病視網(wǎng)膜病變,導(dǎo)致許多組織和領(lǐng)域中的利益相關(guān)者之間面臨更大的合作挑戰(zhàn)。
考慮到上述因素,目前 AI 的數(shù)據(jù)質(zhì)量問題是借助為處理其他技術(shù)問題創(chuàng)建的錯誤工具來解決的——它們被視為數(shù)據(jù)庫問題、法律合規(guī)性問題或授權(quán)協(xié)議問題。
在團隊的研究中,美國的應(yīng)用領(lǐng)域聚焦于生態(tài)、氣候和福祉,而印度、東非和西非國家的領(lǐng)域與可持續(xù)發(fā)展目標(biāo)更緊密地聯(lián)系在一起,如小額信貸、醫(yī)療保健和農(nóng)業(yè),更是與人類影響直接相關(guān)。
圖 1 為高風(fēng)險 AI 中的數(shù)據(jù)庫級聯(lián)。上文介紹過級聯(lián)是不透明的,而且會產(chǎn)生長時間的負(fù)面效應(yīng)。級聯(lián)往往是在上游出發(fā),如數(shù)據(jù)收集;然后對下游產(chǎn)生影響,如模型部署。紅色粗箭頭表示數(shù)據(jù)級聯(lián)開始變得可見后的復(fù)合效果;紅色虛箭頭表示 ML 數(shù)據(jù)處理的放棄或重新啟動。指標(biāo)在模型評估中是可見的,如系統(tǒng)度量以及故障或用戶反饋。

表 2 概述了四種核心級聯(lián)—觸發(fā)器、影響和信號及其分布。影響的嚴(yán)重程度各不相同,從浪費時間和精力到損害受益者。最嚴(yán)重的數(shù)據(jù)庫級聯(lián)也是長期存在的,而從業(yè)者并不知曉;甚至在某些情況下,需要 2-3 年才能顯現(xiàn)。

結(jié)論
隨著 AI 成為生活中核心決策的重要組成部分,驅(qū)動這些模型的數(shù)據(jù)的質(zhì)量變得尤為重要。
總而言之,該調(diào)查對印度、東非和西非國家以及美國的 53 位 AI 從業(yè)者的數(shù)據(jù)實踐和挑戰(zhàn)進行了定性研究,這些從業(yè)者主要從事健康、野生動物保護、食品系統(tǒng)、道路安全、信貸和環(huán)境等前沿、高風(fēng)險領(lǐng)域的工作。
研究團隊觀察并展示了數(shù)據(jù)庫級聯(lián),對 AI 模型而言,一般表現(xiàn)為長期性、不可見和復(fù)合效應(yīng)。這些影響通常是在高風(fēng)險領(lǐng)域應(yīng)用傳統(tǒng) AI/ML 實踐的結(jié)果——許多傳統(tǒng)實踐沒有整齊地轉(zhuǎn)移,并時常造成嚴(yán)重的影響,如社區(qū)損害、放棄項目和重新進行數(shù)據(jù)收集等。
個人可以嘗試在模型開發(fā)過程中避免數(shù)據(jù)庫級聯(lián),但在 AI 實踐中如何看待數(shù)據(jù),需要的是一種更廣泛、系統(tǒng)的方法來實現(xiàn)結(jié)構(gòu)性、可持續(xù)的轉(zhuǎn)變。哪怕是從業(yè)者對數(shù)據(jù)質(zhì)量的重要性有共識的領(lǐng)域,混亂、冗長和不透明的數(shù)據(jù)庫級聯(lián)也發(fā)人深省地普遍存在。
由此,團隊倡議,將數(shù)據(jù)視為一項“至關(guān)重要的工作”,積極關(guān)注數(shù)據(jù)的優(yōu)質(zhì)程度——關(guān)注數(shù)據(jù) pipeline 的實踐、政治和人的價值觀,通過使用流程、標(biāo)準(zhǔn)、基礎(chǔ)設(shè)施和激勵措施來提高數(shù)據(jù)的質(zhì)量和地位。雖然團隊的研究分析僅限于高風(fēng)險的 AI 項目,但依舊堅信,這些挑戰(zhàn)可能以或多或少的放大形式存在于所有 AI 開發(fā)任務(wù)中。
(歡迎大家加入數(shù)據(jù)工匠知識星球獲取更多資訊。)

掃描二維碼關(guān)注我們

我們的使命:發(fā)展數(shù)據(jù)治理行業(yè)、普及數(shù)據(jù)治理知識、改變企業(yè)數(shù)據(jù)管理現(xiàn)狀、提高企業(yè)數(shù)據(jù)質(zhì)量、推動企業(yè)走進大數(shù)據(jù)時代。
我們的愿景:打造數(shù)據(jù)治理專家、數(shù)據(jù)治理平臺、數(shù)據(jù)治理生態(tài)圈。
我們的價值觀:凝聚行業(yè)力量、打造數(shù)據(jù)治理全鏈條平臺、改變數(shù)據(jù)治理生態(tài)圈。

了解更多精彩內(nèi)容
長按,識別二維碼,關(guān)注我們吧!
數(shù)據(jù)工匠俱樂部
微信號:zgsjgjjlb
專注數(shù)據(jù)治理,推動大數(shù)據(jù)發(fā)展。
