聯(lián)邦學習技術應運而生!
聯(lián)邦學習作為一種強調數(shù)據(jù)安全和隱私保護的分布式機器學習技術,在人工智能廣泛發(fā)揮作用的背景下,受到廣泛關注。
人工智能技術不斷發(fā)展,在不同前沿領域體現(xiàn)出強大活力。然而,現(xiàn)階段人工智能技術的發(fā)展受到數(shù)據(jù)的限制,公眾對于數(shù)據(jù)隱私更為敏感。數(shù)據(jù)孤島和隱私問題的出現(xiàn)使人工智能技術發(fā)展受限,同時各機構、企業(yè)所擁有的數(shù)據(jù)又有極大的潛在應用價值。那么,如何在滿足數(shù)據(jù)安全和合規(guī)要求的前提下,利用多方異構數(shù)據(jù)進一步學習以推動人工智能的發(fā)展呢?
為了解決這個問題,聯(lián)邦學習技術應運而生。
什么是聯(lián)邦學習
聯(lián)邦學習是一種帶有隱私保護、安全加密技術的分布式機器學習框架,旨在讓分散的各參與方在滿足不向其他參與者披露隱私數(shù)據(jù)的前提下,協(xié)作進行機器學習的模型訓練。
聯(lián)邦學習架構
聯(lián)邦學習的架構分為兩種,一種是中心化聯(lián)邦(客戶端/服務器)架構,一種是去中心化聯(lián)邦(對等)架構。
1.客戶端/服務器架構
在客戶端/服務器架構中,各參與方須與中央服務器合作完成聯(lián)合訓練,如圖1所示,過程如下:
(1)中央服務器先將初始模型分發(fā)給各參與方,然后各參與方根據(jù)本地數(shù)據(jù)集分別對所得模型進行訓練。
(2)接著,各參與方將本地訓練得到的模型參數(shù)加密上傳至中央服務器。
(3)中央服務器對所有模型梯度進行聚合,再將聚合后的全局模型參數(shù)加密傳回至各參與方。

2.對等架構
在對等架構中,不存在中央服務器,所有交互都是參與方之間直接進行的,如圖2所示:
在對等架構中,由于沒有第三方服務器的參與,參與方之間直接交互。因此,當參與方對原始模型訓練后,需要將本地模型參數(shù)加密傳輸給其余參與聯(lián)合訓練的數(shù)據(jù)持有方。

聯(lián)邦學習行業(yè)解決方案
聯(lián)邦學習可以在不同機構間發(fā)揮作用,兼具模型質量無損、數(shù)據(jù)隱私安全的優(yōu)勢,具有廣泛的應用場景。
1. 聯(lián)邦學習+智慧金融
金融行業(yè)加速數(shù)字化轉型的過程中,銀行、保險、投資等行業(yè)都面臨著有效數(shù)據(jù)欠缺與隱私保護安全的雙重挑戰(zhàn)。
以車險為例, 對于車輛的出險概率預測可以根據(jù)車輛的屬性數(shù)據(jù)(如車輛型號等)、車輛歷史理賠數(shù)據(jù)以及車輛所有人的屬性數(shù)據(jù)(如投保人駕駛年齡等)。這些數(shù)據(jù)涉及用戶隱私,分布在不同組織機構內,因此車輛出險概率的構想實際落地非常困難。
若引入了聯(lián)邦學習的車險出險概率預測方法,可以在各方數(shù)據(jù)不出本地的情況下,聯(lián)合各方數(shù)據(jù)進行訓練,包括車輛的屬性數(shù)據(jù)、車輛歷史理賠數(shù)據(jù)以及車輛所有人的屬性數(shù)據(jù),進行車輛出險概率的預測,進而使車輛承保、定價更加合理。

2. 聯(lián)邦學習+智慧城市
智慧城市建設是國家數(shù)字戰(zhàn)略的關鍵組成部分,在包括零售、交通、物流、政府在內的智慧城市場景中,存在數(shù)據(jù)利用率低、模型精確度低等問題。
以零售為例,傳統(tǒng)零售企業(yè)只擁有本地門店消費記錄,無法整體把握行業(yè)態(tài)勢。但各企業(yè)、機構單純的數(shù)據(jù)融合是無法保障數(shù)據(jù)安全和用戶隱私的,如何解決這些問題成為實現(xiàn)數(shù)字化新零售的重點。
現(xiàn)擬建立基于聯(lián)邦學習的商家洞察系統(tǒng),其結構如圖4所示。在這一智慧零售場景中,有4個數(shù)據(jù)持有方:社交平臺,擁有用戶個性化特征;電商平臺,擁有用戶詳細的線上消費記錄;零售商和品牌商,擁有用戶在本地的消費記錄。在聯(lián)邦學習過程中,各方根據(jù)本地數(shù)據(jù)訓練本地模型,然后與協(xié)調方通信以獲得最新模型參數(shù),并以此在本地做出調整。

3. 聯(lián)邦學習+智慧醫(yī)療
在醫(yī)療領域,人工智能有著巨大的潛力和市場。例如 "疾病風險預測模型"常被用來預測某種疾病在未來發(fā)病的可能性,從而能針對性地對康復項目進行調整。然而,由于患者的隱私數(shù)據(jù)受到嚴格保護,各醫(yī)療機構間無法輕易共享,這使醫(yī)療領域中AI與數(shù)據(jù)的結合變得尤為困難。
聯(lián)邦學習技術可以在本地醫(yī)院端加密患者樣本,通過加密協(xié)議在各方傳遞加密之后的模型梯度等參數(shù)信息,各個醫(yī)療機構通過對全局下發(fā)的加密信息進行客戶端解密,實現(xiàn)模型參數(shù)更新,從而在保護雙方原始數(shù)據(jù)不被暴露的前提下,聯(lián)合雙方用戶特征進行疾病預測模型的訓練。
這種基于聯(lián)邦學習技術和先驗醫(yī)學知識的疾病風險預測體系,成功解決了面向訓練過程中的隱私保護難題,其提供的疾病預測結果為醫(yī)療健康應用的快速落地,如癌癥早篩等,提供了新的契機。

以上內容摘自《深入淺出聯(lián)邦學習:原理與實踐》,經出版方授權發(fā)布
本書從多角度角度出發(fā)介紹了聯(lián)邦學習的理論,并且在聯(lián)邦學習實戰(zhàn)部分也詳細敘述了聯(lián)邦學習開源框架的安裝指南、測試樣例和實操部署流程,詳情請參考《深入淺出聯(lián)邦學習:原理與實踐》。
