什么是聯(lián)邦學(xué)習(xí)?定義、分類、框架和應(yīng)用實例

?

什么是聯(lián)邦學(xué)習(xí)呢?舉例來說,假設(shè)有兩個不同的企業(yè)A和B,它們擁有不同的數(shù)據(jù)。比如,企業(yè)A有用戶特征數(shù)據(jù);企業(yè) B 有產(chǎn)品特征數(shù)據(jù)和標注數(shù)據(jù)。這兩個企業(yè)按照上述 GDPR 準則是不能粗暴地把雙方數(shù)據(jù)加以合并的,因為數(shù)據(jù)的原始提供者,即他們各自的用戶并沒有機會來同意這樣做。假設(shè)雙方各自建立一個任務(wù)模型,每個任務(wù)可以是分類或預(yù)測,而這些任務(wù)也已經(jīng)在獲得數(shù)據(jù)時有各自用戶的認可。那現(xiàn)在的問題是如何在A和B 各端建立高質(zhì)量的模型。
下載鏈接:
聯(lián)邦學(xué)習(xí)技術(shù)白皮書2.0
新封裝、新材料、新架構(gòu)驅(qū)動后摩爾時代集成電路發(fā)展
但是,由于數(shù)據(jù)不完整(例如企業(yè) A 缺少標簽數(shù)據(jù),企業(yè) B 缺少特征數(shù)據(jù)),或者數(shù)據(jù)不充分(數(shù)據(jù)量不足以建立好的模型),那么,在各端的模型有可能無法建立或效果并不理想。
聯(lián)邦學(xué)習(xí)是要解決這個問題∶它希望做到各個企業(yè)的自有數(shù)據(jù)不出本地,而聯(lián)邦系統(tǒng)可以通過加密機制下的參數(shù)交換方式,即在不違反數(shù)據(jù)隱私法規(guī)情況下,建立一個虛擬的共有模型。這個虛擬模型就好像大家把數(shù)據(jù)聚合在一起建立的最優(yōu)模型一樣。但是在建立虛擬模型的時候,數(shù)據(jù)本身不移動,也不泄露隱私和影響數(shù)據(jù)合規(guī)。這樣,建好的模型在各自的區(qū)域僅為本地的目標服務(wù)。在這樣一個聯(lián)邦機制下,各個參與者的身份和地位相同,而聯(lián)邦系統(tǒng)幫助大家建立了“共同富裕”的策略。這就是為什么這個體系叫做“聯(lián)邦學(xué)習(xí)”。
上述實例闡述了聯(lián)邦學(xué)習(xí)的基本思想,下文將規(guī)范聯(lián)邦學(xué)習(xí)的定義,介紹聯(lián)邦學(xué)習(xí)的公共價值和商業(yè)價值,并闡明聯(lián)邦學(xué)習(xí)與現(xiàn)有研究的關(guān)系。
聯(lián)邦學(xué)習(xí)的定義
為了進一步準確地闡述聯(lián)邦學(xué)習(xí)的思想,我們將其定義如下∶在進行機器學(xué)習(xí)的過程中,各參與方可借助其他方數(shù)據(jù)進行聯(lián)合建模。各方無需共享數(shù)據(jù)資源,即數(shù)據(jù)不出本地的情況下,進行數(shù)據(jù)聯(lián)合訓(xùn)練,建立共享的機器學(xué)習(xí)模型。

聯(lián)邦學(xué)習(xí)的公共價值
毫無疑問,如今我們正經(jīng)歷互聯(lián)網(wǎng)第四次信息革命,坐棚海量的信息與數(shù)據(jù)。這些數(shù)據(jù)如果能夠用 AL 的方式進行解讀,將會為人類日常生活帶來顛覆性變革。聯(lián)邦學(xué)習(xí)作為未來 Al 發(fā)展的底層技術(shù),它依靠安全可信的數(shù)據(jù)保護措施下連接數(shù)據(jù)孤島的模式,將不斷推動全球 Al 技術(shù)的創(chuàng)新與飛躍。
隨著聯(lián)邦學(xué)習(xí)在更大范圍和更多行業(yè)場景的滲透及應(yīng)用,它在更高層面上對各類人群、組織、行業(yè)和社會都將產(chǎn)生巨大影響,聯(lián)邦學(xué)習(xí)的公共價值主要體現(xiàn)在以下幾個方面∶

聯(lián)邦學(xué)習(xí)的商業(yè)價值
聯(lián)邦學(xué)習(xí)技術(shù)是一種"合作共贏"的模式,對商業(yè)利益而言極具價值。在這樣一個聯(lián)邦機制下,各個參與者的身份和地位相同,而聯(lián)邦系統(tǒng)幫助大家建立了"共同富裕"的策略。這就是為什么這個體系叫做"聯(lián)邦學(xué)習(xí)"。從商業(yè)角度聯(lián)邦學(xué)習(xí)的主要價值有:

為一種全新的技術(shù),聯(lián)邦學(xué)習(xí)在借鑒一些成熟技術(shù)的同時也具備了一定的獨創(chuàng)性。下面我們就從多個角度來闡釋聯(lián)邦學(xué)習(xí)和其他相關(guān)概念之間的關(guān)系。
聯(lián)邦學(xué)習(xí)與分布式機器學(xué)習(xí)的區(qū)別
橫向聯(lián)邦學(xué)習(xí)中多方聯(lián)合訓(xùn)練的方式與分布式機器學(xué)習(xí)(Distributed Machine Learning)有部分相似的地方。分布式機器學(xué)習(xí)涵蓋了多個方面,包括把機器學(xué)習(xí)中的訓(xùn)練數(shù)據(jù)分布式存儲、計算任務(wù)分布式運行、模型結(jié)果分布式發(fā)布等,參數(shù)服務(wù)器(Parameter Server)是分布式機器學(xué)習(xí)中一個典型的例子。
參數(shù)服務(wù)器作為加速機器學(xué)習(xí)模型訓(xùn)練過程的一種工具,它將數(shù)據(jù)存儲在分布式的工作節(jié)點上,通過一個中心式的調(diào)度節(jié)點調(diào)配數(shù)據(jù)分布和分配計算資源,以便更高效的獲得最終的訓(xùn)練模型。
而對于聯(lián)邦學(xué)習(xí)而言,首先在于橫向聯(lián)邦學(xué)習(xí)中的作節(jié)占代表的是模型訓(xùn)練的數(shù)據(jù)掘有方,其對本地的數(shù)據(jù)具有完全的自治村限,可以白于去定何時加入聯(lián)判學(xué)習(xí)進行建模,相對地在參數(shù)服務(wù)器中,中心節(jié)點始終占據(jù)著主導(dǎo)地位,因此聯(lián)邦學(xué)習(xí)面對的是一個更復(fù)雜的學(xué)習(xí)環(huán)境;其次,聯(lián)邦學(xué)習(xí)則強調(diào)模型訓(xùn)練過程中對數(shù)據(jù)擁有方的數(shù)據(jù)隱私保護,是一種應(yīng)對數(shù)據(jù)隱私保護的有效措施,能夠更好地應(yīng)對未來愈加嚴格的數(shù)據(jù)隱私和數(shù)據(jù)安全監(jiān)管環(huán)境。
聯(lián)邦學(xué)習(xí)與聯(lián)邦數(shù)據(jù)庫的關(guān)系
聯(lián)邦數(shù)據(jù)庫系統(tǒng)是將多個不同的單元數(shù)據(jù)庫進行集成,并對集成后的整體進行管理的系統(tǒng)。它的提出是為了實現(xiàn)對多個獨立的數(shù)據(jù)庫進行相互操作。聯(lián)邦數(shù)據(jù)庫系統(tǒng)對單元數(shù)據(jù)庫往往采用分布式存儲的方式,并且在實際中各個單元數(shù)據(jù)庫中的數(shù)據(jù)是異構(gòu)的,因此,它和聯(lián)邦學(xué)習(xí)在數(shù)據(jù)的類型與存儲方式上有很多相化以處。
但是,嵌判數(shù)據(jù)庫系統(tǒng)在各個單元數(shù)據(jù)百的程中不步什何隱私保書利制,所有單元數(shù)據(jù)庫對管理系統(tǒng)都是完全可見的。此外,聯(lián)邦數(shù)據(jù)庫系統(tǒng)的工作重心在包括插入、刪除、查找、合并等各種數(shù)據(jù)庫基本操作上面,而聯(lián)邦學(xué)習(xí)的目的是在保護數(shù)據(jù)隱私的前提下對各個數(shù)據(jù)建立一個聯(lián)合模型,使數(shù)據(jù)中蘊含的各種模式與規(guī)律更好地為我們服務(wù)。
聯(lián)邦學(xué)習(xí)與區(qū)塊鏈的關(guān)系
區(qū)塊鏈是一個基于密碼學(xué)安全的分布式賬本,其方便驗證,不可篡改。區(qū)塊鏈 2.0 是一個去中心化的應(yīng)用,通過使用開源的代碼及分布式的存儲和運行,保證極高的透明度和安全性,使數(shù)據(jù)不會被篡改。區(qū)塊鏈的典型應(yīng)用包括比特幣(BTC)、以太坊(ETH)等。區(qū)塊鏈與聯(lián)邦學(xué)習(xí)都是一種去中心化的網(wǎng)絡(luò),區(qū)塊鏈是一種完全P2P(peer to peer)的網(wǎng)絡(luò)結(jié)構(gòu),在聯(lián)邦學(xué)習(xí)中,第三方會承擔匯聚模型、管理等功能。聯(lián)邦學(xué)習(xí)與區(qū)塊鏈中,均涉及到密碼學(xué)、加密算法等基礎(chǔ)技術(shù)。
根據(jù)技術(shù)的不同,區(qū)塊鏈技術(shù)使用的加密算法包括哈希算法,非對稱加密等;聯(lián)邦學(xué)習(xí)中使用同態(tài)加密等。從數(shù)據(jù)角度上看,區(qū)塊鏈上通過加密的方式在各個節(jié)點上記錄了完整的數(shù)據(jù),而聯(lián)邦學(xué)習(xí)中,各方的數(shù)據(jù)均僅保留在本地。從獎勵機制上看,區(qū)塊鏈中,不同節(jié)點之間通過競爭記賬來獲得獎勵;在聯(lián)邦學(xué)習(xí)中,多個參與方通過共同學(xué)習(xí),提高模型訓(xùn)練結(jié)果,依據(jù)每一方的貢獻來分配獎勵。
聯(lián)邦學(xué)習(xí)與多方安全計算的關(guān)系
在聯(lián)邦學(xué)習(xí)中,用戶的隱私與安全是重中之重。為了保護用戶隱私,防止聯(lián)邦學(xué)習(xí)應(yīng)用被惡意方攻擊,多方安全計算技術(shù)可以在聯(lián)邦學(xué)習(xí)中被應(yīng)用,成為聯(lián)邦學(xué)習(xí)技術(shù)框架中的一部分。學(xué)術(shù)界已經(jīng)展開利用多方安全計算來增強聯(lián)邦學(xué)習(xí)的安全性的研究。聯(lián)邦學(xué)習(xí)可以通過差分隱私,多方安全計算,或它們的結(jié)合等技術(shù)來提供更強的安全保障。聯(lián)邦學(xué)習(xí)中,可以利用多方安全計算以安全的方式計算來自用戶設(shè)備的模型參數(shù)更新的總和。
更多內(nèi)容請參看“聯(lián)邦學(xué)習(xí)技術(shù)白皮書”,詳細了解聯(lián)邦學(xué)習(xí)定義及價值分析,聯(lián)邦學(xué)習(xí)分類、聯(lián)邦學(xué)習(xí)框架和聯(lián)邦學(xué)習(xí)應(yīng)用實例。
下載鏈接:
聯(lián)邦學(xué)習(xí)技術(shù)白皮書2.0
新封裝、新材料、新架構(gòu)驅(qū)動后摩爾時代集成電路發(fā)展
本號資料全部上傳至知識星球,更多內(nèi)容請登錄智能計算芯知識(知識星球)星球下載全部資料。

免責申明:本號聚焦相關(guān)技術(shù)分享,內(nèi)容觀點不代表本號立場,可追溯內(nèi)容均注明來源,發(fā)布文章若存在版權(quán)等問題,請留言聯(lián)系刪除,謝謝。
電子書<服務(wù)器基礎(chǔ)知識全解(終極版)>更新完畢,知識點深度講解,提供182頁完整版下載。
獲取方式:點擊“閱讀原文”即可查看PPT可編輯版本和PDF閱讀版本詳情。
溫馨提示:
請搜索“AI_Architect”或“掃碼”關(guān)注公眾號實時掌握深度技術(shù)分享,點擊“閱讀原文”獲取更多原創(chuàng)技術(shù)干貨。

