聯(lián)邦學(xué)習(xí),為何而生?

2018 年,F(xiàn)acebook 因黑客入侵導(dǎo)致 2900 多萬(wàn)個(gè)用戶的個(gè)人數(shù)據(jù)泄露,一下子陷入了輿論中,同時(shí)也引發(fā)了我們每個(gè)人對(duì)信息安全的思考:
我們的隱私數(shù)據(jù)是否早已泄露,而我們卻毫無(wú)察覺(jué)?

隨著大數(shù)據(jù)、邊緣計(jì)算、大型云計(jì)算平臺(tái)和各種開(kāi)源框架的發(fā)展,機(jī)器學(xué)習(xí)等人工智能技術(shù)以前所未有的速度應(yīng)用到各個(gè)行業(yè)。
然而,人工智能技術(shù)在為我們帶來(lái)機(jī)遇的同時(shí),也帶來(lái)了新的挑戰(zhàn)。
數(shù)據(jù)的隱私和安全引起了全世界的重視。
2018年5月歐盟發(fā)布了《通用數(shù)據(jù)保護(hù)條例》以加強(qiáng)對(duì)用戶數(shù)據(jù)隱私保護(hù)和對(duì)數(shù)據(jù)的安全管理,同樣中國(guó)也推出了相關(guān)規(guī)定限制金融數(shù)據(jù)的使用。

數(shù)據(jù)使用的限制使得互聯(lián)網(wǎng)數(shù)據(jù)分散在不同企業(yè)、組織中,形成了“數(shù)據(jù)孤島”現(xiàn)象,各方數(shù)據(jù)不能直接共享或者交換
因此,如何在解決“數(shù)據(jù)孤島”問(wèn)題的同時(shí)保證數(shù)據(jù)隱私和安全,成為各界最關(guān)注的事情。這正是聯(lián)邦學(xué)習(xí)(Federated Learning,F(xiàn)L)要研究的問(wèn)題。

政府部門“數(shù)據(jù)孤島”、數(shù)據(jù)運(yùn)營(yíng)商“數(shù)據(jù)孤島”、企業(yè)“數(shù)據(jù)孤島”示意圖
(虛線表示無(wú)法流通,彼此獨(dú)立)
從國(guó)內(nèi)的現(xiàn)狀來(lái)看,數(shù)據(jù)主要掌握在政府部門、數(shù)據(jù)運(yùn)營(yíng)商、企業(yè)三大“數(shù)據(jù)孤島”中。數(shù)據(jù)被獨(dú)立地存儲(chǔ)于各個(gè)“孤島”中,使得數(shù)據(jù)的共享十分困難。
結(jié)合目前國(guó)內(nèi)外的企業(yè)、組織的數(shù)據(jù)存儲(chǔ)現(xiàn)狀和法律法規(guī)對(duì)數(shù)據(jù)共享的限制,“數(shù)據(jù)孤島”問(wèn)題面臨多個(gè)難點(diǎn):
1. 安全分享難,這不僅是數(shù)據(jù)管理技術(shù)的需求,還涉及信任問(wèn)題。
2. 利用難,由于數(shù)據(jù)來(lái)源于不同的企業(yè)和組織,很可能在數(shù)據(jù)格式方面不統(tǒng)一,那么在融合時(shí)就會(huì)出現(xiàn)問(wèn)題。
3. 傳輸難,即使可以交給對(duì)方或可信任的第三方,難以保證各方的傳輸速度及成本。
4. 定價(jià)難,數(shù)據(jù)作為一種無(wú)形資產(chǎn),其價(jià)值也隨著應(yīng)用場(chǎng)景不斷變化,因此數(shù)據(jù)產(chǎn)權(quán)難以確定、交易標(biāo)的難以確定。
而聯(lián)邦學(xué)習(xí)提供了一種解決數(shù)據(jù)安全和“數(shù)據(jù)孤島”問(wèn)題的可行性方向。
通過(guò)多方安全計(jì)算協(xié)議,密碼學(xué),以及差分隱私等相關(guān)技術(shù),通過(guò)數(shù)據(jù)不動(dòng),模型動(dòng)的思想,在保護(hù)各方數(shù)據(jù)隱私的前提下打通了孤島,充分挖掘利用了各方數(shù)據(jù)的價(jià)值。

縱向聯(lián)邦學(xué)習(xí)訓(xùn)練示意圖

聯(lián)邦學(xué)習(xí)有如下幾點(diǎn)優(yōu)勢(shì)。
1. 數(shù)據(jù)隔離,數(shù)據(jù)不會(huì)泄露到外部,滿足用戶隱私保護(hù)和數(shù)據(jù)安全的需求;
2. 能夠保證模型質(zhì)量無(wú)損,不會(huì)出現(xiàn)負(fù)遷移,保證聯(lián)邦模型比割裂的獨(dú)立模型效果好;
3. 參與者地位對(duì)等,能夠?qū)崿F(xiàn)公平合作;
4. 能夠保證參與各方在保持獨(dú)立性的情況下,進(jìn)行信息與模型參數(shù)的加密交換,并同時(shí)獲得成長(zhǎng)。
在學(xué)術(shù)界,聯(lián)邦學(xué)習(xí)已經(jīng)逐漸成為了頂會(huì)的熱門主題。
在今年幾場(chǎng)重磅會(huì)議中,聯(lián)邦學(xué)習(xí)相關(guān)的論文數(shù)量相較去年明顯增多,其中IJCAI 2020有20篇,AAAI 2021共18篇 ICLR 2021共15篇。
對(duì)于工業(yè)界而言,聯(lián)邦學(xué)習(xí)儼然已經(jīng)成為了解決數(shù)據(jù)孤島問(wèn)題的一項(xiàng)利器。
很多互聯(lián)網(wǎng)企業(yè)紛紛投入研發(fā)資源,并進(jìn)行市場(chǎng)布局。這項(xiàng)技術(shù)于 2016 年被谷歌提出,在 2019 年年初被引入國(guó)內(nèi),在 2020年即已出現(xiàn)數(shù)十家企業(yè)提供的產(chǎn)品,并出現(xiàn)了大規(guī)模的商業(yè)應(yīng)用。
從技術(shù)層面來(lái)看,聯(lián)邦學(xué)習(xí)是密碼學(xué)、分布式計(jì)算、機(jī)器學(xué)習(xí)三個(gè)學(xué)科交叉的技術(shù),需要掌握跨領(lǐng)域的綜合知識(shí)。
并且越來(lái)越多的人關(guān)注到聯(lián)邦學(xué)習(xí)這個(gè)新興技術(shù),希望系統(tǒng)地掌握聯(lián)邦學(xué)習(xí)的原理,并在產(chǎn)業(yè)應(yīng)用中解決具體問(wèn)題。
《聯(lián)邦學(xué)習(xí)技術(shù)與實(shí)戰(zhàn)》正是在這樣的背景下撰寫和出版的。
彭南博在人工智能算法、風(fēng)控模型等領(lǐng)域具有豐富的實(shí)踐經(jīng)驗(yàn)。領(lǐng)導(dǎo)團(tuán)隊(duì)研發(fā)聯(lián)邦學(xué)習(xí)技術(shù)和產(chǎn)品、模型管理體系、監(jiān)控體系等。
王虎則負(fù)責(zé)聯(lián)邦組網(wǎng)過(guò)程中的算法研究和模型優(yōu)化,在聯(lián)邦學(xué)習(xí)產(chǎn)品化、探索實(shí)踐的過(guò)程中積累了大量經(jīng)驗(yàn)。
本書基于實(shí)戰(zhàn)經(jīng)驗(yàn)撰寫,詳細(xì)地介紹了相關(guān)技術(shù)的原理和實(shí)戰(zhàn)經(jīng)驗(yàn)。
不僅深入淺出地講解了具體的聯(lián)邦學(xué)習(xí)算法,聯(lián)邦交集計(jì)算以及聯(lián)邦特征工程等理論知識(shí),同樣針對(duì)實(shí)踐過(guò)程中可能遇到的通信、資源不足等問(wèn)題給出了優(yōu)化方案。在此基礎(chǔ)上結(jié)合豐富的產(chǎn)業(yè)經(jīng)驗(yàn),對(duì)于聯(lián)邦學(xué)習(xí)與其他領(lǐng)域的結(jié)合場(chǎng)景,如何設(shè)置激勵(lì)機(jī)制和定價(jià)模型等問(wèn)題,也給出了詳細(xì)的解答。從多個(gè)維度幫助讀者解決了聯(lián)邦學(xué)習(xí)是什么,怎么用的問(wèn)題,具有極強(qiáng)的實(shí)用價(jià)值。
希望本書可以帶你進(jìn)入聯(lián)邦學(xué)習(xí)的世界,從此輕松連接數(shù)據(jù)孤島!


▊《聯(lián)邦學(xué)習(xí)技術(shù)及實(shí)戰(zhàn)》
彭南博 王虎 著
保護(hù)隱私安全,連接數(shù)據(jù)孤島
本書針對(duì)產(chǎn)業(yè)界在智能化過(guò)程中普遍面臨的數(shù)據(jù)不足問(wèn)題,詳細(xì)地闡述了聯(lián)邦學(xué)習(xí)如何幫助企業(yè)引入更多數(shù)據(jù)、提升機(jī)器學(xué)習(xí)模型效果?;ヂ?lián)網(wǎng)數(shù)據(jù)一般分布在不同的位置,受隱私保護(hù)法規(guī)限制不能共享,形成了“數(shù)據(jù)孤島”。聯(lián)邦學(xué)習(xí)像“數(shù)據(jù)孤島”之間的特殊橋梁,通過(guò)傳輸變換后的臨時(shí)變量,既能實(shí)現(xiàn)模型效果提升,又能確保隱私信息的安全。
本書介紹了聯(lián)邦學(xué)習(xí)技術(shù)的原理和實(shí)戰(zhàn)經(jīng)驗(yàn),主要內(nèi)容包括隱私保護(hù)、機(jī)器學(xué)習(xí)等基礎(chǔ)知識(shí),聯(lián)邦求交、聯(lián)邦特征工程算法,三種常見(jiàn)的聯(lián)邦形式,以及工程架構(gòu)、產(chǎn)業(yè)案例、數(shù)據(jù)資產(chǎn)定價(jià)等。
(掃碼了解本書詳情)
如果喜歡本文 歡迎 在看丨留言丨分享至朋友圈 三連 熱文推薦
▼點(diǎn)擊閱讀原文,獲取本書詳情~
