作者：賀崇德

來源：SegmentFault 思否社區(qū)

社會進步科技發(fā)展，人工智能地位突出。機器學習面臨著巨大的隱私泄露問題。

機器學習隱私基礎知識

機器學習隱私泄露：

不可靠的數(shù)據(jù)收集者泄露信息（直接泄露）
攻擊者分析機器學習模型輸出結果，逆向推出訓練數(shù)據(jù)中的用戶敏感信息（間接泄露）

隱私保護的兩個方向：

以同態(tài)加密和安全多方計算為代表的加密方法
以差分隱私為代表的擾動方法

兩個方向的對比：

加密方法運算量大，性能開銷大，往往難以落地
擾動方法僅用噪音添加機制，對性能影響較小，但會對模型預測準確性產生影響。它面臨的主要挑戰(zhàn)是：設計合理的擾動算法，平衡隱私保護和可用性。

機器學習的分類：

【集中學習】：數(shù)據(jù)首先被數(shù)據(jù)收集者收集，再由數(shù)據(jù)分析者分析，用戶失去數(shù)據(jù)控制權
【分布式學習】：訓練數(shù)據(jù)和計算負載都分布在工作節(jié)點。各參與方穩(wěn)定，負載均衡，數(shù)據(jù)獨立同分布。
【聯(lián)邦學習】：數(shù)據(jù)在本地的同時訓練出全局模型。各方自主決定何時加入或退出，各方負載不均衡，數(shù)據(jù)可能不是獨立同分布。

補充：

聯(lián)邦學習：首先用戶抽取一組滿足條件的客戶端，被選中的客戶端從服務器下載當前模型權重參數(shù)和一個訓練程序，然后客戶端在本地計算對模型參數(shù)的更新。接著，服務器收集客戶端上傳的參數(shù)。最后，服務器更新共享模型，如此迭代，直到收斂。

間接泄露信息的攻擊者攻擊方式：

重構攻擊（攻擊者試圖重構個體敏感信息或者重構訓練模型）

模型反演攻擊（試圖重構用戶個體信息）
模型竊取攻擊（試圖重構訓練模型）

成員推斷攻擊（試圖驗證某個成員是否為訓練模型成員）

機器學習敵手模型

敵手目標：訓練數(shù)據(jù)隱私、模型隱私、預測結果隱私
敵手知識：白盒、黑盒
敵手能力：強敵手、弱敵手
敵手策略：模型逆向攻擊、模型提取攻擊、成員推斷攻擊

機器學習安全威脅及防御技術

常見安全威脅：

訓練階段的安全威脅

投毒攻擊（放入有害數(shù)據(jù)或者修改數(shù)據(jù)）

預測階段的安全威脅

對抗攻擊（敵手精心設計對抗樣本，使模型分類錯誤）
詢問攻擊（主要針對黑盒攻擊）

機器學習安全防御技術

正則化（為代價函數(shù)添加正則項/懲罰項）
對抗訓練（添加對抗樣本訓練）
防御精餾
直接拒絕對抗樣本（數(shù)據(jù)清洗）

機器學習隱私威脅及保護

機器學習常見的隱私威脅

訓練階段的隱私威脅

竊取訓練數(shù)據(jù)
聯(lián)邦學習易受不誠實的參與者的攻擊

預測階段的隱私威脅（在預測階段通過逆向攻擊可以提取訓練數(shù)據(jù)或者訓練數(shù)據(jù)的統(tǒng)計特性）

提取目標模型信息
成員推理攻擊

注：機器學習各階段隱私保護問題

數(shù)據(jù)收集階段：保護原始數(shù)據(jù)，避免因數(shù)據(jù)挖掘而泄露
數(shù)據(jù)預處理階段：保證數(shù)據(jù)處理各方不能泄露隱私
模型訓練和測試階段：多個參與方之間如何安全的完成各種不同的機器學習計算工作
預測階段：保證模型隱私性及輸出結果的隱私性

機器學習隱私保護方案分類

按機器學習模型的種類分類

監(jiān)督學習的隱私保護
半監(jiān)督學習的隱私保護
無監(jiān)督學習的隱私保護
強化學習的隱私保護

按機器學習過程分類

機器學習模型的訓練階段
機器學習模型的預測階段

按模型訓練方式分類

集中式學習的隱私保護
分布式學習的隱私保護
聯(lián)邦學習的隱私保護

傳統(tǒng)機器學習、深度學習、聯(lián)邦學習的隱私保護

傳統(tǒng)機器學習隱私保護

隱私保護技術：

加密
擾動（代表性方法:差分隱私）

幾種差分隱私概念
敏感度：輸入數(shù)據(jù)中任意一條改變，輸出結果中變化的最大值。

全局隱私：統(tǒng)一收集，然后擾動

本地隱私：數(shù)據(jù)收集前，先在本地擾動。

本地化差分隱私：以上兩種均不再適用。最新提出。

差分隱私保護的經驗風險最小化：

輸入擾動（分析前擾動）
輸出擾動（對經驗風險最小化得出的最優(yōu)參數(shù)擾動）
目標擾動（向經驗風險最小化的目標函數(shù)表達式中加入隨機項）
梯度擾動（在利用梯度下降求解最優(yōu)模型參數(shù)過程中引入隨機噪音）

注：擾動后要滿足差分隱私。

不足：復雜的多分類任務存在問題。深度學習的經驗風險最小化目標函數(shù)是一個非凸函數(shù)，故輸出擾動和目標擾動不再適用

深度學習隱私保護

寬松差分隱私

絕對的差分隱私會導致天平傾向隱私，而導致系統(tǒng)不可用

集成模型

一種基于知識遷移的深度學習隱私保護框架。引入學生模型和教師模型

不足：隱私性降低，泄露風險的可能性變大。另外，差分隱私僅能實現(xiàn)單點的隱私保護，若不同記錄之間存在關聯(lián)，攻擊者仍可對滿足差分隱私的算法進行攻擊。

聯(lián)邦學習隱私保護

加密

有一種基于秘密共享的安全多方計算協(xié)議---安全聚合

差分隱私機制

對上傳至服務器端的參數(shù)添加擾動。但無法保證參數(shù)傳遞過程中的機密性。

區(qū)塊鏈技術

區(qū)塊鏈技術因其去中心化、安全可信、不可篡改等特性，能夠監(jiān)測服務端或設備在聯(lián)邦學習中存在的惡意行為，保證訓練過程的透明，從而為隱私保護提供一種新的解決思路
區(qū)塊鏈技術本身仍存在吞吐量有限、可擴展性差等問題，故此類方法在實際場景中難以支撐大規(guī)模的應用，其有效性仍有待商榷

不足：處于起步階段，存在很多挑戰(zhàn)。

常用隱私保護密碼技術

通用安全多方計算

基礎知識

安全多方計算定義：有m個參與方，他們各自擁有各自的數(shù)據(jù)集，在無可信第第三方的情況下，如何安全地計算一個約定函數(shù)f，同時要求每個參與方除了計算結果外，得不到任何其他參與方的任何輸入信息。

任何一份函數(shù)都有一個等價的電路。對任意函數(shù)的安全多方計算可以轉換為等價電路c的安全多方計算。

邏輯電路的安全多方計算：只需解決“與門”、“或門”、“非門”
算數(shù)電路的安全多方計算：只需解決“加法門”、“乘法門”

安全性：（一般先設計半誠實安全的協(xié)議，然后轉換為惡意敵手安全）

半誠實模型安全
惡意敵手模型安全

通用安全多方計算協(xié)議的主流構造方法

基于YAO混亂電路的構造：安全兩方計算協(xié)議
基于秘密共享的構造：安全多方計算協(xié)議

基礎密碼協(xié)議：

OT協(xié)議：不經意傳輸協(xié)議/遺忘傳輸協(xié)議

OT協(xié)議是一個兩方計算協(xié)議，一方是發(fā)送方，一方是接收方
接收方獲得了一些信息，但發(fā)送方不知道接收方收到了了哪些信息。
惡意敵手模型下，會進行大量OT計算，這使得OT協(xié)議常常成為兩方計算瓶頸。因此盡可能少的OT調用，或者使用OT擴展技術，用少的OT計算實現(xiàn)大量OT實例。

GC協(xié)議：混亂電路協(xié)議。一種通用高效的兩方計算協(xié)議
SS協(xié)議：秘密共享，秘密分割協(xié)議
GMW協(xié)議：一種高效的多方計算協(xié)議。與GC類似需要將計算描述為布爾電路。與GC不同，GMW每一層布爾門都需要一次交互。與GC相比，GMW需要更少的數(shù)據(jù)通信。

分析

多方計算方案只在學習過程中保護了訓練的隱私而不能防止對結果模型的推理攻擊。

構建關鍵：

根據(jù)不同協(xié)議特點，選擇合適的基礎密碼學工具以保證安全性。
對機器學習模型中的非線性函數(shù)設計高效的替代表達式。

同態(tài)加密技術

如果一個加密算法能夠把明文空間及其運算形成的代數(shù)系統(tǒng)同態(tài)映射到密文空間及對應運算形成的代數(shù)系統(tǒng)，則稱公該加密算法為同態(tài)加密算法，

同臺加密算法不需要對密文解密，而可直接對密文進行運算，得到的運算結果，等同于對應明文所作相應運算計算結果的密文。不解密而進行計算，對于隱私保護，具備得天獨厚的優(yōu)勢。

部分同態(tài)加密PHE：加法同態(tài)、乘法同態(tài)
類同態(tài)加密SHE：僅支持有限次加法和乘法
全同態(tài)加密FHE：計算開銷大，仍不能成為實用方案

解決同態(tài)加密無法計算非線性運算的缺陷：(造成了效率和精度的下降)

無需多項式近似的同態(tài)加密隱私保護方案。

同態(tài)加密安全可靠，但是它只能計算加法和乘法，不能計算非線性計算。所以一種方法是依靠數(shù)據(jù)持有者完成非線性計算。

基于多項式近似的同態(tài)加密隱私保護方案。

為了解決同態(tài)加密無法計算非線性運算的問題，另一種解決方案是利用多項式逼近

隱私保護集合計算

使持有私有數(shù)據(jù)集合的參與方合作產生集合運算的結果，而不泄露各自私有數(shù)據(jù)集的隱私。

隱私保護集合求交協(xié)議PSI

PSI協(xié)議允許持有各自私有集合的兩方共同計算兩個集合的交集，協(xié)議完成后，一方或者兩方得到正確的交集，且不會得到交集以外的另一方集合中的任何信息
PSI協(xié)議可以通過通用安全多方計算協(xié)議來實現(xiàn)，但更多的是采用特殊的算法來實現(xiàn)。

未來的挑戰(zhàn)與方向

未來挑戰(zhàn)與方向

存在問題：

存在大多數(shù)人忽視的盲區(qū)。
隱私保護方法較為單一。同態(tài)加密、安全多方、差分隱私存在固有缺陷，缺乏本質創(chuàng)新。

可探索的方向：

推進無監(jiān)督學習下的隱私保護研究
權衡差分隱私保護的模型可用性與隱私性
探索多種技術結合的保護方法（差分隱私、加密方法、區(qū)塊鏈各有優(yōu)缺）
支持單點和全局隱私保護
開發(fā)機器學習隱私保護框架（目前是針對特定的攻擊，需要通用的）
研究訓練階段基于密文的高效機器學習隱私保護方法

目前的方法多用于預測階段，因為同態(tài)加密生成的密文大、復雜隨著運算次數(shù)增多深度增加，一旦超過閾值將得不到正確結果。另一方面，深度學習本身運算量大，沒有加密也需要高吞吐量的計算單元。

設計適用于機器學習各個階段的通用隱私保護體系結構
提出針對半結構化、非結構化數(shù)據(jù)隱私的切實可行解決方案

現(xiàn)有的隱私保護幾乎都是針對結構化數(shù)據(jù)的，而大數(shù)據(jù)很多都是非結構化。

總結

機器學習不可分割，隱私泄露巨大威脅。

在數(shù)據(jù)隱私性、高效性、可用性的矛盾下，如何提供符合給定場景隱私保護方法，最小化隱私泄露風險，將是個長期挑戰(zhàn)。

點擊左下角閱讀原文，到?SegmentFault 思否社區(qū)?和文章作者展開更多互動和交流。

-?END -

機器學習隱私問題綜述總結