基于云的機(jī)器學(xué)習(xí)的更高效安全性

2019-06-12 16:44:45 編輯：來源：

導(dǎo)讀麻省理工學(xué)院研究人員設(shè)計的一種新型加密方法可以保護(hù)在線神經(jīng)網(wǎng)絡(luò)中使用的數(shù)據(jù)，而不會顯著減慢其運行時間。這種方法有望將基于云的神經(jīng)網(wǎng)

麻省理工學(xué)院研究人員設(shè)計的一種新型加密方法可以保護(hù)在線神經(jīng)網(wǎng)絡(luò)中使用的數(shù)據(jù)，而不會顯著減慢其運行時間。這種方法有望將基于云的神經(jīng)網(wǎng)絡(luò)用于醫(yī)學(xué)圖像分析和其他使用敏感數(shù)據(jù)的應(yīng)用程序。

外包機(jī)器學(xué)習(xí)是行業(yè)的一個上升趨勢。大型科技公司已經(jīng)推出了云平臺，可以執(zhí)行計算繁重的任務(wù)，例如，通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)運行數(shù)據(jù)進(jìn)行圖像分類。資源匱乏的小型企業(yè)和其他用戶可以收取費用上傳數(shù)據(jù)到這些服務(wù)，并在幾個小時內(nèi)收回結(jié)果。

但是，如果有私人數(shù)據(jù)泄漏怎么辦?近年來，研究人員探索了各種安全計算技術(shù)來保護(hù)這些敏感數(shù)據(jù)。但是這些方法存在性能上的缺陷，使得神經(jīng)網(wǎng)絡(luò)評估(測試和驗證)遲緩 - 有時慢了幾百萬倍 - 限制了它們的廣泛采用。

在本周的USENIX安全會議上發(fā)表的一篇論文中，麻省理工學(xué)院的研究人員描述了一種融合了兩種傳統(tǒng)技術(shù) - 同態(tài)加密和亂碼電路 - 的系統(tǒng)，其方式可以幫助網(wǎng)絡(luò)比傳統(tǒng)方法更快地運行數(shù)量級。

研究人員在兩方圖像分類任務(wù)上測試了這個名為GAZELLE的系統(tǒng)。用戶將加密的圖像數(shù)據(jù)發(fā)送到評估在GAZELLE上運行的CNN的在線服務(wù)器。在此之后，雙方來回共享加密信息以便對用戶的圖像進(jìn)行分類。在整個過程中，系統(tǒng)確保服務(wù)器永遠(yuǎn)不會學(xué)習(xí)任何上傳的數(shù)據(jù)，而用戶從不學(xué)習(xí)任何有關(guān)網(wǎng)絡(luò)參數(shù)的信息。然而，與傳統(tǒng)系統(tǒng)相比，GAZELLE的運行速度比最先進(jìn)的模型快20到30倍，同時將所需的網(wǎng)絡(luò)帶寬減少了一個數(shù)量級。

該系統(tǒng)的一個有希望的應(yīng)用是培訓(xùn)CNN以診斷疾病。例如，醫(yī)院可以訓(xùn)練CNN從磁共振圖像(MRI)中學(xué)習(xí)某些醫(yī)學(xué)狀況的特征，并在上傳的MRI中識別這些特征。醫(yī)院可以在云中為其他醫(yī)院提供該模型。但該模型受到私人患者數(shù)據(jù)的培訓(xùn)，并進(jìn)一步依賴于私人患者數(shù)據(jù)。由于沒有有效的加密模型，這個應(yīng)用程序還沒有為黃金時間做好準(zhǔn)備。

“在這項工作中，我們展示了如何通過巧妙地結(jié)合這兩種技術(shù)來有效地進(jìn)行這種安全的雙方通信，”第一作者Chiraag Juvekar博士說。電氣工程與計算機(jī)科學(xué)系(EECS)的學(xué)生。“下一步是采取真實的醫(yī)療數(shù)據(jù)，并表明，即使我們根據(jù)真實用戶關(guān)心的應(yīng)用程序進(jìn)行擴(kuò)展，它仍然可以提供可接受的性能。”

該論文的共同作者是歐洲經(jīng)濟(jì)共同體的副教授，計算機(jī)科學(xué)和人工智能實驗室的成員Vinod Vaikuntanathan，以及工程學(xué)院院長和Vannevar Bush電氣工程和計算機(jī)科學(xué)教授Anantha Chandrakasan。

最大化性能

CNN 通過多個線性和非線性計算層處理圖像數(shù)據(jù)。線性圖層執(zhí)行復(fù)雜的數(shù)學(xué)運算，稱為線性代數(shù)，并為數(shù)據(jù)指定一些值。在某個閾值處，數(shù)據(jù)被輸出到非線性層，這些非線性層執(zhí)行一些更簡單的計算，做出決定(例如識別圖像特征)，并將數(shù)據(jù)發(fā)送到下一個線性層。最終結(jié)果是具有指定類別的圖像，例如車輛，動物，人或解剖學(xué)特征。

最近保護(hù)CNN的方法涉及應(yīng)用同態(tài)加密或亂碼電路來處理整個網(wǎng)絡(luò)中的數(shù)據(jù)。這些技術(shù)可有效保護(hù)數(shù)據(jù)。“在紙面上，這似乎解決了這個問題，”尤文卡說。但它們使復(fù)雜的神經(jīng)網(wǎng)絡(luò)效率低下，“所以你不會將它們用于任何真實世界的應(yīng)用程序。”

在云計算中使用的同態(tài)加密在加密數(shù)據(jù)(稱為密文)中接收和執(zhí)行所有計算，并生成加密結(jié)果，然后由用戶解密。當(dāng)應(yīng)用于神經(jīng)網(wǎng)絡(luò)時，這種技術(shù)在計算線性代數(shù)時特別快速有效。但是，它必須在每層的數(shù)據(jù)中引入一點噪音。在多個層上，噪聲累積，并且過濾噪聲所需的計算變得越來越復(fù)雜，從而降低了計算速度。

亂碼電路是一種安全的雙方計算形式。該技術(shù)接受來自雙方的輸入，進(jìn)行一些計算，并向每一方發(fā)送兩個單獨的輸入。通過這種方式，各方相互發(fā)送數(shù)據(jù)，但他們從未看到對方的數(shù)據(jù)，只看到他們身邊的相關(guān)輸出。然而，在各方之間傳遞數(shù)據(jù)所需的帶寬與計算復(fù)雜性成比例，而不是與輸入的大小成比例。在在線神經(jīng)網(wǎng)絡(luò)中，這種技術(shù)在非線性層中運行良好，其中計算量最小，但在數(shù)學(xué)重線性層中帶寬變得難以處理。

相反，麻省理工學(xué)院的研究人員將這兩種技術(shù)結(jié)合起來，以解決他們效率低下的問題。

在他們的系統(tǒng)中，用戶將密文上傳到基于云的CNN。用戶必須在自己的計算機(jī)上運行亂碼電路技術(shù)。CNN完成線性層中的所有計算，然后將數(shù)據(jù)發(fā)送到非線性層。此時，CNN和用戶共享數(shù)據(jù)。用戶對亂碼電路進(jìn)行一些計算，并將數(shù)據(jù)發(fā)送回CNN。通過拆分和共享工作負(fù)載，系統(tǒng)將同態(tài)加密限制為一次一層地進(jìn)行復(fù)雜的數(shù)學(xué)運算，因此數(shù)據(jù)不會變得太嘈雜。它還限制了亂碼電路與非線性層的通信，在非線性層中它可以最佳地執(zhí)行。

“我們只是將技術(shù)用于最有效的地方，”尤文卡說。

秘密分享

最后一步是確保同態(tài)和亂碼電路層保持共同的隨機(jī)化方案，稱為“秘密共享”。在該方案中，數(shù)據(jù)被分成單獨的部分，這些部分被提供給單獨的各方。各方同步他們的部分以重建完整數(shù)據(jù)。

在GAZELLE中，當(dāng)用戶將加密數(shù)據(jù)發(fā)送到基于云的服務(wù)時，它會在雙方之間分配。添加到每個共享的是只有擁有方知道的密鑰(隨機(jī)數(shù))。在整個計算過程中，每一方總是會有一部分?jǐn)?shù)據(jù)加上隨機(jī)數(shù)，因此它看起來完全隨機(jī)。在計算結(jié)束時，雙方同步他們的數(shù)據(jù)。只有這樣，用戶才會向基于云的服務(wù)詢問其密鑰。然后，用戶可以從所有數(shù)據(jù)中減去秘密密鑰以獲得結(jié)果。

“在計算結(jié)束時，我們希望第一方得到分類結(jié)果而第二方得到絕對沒有，”尤文卡說。此外，“第一方對模型的參數(shù)一無所知。”

標(biāo)簽：機(jī)器學(xué)習(xí)