您的位置: 首頁 >互聯(lián)網(wǎng) >

改變的數(shù)據(jù)集仍然可以提供統(tǒng)計(jì)完整性并保護(hù)隱私

2019-07-09 16:19:46 編輯: 來源:
導(dǎo)讀 據(jù)統(tǒng)計(jì)學(xué)家稱,合成網(wǎng)絡(luò)可能會增加某些數(shù)據(jù)的可用性,同時(shí)仍能保護(hù)個(gè)人或機(jī)構(gòu)的隱私。賓夕法尼亞州立大學(xué)統(tǒng)計(jì)學(xué)家表示,綜合網(wǎng)絡(luò)可能會增加

據(jù)統(tǒng)計(jì)學(xué)家稱,合成網(wǎng)絡(luò)可能會增加某些數(shù)據(jù)的可用性,同時(shí)仍能保護(hù)個(gè)人或機(jī)構(gòu)的隱私。賓夕法尼亞州立大學(xué)統(tǒng)計(jì)學(xué)家表示,綜合網(wǎng)絡(luò)可能會增加某些數(shù)據(jù)的可用性,同時(shí)仍能保護(hù)個(gè)人或機(jī)構(gòu)的隱私。“我的主要興趣在于開發(fā)方法,以便能夠以有助于科學(xué)發(fā)現(xiàn)的方式更廣泛地共享機(jī)密數(shù)據(jù),”賓夕法尼亞州Eberly科學(xué)學(xué)院統(tǒng)計(jì)學(xué)副教授和研究生教育副院長Aleksandra Slavkovic說。“能夠以最小的可量化風(fēng)險(xiǎn)共享機(jī)密數(shù)據(jù),以發(fā)現(xiàn)敏感信息并確保統(tǒng)計(jì)準(zhǔn)確性和完整性,這是我們的目標(biāo)。”

Slavkovic通過跨學(xué)科合作找到了解決這一數(shù)據(jù)隱私問題的方法,特別是與計(jì)算機(jī)和社會科學(xué)家合作。她的研究重點(diǎn)是各種數(shù)據(jù),包括捕獲個(gè)人或機(jī)構(gòu)等實(shí)體之間關(guān)系信息的網(wǎng)絡(luò)數(shù)據(jù)。她在華盛頓特區(qū)舉行的2019年美國科學(xué)促進(jìn)會年會上報(bào)告了她今天(2月16日)提供滿足隱私差異概念的合成網(wǎng)絡(luò)的方法。

差異隱私為個(gè)人的隱私損失提供了數(shù)學(xué)上可證明的保證。

科學(xué)家希望獲得他人收集的數(shù)據(jù)用于他們的研究,但這種訪問也可能損害個(gè)人隱私,即使在刪除所謂的個(gè)人身份數(shù)據(jù)之后也是如此。

“大量的輔助數(shù)據(jù)是罪魁禍?zhǔn)祝?rdquo;斯拉夫科維奇說。“隨著數(shù)據(jù)收集和記錄聯(lián)動的方法和技術(shù)進(jìn)步,更容易訪問可能與手頭數(shù)據(jù)集相關(guān)的各種數(shù)據(jù)源,以及資助機(jī)構(gòu)分享數(shù)據(jù)的要求,數(shù)據(jù)隱私的風(fēng)險(xiǎn)正在增加。但是,找到好處管理隱私損失的解決方案對于實(shí)現(xiàn)可靠的科學(xué)發(fā)現(xiàn)至關(guān)重要。“

例如,關(guān)于HIV藥物的藥物試驗(yàn)的公開信息將表明誰在治療組中以及誰在對照組中。治療組僅包含被診斷患有HIV的人,即使數(shù)據(jù)所有者從該數(shù)據(jù)集中隱瞞了個(gè)人詳細(xì)信息,也會保留一些識別信息。由于如今在社交媒體和其他數(shù)據(jù)集中可以獲得如此多的信息,因此可以連接點(diǎn)并識別人,從而可能揭示他們的HIV狀態(tài)。

“連接兩個(gè)數(shù)據(jù)集的技術(shù),比如選民記錄和健康保險(xiǎn)數(shù)據(jù),已大大改善,”斯拉夫科維奇說。“在最早的調(diào)查結(jié)果之一中,Latanya Sweeny(現(xiàn)在在哈佛大學(xué))表明,通過鏈接這些類型的數(shù)據(jù),您可以根據(jù)他們的出生日期,性別和5位數(shù)確定1990年美國人口普查中87%的人。最近,研究人員使用推文和相關(guān)的Twitter元數(shù)據(jù)來證明他們能夠以96.7%的準(zhǔn)確率識別用戶。“

斯拉夫科維奇指出,不僅數(shù)據(jù)包含在數(shù)據(jù)庫中的人或機(jī)構(gòu),而且數(shù)據(jù)庫外的人也可能直接或通過關(guān)聯(lián)侵犯隱私。數(shù)據(jù)集中的信息與社交媒體上的信息之間的聯(lián)系可能導(dǎo)致嚴(yán)重的隱私后悔 - 如果被披露,諸如艾滋病病毒感染狀況或性取向等可能會產(chǎn)生嚴(yán)重后果。

雖然隱私很重要,但收集的數(shù)據(jù)集構(gòu)成了研究人員必不可少的信息來源。目前,在某些情況下,當(dāng)數(shù)據(jù)特別敏感時(shí),研究人員必須親自前往數(shù)據(jù)存儲庫進(jìn)行研究,使研究更加困難和昂貴。

Slavkovic對網(wǎng)絡(luò)數(shù)據(jù)感興趣。顯示人員或機(jī)構(gòu) - 節(jié)點(diǎn) - 以及節(jié)點(diǎn)之間連接的互連性的信息。她的方法是創(chuàng)建略微改變的鏡像網(wǎng)絡(luò)數(shù)據(jù)集,其中一些節(jié)點(diǎn)移動,連接移位或邊緣改變。

“目的是創(chuàng)建滿足嚴(yán)格的差異隱私要求的新網(wǎng)絡(luò),同時(shí)從原始網(wǎng)絡(luò)中捕獲大部分統(tǒng)計(jì)特征,”Slavkovic說。

這些合成數(shù)據(jù)集可能足以讓一些研究人員滿足他們的研究需求。對于其他人來說,在必須轉(zhuǎn)到數(shù)據(jù)存儲站點(diǎn)之前測試他們的方法和假設(shè)就足夠了。研究人員可以在等待使用其存儲庫站點(diǎn)中的原始數(shù)據(jù)的許可時(shí)測試代碼,進(jìn)行探索性研究以及可能的基本分析。

“我們不能滿足所有統(tǒng)計(jì)分析對相同類型的改變數(shù)據(jù)的要求,”斯拉夫科維奇說。“有些人需要原始數(shù)據(jù),但其他人可能會使用合成網(wǎng)絡(luò)這樣的合成數(shù)據(jù)。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。