Data-Privacy
使用差分隱私時,我們如何選擇參數值?
我知道我們可以用ε-差分隱私 (ε-DP)來量化隱私。但是當我們應用 DP 時,我們如何實際選擇 ε 的值?有一些經驗法則嗎?是根據具體情況決定的嗎?一般來說,當使用一些滿足 ε-DP 定義的算法時,我們如何確定我們有足夠的隱私?
在 2019 年的論文中實踐中的差分隱私:暴露你的 Epsilons!,作者 Dwork、Kohli、Mulligan 如此總結事態:
我們沒有發現關於如何選擇 ε 的明確共識,也沒有就如何處理這個和其他關鍵實施決策達成一致。鑑於這些細節的重要性,差異隱私社區之間需要共享學習。
他們提出了一個“Epsilon Registry”,其中 DP 的應用程序可以指定他們對 ε 的選擇。我能找到的最接近此類系統資料庫的是Damien Desfontaines 從 2021 年 1 月起對 DP 的實際使用列表。
我還發現了 NIST 的這篇最近的部落格文章,上面寫著*“ε 到底是什麼意思,我們應該如何設置它?不幸的是,我們仍然沒有對這個問題達成一致的答案”*,但接著實際上給出一些廣泛的數值指導:
- 普遍認為低個位數的 ε 值(即 0 < ε < 5)代表保守的選擇,將提供強大的隱私保護
- 越來越多的部署系統經驗表明,較大的 ε 值(即 5 < ε < 20)還可以在各種設置中提供強大的隱私保護
- 在某些情況下,更高的 ε 值(即 ε > 20)仍可能提供有意義的隱私保護,但需要更多經驗來理解此設置