Data-Privacy

直覺的解釋eevarepsilon差分隱私參數

  • April 12, 2021

我想我 $ \delta $ 參數表示在 $ (\varepsilon,\delta) $ -差分隱私:我可以用“出現嚴重錯誤的可能性有多大”的方式向非專家解釋。

即使我理解(並且可以使用)正式定義,我也不確定我是否可以對 $ \varepsilon $ 範圍。我最近被要求為一個簡單的調查設計一個差分隱私機制,我不知道是哪個 $ \varepsilon $ 在實踐中做出選擇,也不知道如何證明這一決定的合理性。

理想情況下,我想成功地向不是隱私專家的人解釋特定選擇“意味著”什麼。知道怎麼做嗎?

一位同事給了我以下解釋,我認為這很直覺,所以我在這裡複製它。如果您不關心證明,請跳到最後一段。

假設您正在嘗試跟踪一個單獨的使用者,並且您正在嘗試確定他們是否在數據庫中。您對此有一些先驗知識: $ \frac{P(in)}{P(out)} $ 是您認為使用者在數據庫中的可能性比不在數據庫中的可能性高多少。

一旦你知道輸出,這將如何改變 $ O $ 算法的?後驗知識可以寫成 $ \frac{P(in|O)}{P(out|O)} $ . 我們可以使用貝氏定理對其進行分解:

$$ \frac{P(in|O)}{P(out|O)}=\frac{P(in)P(O|in)}{P(out)P(O|out)}=\frac{P(in)}{P(out)}\cdot \frac{P(O|in)}{P(O|out)} $$

如果算法是 $ \varepsilon $ -差分私有,然後滿足 $ e^{-\varepsilon}\le\frac{P(O|in)}{P(O|out)}\le e^{\varepsilon} $ ,因為這兩個場景之間只有一個使用者不同。使用前面的公式,我們得到:

$$ e^{-\varepsilon} \cdot \frac{P(in)}{P(out)} \le \frac{P(in|O)}{P(out|O)} \le e^{\varepsilon} \cdot \frac{P(in)}{P(out)} $$

這實質上是在告訴我們 $ e^\varepsilon $ 通過查看輸出,*我們可以獲得多少關於是否已從數據中添加/刪除了一個使用者的信心。*什麼時候 $ \varepsilon=\log(2) $ ,我們可以得到一個因子 $ 2 $ 在我們所擁有的知識中:如果我們一開始沒有資訊(例如, $ P(in)=P(out)=0.5 $ ),現在我們可能有類似的資訊 $ P(in|O)=2/3 $ 和 $ P(out|O)=1/3 $ ,但差別不大。

如果你想深入一點,我寫了一篇博文來詳細說明這個推理並給出一個具體的例子。我還解釋瞭如何使用上面的公式來找到可能值的界限 $ P(in|O) $ 根據 $ P(in) $ 和 $ \varepsilon $ :

顯示取決於 ε 的後驗/先驗邊界的圖表

引用自:https://crypto.stackexchange.com/questions/44739