測量均勻分佈源的熵
**什麼是熵?**我完全不明白。一篇文章指出:
當所有項目出現的機會均等時,我們就有了均勻分佈。在均勻分佈中,熵很高。
我很困惑。如果熵很高,我們應該認為無序也很高,但是在均勻分佈中我們沒有無序,因為所有項目都有相同的機會出現。
有人可以解釋密碼學中的熵並讓我清楚這個概念嗎?
我將嘗試以與其他 2 個優秀答案不同的視角來回答,即我想看看熵的屬性,這可能有助於彌合直覺和實際定義。
香農熵是對資訊或來源(而不是不確定性)的度量。考慮到這一點,讓我們看一個快速範例,以圍繞統一案例建立直覺。
誰想去滑雪?: 想像一下有 3 個孩子的情況,每天你都問他們是否願意在雪地裡出去玩,或者去滑雪。
根據這個例子,哪個孩子的答案最不確定?在這個例子中,很明顯, $ kid_3 $ 是最“不可預測”的。然而 $ kid_1 $ 和 $ kid_2 $ 似乎是“相同的”。即:如果您切換“是”和“否”,他們會回答“類似”( $ kid_2 $ 就好像 $ kid_1 $ 如果 $ kid_1 $ 左腳醒來……)
資訊量度的性質
從玩具範例退後一步,讓我們看看我們在測量“資訊”時想要的一些屬性。
- 資訊應該以某種方式取決於答案的數量:回到孩子們.. 假設他們每個人還有 7 套滑雪裝備,並且每天使用一些策略來選擇裝備,那麼直覺上圍繞裝備的不確定性“似乎”大於外出與否的不確定性。
- 資訊應該以某種方式取決於機率:好吧,如果我有一件我永遠會選擇的最喜歡的衣服,那麼我有 7 套衣服並不重要,這裡沒有不確定性。另外:應該有某種對稱性。查看“是/否”的答案 $ kid_1 $ 和 $ kid_2 $ ,我們直覺地看到,兩種情況下的不確定性並沒有根本不同。(標籤無關緊要)
- 資訊應該以某種方式附加:當我們知道 $ kid_1 $ 決定出去我們已經獲得了一些資訊。如果我們知道我們直覺上所有孩子的決定 $ 3 $ 倍多的資訊。然而,這是有問題的,因為有 $ 4 $ 在後一種情況下,可能性要大幾倍。這種暗示 $ \log(\cdot) $ 這將出現在熵函式中。
將所有這些放在一起導致香農熵的定義:
對於機會變數 $ X $ 取值 $ \mathcal X $ 並根據 $ P_X $ ,香農熵 $ X $ 是$$ H_b(X) = \Sigma_{x \in supp(P_x)}P_X[x]*\log_b\frac{1}{P_X[x]} = \mathop{\mathbb{E}}_X[-\log_b P_X(X)] $$ 在哪裡, $ supp(P_X) = {x \in \mathcal X: P_X[x] > 0 } $ . $ b $ 只是不確定性的“單位”。 $ b = 2 $ 是最常見的選擇,在這種情況下熵單位是位。
最後一點:熵的一個有趣的方面是香農似乎並沒有太在意他定義的單一性。然而,Aleksandr Khinchin 證明了函式族 $ H_k(p_1,\ldots,p_n) = c \cdot \Sigma pi\log\frac{1}{p_i} $ 是唯一滿足資訊度量條件的函式(我沒有說明所有條件!)。[ Aleksandr Y. Khinchin,“關於資訊論的基本定理(俄語)”,Uspekhi Matematicheskikh Nauk XI,卷。1,第 17-75 頁,1956 年。 ]
我希望這有助於將直覺和形式主義聯繫在一起。