組合數據如何影響生成的文件熵?
如果我將具有 (X) 位熵的密碼作為標籤添加到具有 (Y) 位熵的圖片中,則生成的圖像的熵是否等於 (X + Y)?
如果我在空文本文件中保存具有 (A) 位熵的密碼,我得到多少位熵,然後我使用“複製 /b”命令將文本文件與具有 (B) 位的圖片組合熵?
不必要。這取決於數據量 $ Y $ 與數據有關 $ X $ . 技術術語是互資訊,寫成 $ I(X,Y) $ 並且可以定義為組合熵與分量熵之和之間的差: $$ I(X,Y)=H(X)+H(Y)-H(X,Y). $$
例如,如果數據 $ Y $ 獨立於數據生成 $ X $ (例如,您從隨機雜訊源生成標籤並將其附加到圖像中),則互資訊為 0,熵是可加的。
如果數據 $ Y $ 是一個確定性函式 $ X $ (例如,您使用有關圖像的元數據雜湊標記圖像,例如文件大小和日期),則互資訊等於 $ H(Y) $ 並且組合文件的熵不超過 $ H(X) $ .
如果數據 $ Y $ 鬆散地依賴於 $ X $ (例如,您使用圖像激發的單詞或使用生成圖像的搜尋詞來標記數據作為Google圖像上的選項),那麼互資訊介於兩者之間。
對於一個玩具範例,假設我有 2x2 黑白像素網格的圖像文件,並且每個圖像都是等機率的。因此有 16 個可能的文件,一個文件的熵是 4 位。我會用一點標記每個文件 $ \frac34 $ 時間 0 和 $ \frac14 $ 的時間是 1,因此孤立的標籤具有大約 0.811 位的熵。
現在,在 a) 的情況下,我將通過滾動一個公平的四面骰子來生成標籤,如果我擲出一個 4,則標記為 1,否則標記為 0。應該清楚數據和標籤是獨立的,數據和標籤的所有可能組合都是可能的,圖像標籤對的熵大約為 4.811 位。
在 b) 情況下,如果頂部兩個像素顏色相同且底部兩個像素顏色相同,我將標記為 1;否則我將用 0 標記。注意 $ \frac14 $ 的圖像將被標記為 1。在這種情況下,只有 16 個可能的圖像標籤對,並且圖像標籤對的熵是 4 位。
在情況 c)我用 0 標記帶有黑色像素數量的圖像;對於其他圖像,我將擲一枚公平的硬幣,如果硬幣是正面則標記為 0,如果是反面則標記為 1。再次注意 $ \frac14 $ 標籤的數量為 1。現在有 24 個可能的圖像標籤對,圖像標籤對的熵為 4.5 位。
a) 互資訊為 0;如果 b) 大約是 0.811 位,如果 c) 大約是 0.311 位。