Hash

雜湊的霍夫曼編碼

  • September 25, 2019

我有一個巨大的 MD5 雜湊列表,它佔用了相當多的空間。我想知道我是否會通過使用Huffman 編碼對字元(AF 0-9)進行編碼來實現(某些)壓縮。我製作了一個快速腳本,似乎注意到字元串中的幾乎每個字元(AF 0-9)在雜湊文件中具有相同的頻率。

所以我的問題是:散列總是會產生字母頻率幾乎相等的字元串嗎?

加密散列函式將產生具有偽隨機屬性的輸出,因此當以十六進製表示時,散列值列表將具有幾乎相等數量的每個字元。偽隨機數據不會壓縮,因為壓縮會尋找模式。如果您有重複,壓縮可以減少數據大小。

如果要壓縮列表,請獲取 32 個字元的十六進製字元串,並將其轉換回 ASCII 字元值,佔用 16 個字元。如果您需要它是文本可讀的,可以使用 Base64 或變體進行編碼,這將需要 22 到 24 個字元。

引用自:https://crypto.stackexchange.com/questions/25852