Entropy
給定足夠的長度,哪個符號串的熵最大?
哪個任意長的字元串具有最大的熵?
- 由隨機字母組成的字元串,每個字母被選中的機率等於其在英語中出現的頻率。
- 用英文寫的文本。
假設只有 27 個不同的符號(字母+空格),每個符號都用 8 位編碼。
正如香農在他的論文“印刷英語的熵”中所研究的那樣,允許附近字元之間依賴關係的高階模型是更準確的英語模型。通常,依賴項會減少但不會增加熵,所以@Guut Boy 是正確的,第一個應該有更高的熵。在極端情況下,熵基本上為零 $ (n+1) $ st 字元如果 $ n $ 第一個字元是 q,它後面幾乎總是跟著 u(“coq au vin”被認為是法語)。
編輯在給定字元串的情況下通過實驗驗證這一點 $ (x_1,\ldots,x_n) $ 在字母表上 $ A $ 定義序列 $ (y_1,\ldots,y_{n-k+1}) $ 經過
$$ y_i=x_i,x_{i +1},\ldots,x_{i+k-1},\quad i =1,\ldots,n-k+1, $$超過 $ A^k. $ 計算對應於頻率的熵 $ y_i $ 序列。被除以 $ k $ 獲得每個符號的熵。
簡單地說, $ k=2 $ 將給出二元組的熵並除以 2 它應該低於由字母組合頻率給出的熵。