表3.1中列出了英文字母和空格的概率分布,空格的概率为0.1859,字母I的概率为0.0575。根据这些概率,我们可以计算出英文信源的信息熵。令人惊讶的是,英文信源的信息熵为27,比假设字母和空格等概率出现时的信息熵要小。这意味着,考虑到实际出现概率后,英文信源的平均不确定性下降了。

要进一步研究英语信源的特性,我们可以利用马尔可夫链模型进行近似。若视为一阶马尔可夫链模型,我们需要计算一维条件概率;若近似为二阶马尔可夫链模型,则需要计算19683项二维条件概率。这看起来复杂无比,计算量相当庞大,几乎令人头疼!然而,这些条件概率的精确计算需要处理大量的字母数据——上百万之多。

对于那些想深入了解这些模型细节的读者,可以查看以下资源。关于信源熵的计算,你可以参考《求给定概率信源熵11111》。想知道更多关于马尔可夫链模型的,可以浏览《马氏链模型》以及《马氏链模型详细介绍》。如果对实际应用中的数学建模感兴趣,不妨看看《数学建模的马氏链模型》