在搜索引擎结果相关性判断、文字语音转换与识别等领域中,如何准确地分析单词之间的搭配关系是主要研究问题之一。利用互联网中的海量信息,在对大量英文网页进行统计分析的基础上,利用单词的出现频率和单词对的共现频率归纳总结出了未分类互联网页面中单词相关程度判定的经验性结论,提出了一种基于文档集统计分析的单词相关程度排序方法和计算公式,并根据该方法实现了分布式的英文单词相关性挖掘系统的原型。