学习语料分析时自行爬去的COCA 前两千单词,可用于 ngram 模型分析去重