爬取的搜狗词库,有两级标签.过滤了一部分重复和内容极少的文本.