文本去重(去除数组中重复项),可以用来抽取汉语词表这些,用的朋友可以