在JAVA下,用lucene的内置分词功能对XML文件进行分词,并取消无用词