利用开源工具Tika解析PDF文档,HTML文档,微软形式的文档