PDF 文本抽取 (Kettle 插件)
这个kettle的插件,它可以从一个或多个PDF文件中抽取文本内容,抽取后的文本一页作为一行记录,便于后续处理,如写入数据库等等。帮助手册http://www.xgndata.com/resources/kettle/PFR_UserGuide_zh_CN.pdf带kettle的完整版本下载http://www.xgndata.com/resources/kettle/kettle_3.2_xgn.zip这个一个共享软件,需要注册,未注册有部分功能限制
用户评论
推荐下载
-
zblog锚文本插件
zblogseo插件,可以在zblog文章里自动插入锚文本,可以自定义标题和内容,功能很强大。另外安装插件后,只要重建以前的文章也可以自动加入进去。很强大!
17 2020-05-25 -
文本拆分插件
用于拆分文本,我做这个插件用途是拆分文本模仿电子书翻页效果,所以每页显示多少字符必须的得到控制不能有滚动
26 2019-05-27 -
图片文本选中插件
可以像word操作文本选中一样,可以自由的选中文件图片中的图片,向上移动下载移动都是可以的
35 2019-05-15 -
富文本插件Ckedit
CKedit富文本插件,可以上传图片文件,添加超链接操作,作为用户进行回复操作的很好的差价
18 2019-06-05 -
js文本比对插件
文本比对插件可显示两端文本之间的差异
27 2019-05-13 -
论文研究基于Word2vec词向量的文本关键字抽取.pdf
基于Word2vec词向量的文本关键字抽取,李清,朱文浩,信息技术的不断发展使得许多领域信息呈现爆炸式增长,如何从大规模文本信息中快速而准确地获取所需信息成为一个巨大的挑战。关键
39 2019-10-15 -
kettle pentaho kettle中文开发手册
pentaho kettle 中文开发手册 Pentaho - 开放源码的商业智能平台 技术白皮书 Pentaho_Technical_Whitepaper_zh_CN
42 2020-12-11 -
PentahoDataIntegration Kettle Tutorial_kettle指南
自己翻译的kettle的中文文档,里边很多不到位的,各位多多包涵!
56 2019-05-05 -
kettle使用es大数据插件jar包.rar
Kettle uses es, big data plugin jar package.rar
18 2019-06-26 -
论文研究基于文本块密度和标签路径覆盖率的网页正文抽取.pdf
大多数网页除了正文信息外,还包括导航、广告和免责声明等噪声信息。为了提高网页正文抽取的准确性,提出了一种基于文本块密度和标签路径覆盖率的抽取方法(CETD-TPC)。结合网页文本块密度特征和标签路径特
24 2020-05-18
暂无评论