用TFIDF和特征增益两种方式实现了特征向量空间的建立,将文本文件表示成特征向量的形式,为接下来的聚类做了准备。程序用JAVA写成。
在网上查找了许久找到的可用的代码,MFC界面编程,实现在原文件夹中提取与关键词相关的文本,并存储于另一文件夹。
批量提取HTML/DOC/RTF/TXT等文件中的文本信息。 支持从其它网站直接提取文本内容,生成所需数据库文件 支持GB2312/UTF-8多种编码 可将提取的文本内容生成TXT文本文件、HTM网页
包括任何程序的可见文本,桌面,不可复制的网页,轻松复制
提取数据库、网页前台的图片和文字,让图片和文字文本分离,分别进行处理
提取pdf文件中的文字及图片(注意:只能提取可以复制文字且没有加密的pdf文件)
可以批量获取文本的某一行 hankerdream@126.com
可对IIS,APACHE等日志进行分析,提取您需要的内容放到新的文件中。例如:提取日志中某一天的放到一个文件中,或者提取某个IP地址的访问放到一个新文件中。
北京大学计算机系计算语言所 (1)信息提取的含义、目标 (2)信息提取技术中若干相关基础问题 (3)(中文)信息提取系统的流程与设计 (4)Web信息提取
C#WinFormWord(.doc.docx)小程序