CCKS2019 Task5:CCKS2019评价任务五 公众公司公告信息抽取第3名 源码
CCKS2019-任务5 引言 目前,PDF已成为电子文档发行和数字化信息传播的一个标准,其广泛的学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的的一大挑战。此处利用Adobe公司开发的Acrobat DC SDK对PDF进行格式转换,从半结构化的中间文件进行信息转移。引用现有的开源PDF解析方法,Acrobat导出的中间文件保存了更完整在CCKS 2019年公众公司公告评论中,我们的方法获得总成绩第三名。在本次评估中,我们将公告文件(PDF)格式)转换成XML。对于任务一,我们通过查找表标签,获取PDF中所有的表格;然后根据表格的一部分,确定其
文件列表
CCKS2019-Task5-master.zip
(预估有个26文件)
CCKS2019-Task5-master
pdf2html.exe
13KB
sub_task2.py
7KB
main.py
4KB
sub_task1.py
7KB
test
000002-万科A-关于监事辞职的公告.json
520B
430027-北科光大-2017年年度报告.json
90KB
000002-万科A-关于监事辞职的公告.pdf
89KB
430027-北科光大-2017年年度报告.pdf
4.03MB
暂无评论