EN data_mining:数据挖掘历史报纸元数据(METSALTO格式) 源码
EN-data_mining 数据挖掘历史报纸的元数据(欧洲报纸项目) 概要 欧洲数字图书馆馆藏的报纸是由Europeana Newspapers( )项目进行的OLR(光学布局识别)数据集的一部分。 OLR的改进包括使用METS / ALTO格式描述每个问题和文章的结构(空间范围,标题和字幕,内容类型的分类)。 从每个数字文档中得出一组书目元数据(出版日期,标题)和与内容和布局有关的定量元数据(页面,文章,单词,插图等的数量)。 Shell和XSLT或Perl脚本用于从METS清单或ALTO文件中提取一些元数据。 安装 您可以使用XSLT样式表(使用DOS脚本调用)或Perl脚本(更快
文件列表
EN-data_mining:数据挖掘历史报纸元数据(METSALTO格式)
(预估有个134文件)
.DS_Store
8KB
.DS_Store
10KB
.DS_Store
6KB
.DS_Store
6KB
18140401_1.csv
107B
18140715_1.csv
135B
18140714_02_1.csv
131B
18140402_1.csv
133B
batch-EN.bat
415B
.DS_Store
6KB
暂无评论