OntoNotes 5.0 NER BIO:从OntoNotes 5.0版本中提取的BIO格式的命名实体识别数据集 源码
OntoNotes-5.0-NER-BIO 这是CoNLL-2003格式的版本,带有OntoNotes 5.0版本NER的BIO标记方案。 此格式化的版本基于的说明以及在此存储库中创建的新脚本。 简单地说,名为“(Yuchen Zhang,Zhi Zhong,CoNLL 2013),提出了针对OntoNotes 5.0数据的Train-dev-split,并提供了将其转换为CoNLL 2012格式的脚本。 但是,结果不在BIO标记方案中,不能直接用于许多序列标记体系结构中,例如BLSTM-CRF。 此回购协议通过直接生成BIO格式简化了预处理,您可以在实验中使用它们。 步骤1:获取官方的O
文件列表
OntoNotes-5.0-NER-BIO:从OntoNotes 5.0版本中提取的BIO格式的命名实体识别数据集
(预估有个26670文件)
cnn_0008.gold_conll
1.49MB
msnbc_0007.gold_conll
1.57MB
cctv_0005.gold_conll
1.06MB
cnn_0006.gold_conll
1.24MB
cnn_0001.gold_conll
1.2MB
cnn_0002.gold_conll
1.45MB
cnn_0003.gold_conll
1.12MB
cnn_0005.gold_conll
1.14MB
msnbc_0001.gold_conll
1.33MB
msnbc_0002.gold_conll
1.48MB
暂无评论