CorefBERT “”的源代码和数据集。 该代码基于huggaface的。 多亏了他们! 可以从/下载预训练的模型。 要求 安装依赖项和: pip3 install -r requirement.txt python3 -m spacy download en_core_web_sm 预训练 代码位于文件夹“ Pretrain /”中。 下载。 使用并从Wikipedia数据库转储中清除文本。 python3 WikiExtractor.py wikipedia/enwiki-20190820-pages-articles-multistream.xml.bz2 --json --output wikipedia/ --bytes 500M --processes 8 从Wikipedia中提取名词: python3 gen_copy_data_NN.py --train