DialoGPT:进行对话的大规模预培训源码

distributive5502 15 0 ZIP 2021-02-27 06:02:38

最先进的大规模预训练响应生成模型(DialoGPT) 该存储库包含大规模预训练对话响应生成模型的源代码和训练模型。表明,在单转对话图灵测试下,DialoGPT产生的响应与人工响应质量相当。该存储库基于和 ,包含数据提取脚本,模型训练代码以及预训练的小型(117M)中型(345M)和大型(762M)模型检查点。该模型在Reddit讨论线程的147M多回合对话中进行训练。最大的模型可以在8台V100机器上进行几个小时的培训(但是这不是必需的),并具有分布式培训和FP16选项。 include脚本可用于再现基于DSTC-7的对话生成挑战的结果以及根据Reddit数据创建的6k多参考数

文件列表

DialoGPT-master.zip (预估有个71文件)

DialoGPT-master

LSP_train.py 15KB

.gitignore 7KB

env.py 203B

data

dummy_data.tsv 379KB

prepare4db.sh 71B

train_raw.tsv 379KB

human.ref.6k.txt 369KB

reddit_extractor

Makefile 3KB

data

keys-small.tar 42.8MB

test-multi-refs-ids.txt 2.86MB

keys-test.gz 731KB

src

create-multiref.py 2KB

reddit.py 15KB

configs

Makefile.common 9KB

Makefile.targets.full 4KB

Makefile.local 2KB

Makefile.targets.small 2KB

lists

words.blocklist.txt 54B

subreddits.blocklist.txt 60B

SECURITY.md 2KB

MANIFEST.in 16B

prepro.py 7KB

pycocoevalcap

meteor

__init__.py 21B

meteor.py 3KB

__init__.py 21B

eval.py 3KB

tokenizer

__init__.py 21B

ptbtokenizer.py 3KB

bleu

__init__.py 21B

LICENSE 1KB

bleu_scorer.py 9KB

bleu.py 1KB

rouge

__init__.py 23B

rouge.py 4KB

cider

__init__.py 21B

cider.py 2KB

cider_scorer.py 8KB

LICENSE 1KB

README.md 37KB

configs

117M

vocab.json 1018KB

config.json 176B

merges.txt 446KB

345M

vocab.json 1018KB

config.json 293B

merges.txt 446KB

762M

vocab.json 1018KB

config.json 177B

merges.txt 446KB

data_loader.py 11KB

dstc

.gitignore 18B

batch_eval.py 2KB

dstc.py 6KB

tokenizers.py 1KB

data

processed

test_real.keys.txt 125KB

valid.keys.txt 257KB

keys.2k.txt 123KB

valid.keys.txt 257KB

metrics.py 7KB

util.py 579B

extract_human.py 796B

gpt2_training

distributed.py 4KB

train_utils.py 7KB

eval_utils.py 3KB

LSP-linux.yml 2KB

lsp_model

modeling_gpt2.py 5KB

__init__.py 401B

optim.py 15KB

demo.py 5KB

data_config.py 506B

LSP-generic.yml 1KB

demo_utils.py 4KB

用户评论

暂无评论

厚皮大规模可再生数据科学源码

Pachyderm:数据版本控制,数据管道和数据沿袭 Pachyderm是用于生产数据管道的工具。如果您需要以理智的方式将数据抓取,提取,清理,整理,整理,处理,建模和分析链接在一起,那么Pachy

5 2021-02-06
wikipron大规模多语言发音挖掘源码

WikiPron WikiPron是一个命令行工具和Python API,用于从Wiktionary挖掘多语言发音数据,以及使用此工具挖掘的发音词典数据库。如果您在研究中使用WikiPron,请引用

2 2021-02-06
ceres solver大规模非线性优化库源码

谷神星解算器 Ceres Solver是一个开源C ++库,用于建模和解决大型,复杂的优化问题。它是一个功能丰富,成熟且性能卓越的库,自2010年以来已在Google的生产环境中使用。Ceres S

12 2021-03-14
munio大规模cloudgrid安全部署源码

munio:大规模cloudgrid安全部署

9 2021-02-09
大规模机器学习系统中的NoFreeLunch

作为第四范式?先知平台核心机器学习框架GDBT的设计者,涂威威在大规模分布式机器学习系统架构、机器学习算法设计和应用等方面有深厚积累。演讲中,涂威威表示,现在有越来越多的企业开始利用机器学习技术,把数

10 2021-01-30
基于大规模的敏捷框架ScaledAgileFramework实践

由DeanLeffingwell创建的ScaledAgileFramework被誉为在组织层面可以和Scrum相媲美的敏捷框架,它特别适用于在组织机构内部扩展敏捷,而且需要跨越多个团队,同时组织内部需

5 2021-02-01
Python基于PySpark的大规模短语挖掘

使用数据驱动方法检测大量文本中的常用短语。发现的短语的大小可以是任意的。可以用于英语以外的语言

15 2020-08-18
Hadoop的大规模数据交换

基于Hadoop的大规模数据交换的研究，我也是从资源而得。分享给大家。希望有用。

27 2020-02-19
关于住宅的大规模定制开发研究

关于住宅的大规模定制开发研究，王庭文，，随着国家住宅产业化推进步伐的加快，技术的发展和消费者对个性化要求的提高,大规模定制生产逐渐成为当今世界最流行的生产方式之�

15 2020-05-04
基于大规模语料的新词发现算法

基于大规模语料的新词发现算法文章，很好的一篇文章，共享给大家

23 2019-09-21

DialoGPT:进行对话的大规模预培训 源码

文件列表

用户评论

推荐下载

DialoGPT:进行对话的大规模预培训源码