gpt 2 output dataset:GPT 2输出的数据集用于研究检测偏差等源码

verge4545 54 0 ZIP 2021-04-24 17:04:28

gpt-2-输出数据集该数据集包含: WebText测试集中的250K文档对于每个GPT-2模型(在WebText训练集上进行训练),使用Top-K 40截断生成250K随机样本(温度1,无截断)和250K样本我们期待使用此数据进行的研究! 下载对于每个模型,我们都有250K个生成示例的训练拆分,以及5K个示例的验证和测试拆分。所有数据都位于Google Cloud Storage的gs://gpt-2/output-dataset/v1 。在那里,您将找到文件: webtext.${split}.jsonl small-117M.${split}.jsonl small-117M-k40.${split}.jsonl medium-345M.${split}.jsonl medium-345M-k40.${split}.jsonl large-762M.${

文件列表

gpt-2-output-dataset-master.zip (预估有个18文件)

gpt-2-output-dataset-master

.gitignore 19B

README.md 2KB

baseline.py 2KB

LICENSE 1KB

download_dataset.py 1KB

detection.md 3KB

detector

README.md 2KB

server.py 4KB

dataset.py 3KB

train.py 12KB

download.py 2KB

utils.py 2KB

index.html 4KB

requirements.txt 95B

images

self_detection_k40.png 22KB

detection_by_length.png 127KB

parts_of_speech.png 98KB

self_detection_t1.png 22KB

用户评论

暂无评论

gpt2gpt2源码

状态:存档(代码按原样提供,预计不会更新) gpt-2 论文代码和模型。您可以在我们的, 和阅读有关GPT-2及其分阶段发布的。我们还供研究人员研究他们的行为。 *请注意,由于错误(在之前的博客文

81 2021-04-04
GPT2OpenAI GPT2的PyTorch实施源码

GPT-2 PyTorch实施目录介绍该项目是OpenAI GPT-2模型的PyTorch实现。它提供模型训练,句子生成和量度可视化。它被认为是可以理解和优化的。我们设计的代码易于理解。

18 2021-04-07
gpt2app用于使用GPT2生成文本的Flask Web应用源码

Flask Web应用程序,用于使用生成文本 GPT-2是一种非常庞大的语言模型,被认为过于危险而无法发布其完整版本,可以根据其输入生成接近人类水平的逼真的文本。作者决定只发布“功能不足”(117M

16 2021-02-17
gpt2clientwriting_hand_light_skin_tone gpt2client易于使用的TensorFlow包装器适用于GPT2

gpt2-client 适用于GPT-2 117M,345M,774M和1.5B变压器型号的易于使用的包装器 •• 由Rishabh Anand制造• //rish-16.github.io 它是什么

6 2021-02-17
TextGeneration GPT2bert2bert源码

自述文件基于pytorch / transformers和pytorch_lightning 火车数据描述 json [ { " title " : " xxxx &q

16 2021-04-08
GPT GPT2GPT3ChatGPT模型梳理及发展前景

本文分析了GPT/GPT2/GPT3/InstructGPT/ChatGPT等多个模型，总结出其优势和不足，并探讨其在未来的应用前景。随着大数据和人工智能的快速发展，这些模型的重要性与价值也在不断提升

7 2023-05-09
GPT2chitchat中文chitchat的GPT2中文闲聊的GPT2模型实现了DialoGPT的MMI思想源码

GPT2,用于中文聊天更新2020.01.09 添加50w闲聊语料与预训练模型的GoogleDrive的下载地址更新2019.12.17 基于微软的论文添加了MMI模型(最大互信息评分功能),对对

24 2021-02-06
gpt2_summ_rl基于gpt2的增强模型训练的总结模型源码

gpt2_summ_rl:基于gpt-2的增强模型训练的总结模型

41 2021-04-24
GPT生成的csv格式数据集

GPT生成的数据集以csv格式呈现，可以方便地进行数据处理和分析。该数据集收集了各种领域的数据，包括文本、图像、音频等。它是用GPT模型生成的，具有高质量和多样性。使用这个数据集，您可以训练机器学习模

8 2023-07-05
GPT2Telegram Chatbot GPT2电报聊天机器人源码

GPT2-电报-聊天机器人相对而言,GPT-2电报聊天机器人已经针对聊天进行了调整。随时让我成为PR,我将检查您的代码! 该漫游器并非始终都是100%准确的(为什么我要在/ retry函数中进行编

40 2021-02-01

gpt 2 output dataset:GPT 2输出的数据集用于研究检测偏差等 源码

文件列表

用户评论

推荐下载

gpt 2 output dataset:GPT 2输出的数据集用于研究检测偏差等源码