gpt 2 output dataset:GPT 2输出的数据集用于研究检测偏差等 源码
gpt-2-输出数据集 该数据集包含: WebText测试集中的250K文档 对于每个GPT-2模型(在WebText训练集上进行训练),使用Top-K 40截断生成250K随机样本(温度1,无截断)和250K样本 我们期待使用此数据进行的研究! 下载 对于每个模型,我们都有250K个生成示例的训练拆分,以及5K个示例的验证和测试拆分。 所有数据都位于Google Cloud Storage的gs://gpt-2/output-dataset/v1 。 在那里,您将找到文件: webtext.${split}.jsonl small-117M.${split}.jsonl small-117M-k40.${split}.jsonl medium-345M.${split}.jsonl medium-345M-k40.${split}.jsonl large-762M.${
文件列表
gpt-2-output-dataset-master.zip
(预估有个18文件)
gpt-2-output-dataset-master
.gitignore
19B
README.md
2KB
baseline.py
2KB
LICENSE
1KB
download_dataset.py
1KB
detection.md
3KB
detector
README.md
2KB
server.py
4KB
暂无评论