gpt-2-输出数据集 该数据集包含: WebText测试集中的250K文档 对于每个GPT-2模型(在WebText训练集上进行训练),使用Top-K 40截断生成250K随机样本(温度1,无截断)和250K样本 我们期待使用此数据进行的研究! 下载 对于每个模型,我们都有250K个生成示例的训练拆分,以及5K个示例的验证和测试拆分。 所有数据都位于Google Cloud Storage的gs://gpt-2/output-dataset/v1 。 在那里,您将找到文件: webtext.${split}.jsonl small-117M.${split}.jsonl small-117M-k40.${split}.jsonl medium-345M.${split}.jsonl medium-345M-k40.${split}.jsonl large-762M.${