gpt2-bert-reddit-bot 一系列脚本,使用reddit数据微调GPT-2和BERT模型,以生成真实的回复。 jupyter笔记本也可在访问Google Colab 有关运行脚本的演练,请参阅。 处理培训数据 我使用熊猫从Google bigquery读取。 get_reddit_from_gbq.py自动执行下载。 prep_data.py清除数据并将其转换为GPT2和BERT微调脚本可用的格式。我将结果从prep_data.py手动上传到Google云端硬盘,以供Google Colab笔记本使用。 这是从prep_data.py输出的数据格式的prep_data.py : "Is there any way this could be posted as a document so it can be saved permanently, outwith reddi