cs182 hw3 源码
加州大学伯克利分校CS182 HW03:自然语言处理 欢迎来到CS182的第三本作业,在此作业中,您将学习有关处理和生成文本的知识。 具体来说,您将通过训练基于LSTM的语言模型来构建神经网络以生成新闻头条。 然后,您将训练一个Transformer来总结新闻文章。 可交付成果 要完成每项任务,您必须在解决方案中填写两个提供的Jupyter笔记本,其中包括在此文件夹中编辑Python文件。 通过Notebook,您将生成2个.pt格式的模型文件。 这些是您可交付成果的一部分,应与您的项目一起上传,因为它们将针对每个笔记本的未发布测试集进行测试。 要准备ZIP交付品,请阅读并遵循“准备提交”部分中的说明。 安装 此作业需要Python3。如果您打算在本地计算机上而不是在Google Colab中完成此作业,请安装Python3。此作业的培训可能需要一段时间才能在cpu上进行。 您可能需要
文件列表
cs182-hw3-main.zip
(预估有个38文件)
cs182-hw3-main
prepare_submission.sh
89B
kd_loss.py
7KB
utils.py
603B
transformer_checks
transformer_encoder_block
7KB
checkpoint
107B
multihead_io.json
5KB
transformer_decoder_block_io.json
3KB
transformer
70KB
暂无评论