Tianchi Multi Task Learning:第一名克莱登大学二队方案分享 源码
实验环境 CUDA版本:11.0驱动程序版本:450.80.02 GPU:TITAN XP Python:3.7.9 pytorch:1.7.0操作系统:ubuntu 20.04 安装依赖包 pip install -r requirements.txt 解决方案及算法说明 数据预处理:数据清洗(剔除中文,非英文,非数字符号) 文本截断:通过对各任务句子长度的分析,选择句子长度256作为截断标准,不足补0 数据输入 由于任务二和任务三存在轴向的类别不均衡问题,因此训练集和验证集的划分采用分层的KFold交叉验证。由于需要多任务学习,因此模型的输入增加了任务标识dataset_ids。因此模型的输入其中任务一由于是句子对任务,token = [cls +句子1 + sep +句子2],其余两个任务token = [cls +句子+ sep]表示为(token_ids,segment_id,
文件列表
Tianchi-Multi-Task-Learning-master.zip
(预估有个39文件)
Tianchi-Multi-Task-Learning-master
tcdata
empty.gitkeep
68B
user_data
raw_data
empty.gitkeep
68B
tmp_data
empty.gitkeep
68B
__pycache__
utils.cpython-36.pyc
9KB
暂无评论