深度学习中,迁移学习与预训练模型的研究备受关注。首先,预训练模型在计算机视觉领域的应用较早,这源于图像任务可能遇到数据量匮乏的问题。在神经网络中,直接在某一任务上进行训练容易导致过拟合,因此人们倾向于在大规模图像数据集上进行通用神经网络的预训练。神经网络前几层学到的抽象特征对不同数据集可能相似,这种预训练后的微调加速了网络训练,缓解了数据不足引起的过拟合问题。这一预训练微调的实践在深度学习中被看作是迁移学习的一种具体方式。
而在自然语言处理方面,预训练模型的发展较晚。早期的词向量模型如word2vec实际上也是一种特殊的预训练,不同之处在于它直接将学到的词向量用于下游任务的初始化,而非微调。NLP领域预训练模型发展较晚的原因主要有两方面。首先,NLP缺乏像计算机视觉那样的大型通用数据集。由于自然语言的复杂性,难以定义适用于预训练的通用监督任务。其次,缺乏合适的标注数据集,因此在NLP中进行监督学习变得不太可行。
暂无评论