图像文本检索图像预训练

lufangxin 23 0 pdf 2023-02-09 17:02:59

LexLIP用于大规模图像文本检索的词汇瓶颈语言图像预训练表现SOTA性能优于COTS等网络单位香港浸会大学微软图像文本检索ITR是在给定来自另一模态的查询的情况下检索相关图像文本的任务.传统的密集检索范式依赖于使用双流编码器将图像和文本编码为密集表示然而它在大规模检索场景中面临检索速度低的挑战.在这项工作中我们提出了lexicon weighting范式其中学习图像和文本的词汇空间中的稀疏表示以利用单词包模型和高效的反向索引从而显著降低检索延迟.一个关键的差距来自于图像数据的连续性以及对稀疏词汇空间表示的要求.为了弥补这一差距我们引入了一种新的预训练框架即Lexicon Bottlenecked Languagelmage Pre Training LexLIP该框架学习重要性感知词汇表示.该框架在双流编码器和弱化文本解码器之间具有词典瓶颈模块允许构建连续的单词瓶颈包以学习词典重要性分布.在使用相同规模的数据进行预训练后我们的LexLIP在两个基准ITR数据集MSCOCO和Flickr30k上实现了最先进的性能.此外在大规模检索

图像文本检索图像预训练

用户评论
请输入评论内容
评分:
暂无评论