通过交叉模式特征转移长尾去偏 长尾分布广泛存在于自然分布中,很少有人注意到甚至在相应场景中不同模态之间的不同分布。 想象一下场景:有些人围在桌子旁开会,我们分别记录了视觉和音频数据。 在视觉模态中,我们主要看到桌子,人,椅子,而在音频模态中,我们主要听到人们在说话,设备响起,拍手声。 实际上,这两种模式的数据在分布上并不是很好地对应。 我们关注以下问题: 找出对应场景中不同模态数据分布的差异; 在另一个实例中利用表现良好的类来增强尾部代表不足的类; 在不同方式和不同类别之间进行有效的知识转移。