基于LDA的促进基因组学信息检索排名多样性的方法
背景:在生物医学领域,存在大量数据,并且基因组学和生物医学相关出版物的数量大大增加。 信息的丰富性引起了人们越来越多的兴趣,并需要应用信息检索技术来访问基因组学和相关生物医学学科的科学文献。 在许多情况下,生物学家提出的查询的所需信息是某种类型的实体的列表,涵盖与该问题相关的不同方面,例如细胞,基因,疾病,蛋白质,突变等。生物医学IR系统的重要意义在于能够提供相关且多样化的答案来满足生物学家的要求; 信息需求。 但是,传统的IR模型仅关注检索到的文档和用户查询之间的相关性,而没有考虑到检索到的文档之间的冗余。 这将导致检索排名列表中的高冗余度和低多样性。 结果:在本文中,我们提出了一种方法,该方法采用称为潜在狄利克雷分配(LDA)的主题生成模型来促进生物医学信息检索的排名多样性。 与其他在词级上考虑方面的方法或模型不同,我们的方法假定应通过检索到的文档的主题来识别方面。 我们提出了LDA模型,以发现检索段落的主题分布和每个主题维度的单词分布,然后基于N大小的滑动窗口对段落之间主题分布相似性的检索结果进行重新排名。 我们在TREC 2007 Genomics集合和两个独特的IR基线运
暂无评论