与Sanger测序相比,下一代测序平台可产生更短的读数,更高的覆盖范围和更高的通量。 这些成本最低的技术可以在一天内运行,从而覆盖大多数物种,包括哺乳动物。 这些仪器之一产生的序列数据由数百万或数十亿的序列读段组成,长度范围从50到150nt。 在开始进一步的基因组分析之前,必须从头开始组装这些短读物。 不幸的是,由于许多原因,基因组组装仍然是一个难题,特别是短读段和比读段更长的复杂重复结构。 最近有很多组装算法和软件,其中大多数算法面对重复时显得无能为力,尤其是对于相同的重复算法,并且在完全相同的输入数据下无法获得唯一的组装结果。 当重复的时间长于包含在输入数据集中的读取时间时,如何获得唯一且稳定的汇编结果正成为一个关键问题。 从这个角度出发,我们提出了一种基于动态重叠的基因组组装方法,该方法可以从随机选择的读取开始就获得独特的结果,并且可以解析长度为读取长度数百倍的高度相似的重复序列,更重要的是,我们使用单端数据但不提供配对末端信息来解决高相似性重复问题。