针对抄袭检测系统的文本对齐模块无法处理大规模数据的问题,提出基于图论的片断合并算法,通过寻找图的连通分支实现了片段合并的优化,减少了重复计算的时间。将片段合并算法与Hadoop的MapReduce计算框架结合,使片断合并算法在集群中并行的执行。实验表明,基于图论的片断合并算法在集群中的并行执行能缩短文本对齐模块运行时间,可以在短时间内处理大量的文本数据。