实现一个DNA mapping工具

  1. 生物学背景

DNA mapping是重测序问题的必要步骤,同时也是发现变异的最简单的手段。

  1. 问题描述

Given:

Reference序列(由'A'、'C'、'G'、'T' 4种字符组成的字符串,以Fasta格式给出。)

Reads序列(一个由很多'A'、'C'、'G'、'T' 4种字符组成的字符串集合,以Fastq格式给出。)

Return:

每个Read在Reference的最佳(最小)比对位置,以HIT格式输出。

  1. 基于Hash表的比对算法

  2. 数据格式

Fasta格式标准genome和read存储格式。