该系统的构建主要分为两个部分,第一部分是模型的训练,在这个过程中,需要大量双语平行语料进行训练模型的参数;第二部分是求得用户所需要的词对齐结果,对用户输入的双语句对进行处理,然后送入已经训练好的模型中,计算出词对齐的结果。其中在对双语语料进行的数据预处理和用户输入进行的数据预处理是不完全相同的。对于训练语料的预处理,包括对数据的清洗、分词和 subword 处理。对于用户输入进行的预处理,除了分词以外,还包含一些句子的判别,因为,用户的输入有可能会有一些操作性的错误,例如,两个单词之间忘记加空格,还有单词的拼写错误等情况都会有可能存在的,所以在对用于做数据预处理的时候,这些情况都应该去考虑到的