全基因组的表观基因组数据集使我们能够验证基序的生物学功能并更全面地了解调控机制。 一个不同的基序如何确定转录因子(TF)是否可以在特定位置结合DNA是一个关键的研究问题。 在这个项目中,我们应用自然语言处理(NLP)中使用的计算技术来预测给定基序实例的转录因子结合区(TFBR)。 现有的大多数使用深度神经网络的主题预测方法都将具有一键编码的基本序列用作输入特征,以实现TFBR的识别,这有助于实现低分辨率和间接绑定机制。 但是,如何弄清楚基序对结合位点的集体影响是很复杂的。 在我们的管道中,我们使用Word2Vec算法,并以主题名称作为输入,以基于ENCODE数据集,利用卷积神经网络(CNN)预