用于人类基因短编码区识别的新型特征向量

web_page_man 6 0 PDF 2021-05-02 19:05:40

蛋白质编码区识别已成为计算生物学的主要主题之一。 在这项研究中,我们尝试使用新方法解决问题。 通过整合终止密码子分布信息和碱基组成偏倚信息,我们获得了两个新功能。 给出了伪碱基组成特征,可以提取不同位置碱基相互作用的信息。 该算法的准确性已基于大型人类基因数据库进行了测试。 长度为192个碱基对的片段的三个新功能所获得的平均准确度高达92.73%。 在相同长度下,具有15个特征的算法的精度可以达到95.65%。 我们发现结合使用两个字符和伪碱基组成特征可以提高编码区域识别的准确性。

用户评论
请输入评论内容
评分:
暂无评论