基于距离的最大熵预测蛋白质结构域的新方法
在实验和计算结构生物学中,检测蛋白质结构域的边界都是一项重要且具有挑战性的任务。 在本文中,提出了一种仅从序列信息中检测蛋白质的域结构的有前途的方法。 该方法基于分析从数据库搜索得到的多个序列比对。 定义了多个度量以量化沿序列的每个位置的域信息内容。 然后使用支持向量机将它们组合成单个预测变量。 更重要的是,首先将域检测视为不平衡的数据学习问题。 针对支持向量机(SVM)特征空间中基于距离的最大熵,提出了一种新的欠采样方法。 总体精度约为80%。 仿真结果表明,该方法不仅可以帮助预测蛋白质的完整3D结构,而且还可以用于基于不平衡数据集的机器学习系统。
暂无评论