通过特征选择和随机森林预测A to I RNA编辑
RNA编辑是转录后的RNA过程,可提供RNA和蛋白质的复杂性来调节真核生物中的基因表达。 通过计算方法预测RNA编辑具有挑战性。 在这项研究中,我们开发了一种基于随机森林法预测RNA编辑的新方法。 基于最大相关最小冗余(mRMR)和增量特征选择(IFS)算法执行了仔细的特征选择过程。 从我们的数据集中的77个特征中选择了18个最佳特征,并用于构建最终的预测变量。 训练数据集的准确性和MCC(马修斯相关系数)值分别为0.866和0.742; 对于测试数据集,准确性和MCC分别为0.876和0.576。 使用18个特征的性能要高于全部77个特征,这表明一个小的特征集足以实现准确的预测。 进行了18个功能的分析,可能会揭示RNA编辑的机制和主要因素,为将来的实验验证提供基础。
暂无评论