通过整合PPI网络临床RNA Seq数据和OMIM数据来预测疾病基因
疾病基因预测是一项具有挑战性的任务,具有多种应用程序,例如早期诊断和药物开发。 现有的机器学习方法存在样本问题不平衡的问题,因为已知疾病基因(阳性样本)的数量远远少于未知基因(通常被视为阴性样本)的数量。 另外,大多数方法还没有利用来自患有特定疾病的患者的临床数据来预测疾病基因。 在这项研究中,我们通过结合蛋白质-蛋白质相互作用(PPI)网络,临床RNA-Seq数据和人的在线孟德尔遗传(OMIN)数据,提出了一种疾病基因预测算法(称为dgSeq)。 我们的dgSeq根据从临床RNA-Seq数据计算得出的重新接线信息构建差异网络。 为了选择平衡的非疾病基因组(阴性样品),还可以从OMIM数据中构建疾病基因网络。 从PPI网络和差分网络中提取特征后,即可对逻辑回归分类器进行训练。 我们的dgSeq分别用于识别乳腺癌基因,甲状腺癌基因和阿尔茨海默氏病基因的AUC值分别为0.88、0.83和0.80,这表明它比其他三种竞争方法优越。 基因集富集分析和预测结果均表明dgSeq可以有效预测新的疾病基因。
暂无评论