proteinnet:用于蛋白质结构机器学习的标准化数据集 源码

preoccupied_96226 12 0 ZIP 2021-02-22 19:02:44

蛋白质网 ProteinNet是用于机器学习蛋白质结构的标准化数据集。 它提供蛋白质序列,结构(和),多个序列比对( ),位置特定的评分矩阵( ),以及标准化的拆分。 ProteinNet建立在两年期评估的基础上,该评估对最近解决但尚未公开获得的蛋白质结构进行盲目预测,以提供推动计算方法学前沿的测试集。 它被组织为一系列数据集,涵盖了CASP 7至12(涵盖十年),以提供一系列数据集大小,从而可以在相对数据贫乏和数据丰富的体制中评估新方法。 请注意,这是一个初步版本。 用于构建数据集的原始数据以及MSA尚未普遍可用。 但是,可应要求提供ProteinNet 12的原始MSA数据(4TB)

用户评论
请输入评论内容
评分:
暂无评论