在蛋白质序列分类研究中,流行的是通过使用各种描述符(例如k聚体组成的组成)将可变长度的蛋白质序列转换成固定长度的数值载体。 这样的位置无关的描述符很有用,因为它们适用于任何长度的序列。 但是,即使子序列的位置信息可能对分类性能有很大的贡献,也会将其丢弃。 为了解决这个问题,我们将原始序列划分为若干段,然后为其计算数值特征。 它使我们能够部分引入位置信息(例如,序列前段和后段中丝氨酸的组成)。 通过对段数和重叠区域长度的综合实验,我们发现采用序列分割和特征选择的分类方法可以有效地提高性能。 我们评估了我们针对三种蛋白质分类问题的方法,并在所有情况下均取得了显着改善,这些情况的数据集均含有足够的氨