对不符合行和列的数据进行建模:以T细胞受体数据集为例 出版物已提交以供同行评审 西南大学人口与数据科学系助理教授JARED L OSTMEYER 介绍 统计分类器是数学模型,使用示例数据在预测标签的特征中查找模式。大多数统计分类器都假定要素像电子表格一样按行和列排列,但是许多类型的数据不符合此结构。序列是另一类数据的示例,这就是为什么此数据通常存储在文本文档中而不是电子表格中的原因。为了建立序列和其他不符合特征的统计分类器,我们开发了所谓的动态内核匹配(DKM)。 DKM类似于卷积网络中的最大池,但是对于序列而不是卷积。考虑对序列进行分类的问题。因为某些序列比其他序列长,所以特征的数量是不规则的。给定特定序列,挑战在于确定权重对特征的适当排列,使我们能够通过统计分类器运行特征以生成预测。我们使用序列比对算法查找表现出最大响应的特征的排列,例如最大池如何找到在卷积网络中表现出最大响应的图像