通过特征生成采样进行超高维特征选择

保罗森 15 0 PDF 2021-04-30 07:04:32

为了选择有关极高维问题的信息特征,本文提出了一种采样方案,以提高最近开发的特征生成机(FGM)的效率。 请注意,在FGM中,应采用时间复杂度来按特征的分数对特征进行排序。 当m非常大时,例如m> 10(11),其中m是特征维数,r是所选特征子集的大小,特征排序的整个计算成本将变得无法承受。 为了解决这个问题,在本文中,我们提出了一种特征生成采样方法,该方法可以将这种计算复杂度降低到O(G(s)log(G)+ G(G + log(G))),同时保留最多信息量的特征。在特征缓冲区中,其中Gs是每个实例的最大非零特征数,而G是缓冲区大小。 此外,我们表明,我们提出的采样方案可以被视为基于随机过程理论的生死过程,这保证了包括大多数信息特征以进行特征选择。 对现实世界数据集的实证研究表明了所提出的抽样方法的有效性。

用户评论
请输入评论内容
评分:
暂无评论