解决sklearn中使用OrdinalEncoder方法将类别特征(categorical/discrete features)变为有序数值特征(ordinal integers)时无法编码测试集的类别特征中的未知类别的问题 当数据集中存在类别特征时(categorical/discrete features),我们一般的想法是将其转变为数值型的特征,比如如果是不存在内在高低顺序的类别特征,便可以使用sklearn中的OneHotEncoder方法将其转变为数值型的特征,但是OneHotEncoder也会令数据集中的特征数量激增,以至于模型复杂度升高。 而另一种将类别特征转变为数值型特征的方法