颜色分类leetcode阶级不平衡问题介绍我们已经讨论了作为评估分类器性能的指标的精度、召回率、ROC曲线和AUC。有了这个,我们已经看到衡量分类算法的性能与回归的性能有很大不同。例如,我们简要讨论了一个场景,其中1000个案例中只有2个被标记为“阳性”。在这种极度不平衡的情况下,即使是一个简单地总是预测“负面”标签的朴素分类器,其准确率也会达到99.8%。此外,此类场景在医疗条件或信用卡欺诈等领域较为常见。因此,关于类不平衡问题和调整分类算法以更好地适应这些场景的方法,已经有很多工作和研究。
目标
你将能够:
-
使用改进的采样技术解决类不平衡问题。
-
了解阶级不平衡问题的复杂性。
班级权重
处理类不平衡问题的一种初始选择是对两个类进行加权。默认情况下,scikit-learn中逻辑回归的类权重为none,这意味着两个类在调整模型时将具有同等重要性。或者,您可以传递'balanced'以分配与该类的频率成反比的权重。最后一个选项是使用{class_label: weight}形式的字典将权重显式传递给每个类。
暂无评论