笔者之前用R开发评分卡时,需要进行分箱计算woe及iv值,采用的R包是smbinning,它可以自动进行分箱。官方给的例子不是很好理解,以下是我写的一个使用示例。以此例来说明各主要函数的使用方法。计算woe的各相关函数主要在feature_process.py中定义。核心函数主要是freature_process.proc_woe_discrete()与freature_process.proc_woe_continuous(),分别用于计算连续变量与离散变量的woe。它们的输入形式相同:输入:df: DataFrame,要计算woe的数据,必须包含'target'变量,且变量取值为{0,1}var:要计算woe的变量名global_bt:全局变量bad total。df的正样本数量global_gt:全局变量good total。df的负样本数量min_sample:指定每个bin中最小样本量,一般设为样本总量的5%。alpha:用于自动计算分箱时的一个标准,默认0.01.如果iv_划分>iv_不划分*则划分。该类定义见以下一段代码。各列分别包含如下信息:
暂无评论