信贷风控笔记6——风控常用指标(面试准备14)
一、PSI:
1.计算过程:变量分箱10-20箱;统计各分箱内样本占比;
算各个分箱的index=(实际占比-预期占比)*ln(实际占比/预期占比);
将各分箱index求和得PSI
2.情况分类:
建模时:训练样本为预期分布;测试集或者OOT为实际分布
灰度上线:离线建模样本为预期分布;灰度陪跑样本为实际分布
正式上线:上线第一个月为预期分布;除第一个月后每月为实际分布
根据以上情况安装模型和入模变量分
3.参考值
0-0.1好 0.1-0.25略不稳定 >0.25不稳定
二.ks
定义:好坏客户累积分布差异的最大值
使用范围:模型看ks,规则看lift。
使用方法:理论上可以选择ks最大处cutoff,实际要考虑通过率
标准:A卡用0.2以上,B卡0.4,C卡0.5
模型上线后ks一定会下降,因为离线时只有通过客户,而拒绝样本坏客户浓度高,因此ks一定会下降
cutoff的箱子越多,ks下降越多。
如何判断ks是否正常:1.上线后下降幅度 2.是否持续下降
三.lift
一般大于3说明有好的提升效果
四.AUC
PR曲线:精准率和召回率的曲线图
为了让它达到最好,就有了F1分数
ROC曲线:真正率(召回率)和假正率 (有对少负样本被错误地认为成正样本)
画一个TPR(误杀)和FPR(抓坏)的曲线,TPR越高,FPR越低则越好,因此图像越陡越好
ROC曲线好处:无视样本不平衡的干扰
AUC:ROC曲线下的面积
标准:0.5-0.7效果低,0.7-0.85效果一般,0.85-0.95很好