100万的信用卡用户还款或逾期情况记录,40多万用户基本信息
根据以往还款记录和用户信息,预测(新)用户逾期情况,作为信用卡审批的参考
见代码文件
将各特征分箱(分类较少的特征不需要)后,计算特征的信息值(IV),了解特征的预测能力
对各特征的分布(根据预测特征划分)可视化展示,观测特征取值与预测特征的关系
特征处理后,对数据进行过采样,保证数据平衡
将数据划分为训练集和测试集
利用精度、混淆矩阵和F1得分对比评估LogisticRegression、SVC(linear核与rbf核)、DecisionTreeClassifier、RandomForestClassifier、LGBMClassifier、XGBClassifier和Keras自定义神经网络。其中XGBClassifier表现最佳,测试集精度96.75%,F1得分0.9674。
根据IV值分析,大多数特征几乎没有预测能力,少数特征有弱的预测能力
根据模型导出的特征重要性分析,不同模型的前3重要特征大不相同,但前10重要特征非常接近
没有与预测结果高度相关的特征,预测结果由多种特征共同决定
2个线性模型表现较差,原因是线性模型要求特征分箱后woe具有单调性,而实际分箱时较难保证各特征都符合条件
非线性模型在测试集的真、假集合中都有非常高的预测精度(>95%)
综上,可根据以往还款记录和用户信息,对信用卡审批流程进行建模评估