纸上得来终觉浅,绝知此事要躬行!
实验要求:
- 鼓励交流但需独立完成,按照自己思路进行数据处理和分析。
- 展示的图表能传达有效信息。排列规整、配色统一、简洁大方,适当评述。图的横纵坐标标示清楚(如有单位需要标注),图标题明确。
- 实验报告清晰、完整、有分析内容,不能仅有图表。优秀的报告有额外奖励分。
- 实验报告在word文档创作,请包含代码。不限定结果实现的软件。
- 作业内外注明学号、姓名、班级(专业+周几)及实验内容。
- 提交时间:以老师通知的为准。
- 提交地址:课程系统
任务1:数据准备
- Step 1. 数据清洗:如缺失值处理,特殊字符型变量处理;
- Step 2. 生成目标变量Y和预测变量X。响应变量Y:好人fully paid为1,坏人charged off为0。特征变量X为数值型变量(分类变量需转化成数值,如可采用虚拟变量法)。
任务2:建立决策树模型
- Step 1. 将总样本区分训练集和测试集样本。
- Step 2. 使用训练集估计决策树模型。
- Step 3. 汇报AUC。
提交日期:7月1日
任务1:数据准备
- Step1:数据清洗:缺失值、异常值、重复值、特殊字符等处理;
- Step2:数据转换:1. 分类变量可经过证据权重或哑变量等方式转变为数值型变量;2. 连续变量可直接使用,也可通过分箱进行离散化继而求得证据权重。
- Step3:生成目标变量Y和预测变量X。响应变量Y:好人fully paid为1,坏人charged off为0。特征变量X为数值型变量。
任务2:建立逻辑回归模型
- Step1:区分训练集和测试集样本。
- Step2:使用训练集估计模型。
- Step3:画出ROC曲线
- Step4:汇报AUC值,比较训练集和测试集AUC
任务3:分数校准
- Step1:用逻辑回归的概率估计结果,将分数映射到0-1000分的区间
- Step2:设定分数基准点和分差变化代表的信用质量变化,进行分数的线性变换
- Step3:画出好人和坏人映射后的分数分布图,以每20分一个区间。
提交日期:6月15日
任务1:数据准备
- Step1:数据清洗:缺失值、异常值、重复值、特殊字符等处理;
- Step2:数据转换:1. 分类变量可经过证据权重或哑变量等方式转变为数值型变量;2. 连续变量可直接使用,也可通过分箱进行离散化继而求得证据权重。
- Step3:生成目标变量Y和预测变量X。响应变量Y:好人fully paid为1,坏人charged off为0。特征变量X为数值型变量。
任务2:建立线性判别分析模型
- Step1:区分训练集和测试集样本。
- Step2:使用训练集估计模型。
任务3:ROC曲线
- Step1:画出ROC曲线
- Step2:汇报AUC值,比较训练集和测试集AUC
提交日期:5月25日
任务1:数据准备
- Step1:定义好坏:好人fully paid为0,坏人charged off为1。
- Step2:对数据表中“黄色”“绿色”“蓝色”部分,进行数据处理和数据变换(如缺失值处理等)。
- Step3:对预测变量做相关性分析,建立相关系数矩阵。
- Step4:剔除相关性较高(相关系数>0.7)的变量之一。
- Step5:输出剔除后的相关性矩阵。
- Step6:将整理好的目标变量和预测变量放到新的数据表中,准备建模。
任务2:建立线性回归模型并预测分数
- Step1:区分训练集和测试集样本。
- Step2:使用训练集估计模型
- Step3:使用测试集输出模型预测得分,并解读。
任务3:画出混淆矩阵
- Step1:将模型预测的分数排序,确定cut-off值(自行选择确定方法,有理有据即可),判断好坏,用0/1标签表示。注意:分数的大小所表示含义应与前面好人与坏人的设定保持一致。
- Step2:画出混淆矩阵(交叉表格)。
- Step3:根据混淆矩阵,计算特异度、敏感度、第一类错误率和第二类错误率、总准确率。
提交日期:5月9日
任务1:虚拟变量
- Step1:将grade转换为虚拟变量。
- Step2:用图形展示新属性的好坏比率。
任务2:粗分类
- Step1:将grade粗分类。考虑等级与好坏比率的非线性关系,合理合并分组。
- Step2:用图形展示粗分类前后的好坏比率对比。
任务3:证据权重和信息值
- Step1:用粗分类后的grade新属性,计算其WOE数值。报告WOE表格,并计算信息值。
- Step2:用grade_WOE替换原特征。
提交日期:4月23日
任务1:数据描述
- Step1:查阅数据字典,理解各字段。根据各字段意义和特点进行归类,写出对每个字段的中文解读。
- Step2:对所有部分检查缺失值情况,统计缺失值数量(总体和各变量),并删除缺失行数据。
- Step3:对“绿色”部分每个字段进行描述统计,计算频数。
- Step4:对“蓝色”部分每个字段进行描述统计,计算最大值/最小值/均值/标准差/25%分位数/75%分位数。
- Step5:emp_length各类别贷款申请者的平均贷款额度(loan_amnt)及平均贷款利率(int_rate)
- Step6:Grade各等级贷款申请者中的好人和坏人比例
任务2:数据可视化
- Step1:Grade各等级频数的折线图
- Step2:emp_length的圆饼图
- Step3:不同home_ownership类别中的好人和坏人比例
提交日期:4月2日
Cookie的使用
我们使用cookies来确保流畅的浏览体验。若继续,我们认为你接受使用cookies。
了解更多