• 实验教学

    Practice makes perfect!

    实验报告

    纸上得来终觉浅,绝知此事要躬行!

    实验要求:
    • 鼓励交流但需独立完成,按照自己思路进行数据处理和分析。
    • 展示的图表能传达有效信息。排列规整、配色统一、简洁大方,适当评述。图的横纵坐标标示清楚(如有单位需要标注),图标题明确。
    • 实验报告清晰、完整、有分析内容,不能仅有图表。优秀的报告有额外奖励分。
    • 实验报告在word文档创作,请包含代码。不限定结果实现的软件。
    • 作业内外注明学号、姓名、班级(专业+周几)及实验内容。
    • 提交时间:以老师通知的为准。
    • 提交地址:课程系统

     

    实验课六:决策树模型

    任务1:数据准备

    • Step 1. 数据清洗:如缺失值处理,特殊字符型变量处理;
    • Step 2.  生成目标变量Y和预测变量X。响应变量Y:好人fully paid为1,坏人charged off为0。特征变量X为数值型变量(分类变量需转化成数值,如可采用虚拟变量法)。

    任务2:建立决策树模型

    • Step 1.  将总样本区分训练集和测试集样本。
    • Step 2.  使用训练集估计决策树模型。
    • Step 3. 汇报AUC。

    提交日期:7月1日

     

    实验课五:逻辑回归

    任务1:数据准备

    • Step1:数据清洗:缺失值、异常值、重复值、特殊字符等处理;
    • Step2:数据转换:1. 分类变量可经过证据权重或哑变量等方式转变为数值型变量;2. 连续变量可直接使用,也可通过分箱进行离散化继而求得证据权重。
    • Step3:生成目标变量Y和预测变量X。响应变量Y:好人fully paid为1,坏人charged off为0。特征变量X为数值型变量。

    任务2:建立逻辑回归模型

    • Step1:区分训练集和测试集样本。
    • Step2:使用训练集估计模型。
    • Step3:画出ROC曲线
    • Step4:汇报AUC值,比较训练集和测试集AUC

    任务3:分数校准

    • Step1:用逻辑回归的概率估计结果,将分数映射到0-1000分的区间
    • Step2:设定分数基准点和分差变化代表的信用质量变化,进行分数的线性变换
    • Step3:画出好人和坏人映射后的分数分布图,以每20分一个区间。

    提交日期:6月15日

    实验课四:判别分析

    任务1:数据准备

    • Step1:数据清洗:缺失值、异常值、重复值、特殊字符等处理;
    • Step2:数据转换:1. 分类变量可经过证据权重或哑变量等方式转变为数值型变量;2. 连续变量可直接使用,也可通过分箱进行离散化继而求得证据权重。
    • Step3:生成目标变量Y和预测变量X。响应变量Y:好人fully paid为1,坏人charged off为0。特征变量X为数值型变量。

    任务2:建立线性判别分析模型

    • Step1:区分训练集和测试集样本。
    • Step2:使用训练集估计模型。

    任务3:ROC曲线

    • Step1:画出ROC曲线
    • Step2:汇报AUC值,比较训练集和测试集AUC

    提交日期:5月25日

    实验课三:模型评价

    任务1:数据准备

    • Step1:定义好坏:好人fully paid为0,坏人charged off为1。
    • Step2:对数据表中“黄色”“绿色”“蓝色”部分,进行数据处理和数据变换(如缺失值处理等)。
    • Step3:对预测变量做相关性分析,建立相关系数矩阵。
    • Step4:剔除相关性较高(相关系数>0.7)的变量之一。
    • Step5:输出剔除后的相关性矩阵。
    • Step6:将整理好的目标变量和预测变量放到新的数据表中,准备建模。

    任务2:建立线性回归模型并预测分数

    • Step1:区分训练集和测试集样本。
    • Step2:使用训练集估计模型
    • Step3:使用测试集输出模型预测得分,并解读。

    任务3:画出混淆矩阵

    • Step1:将模型预测的分数排序,确定cut-off值(自行选择确定方法,有理有据即可),判断好坏,用0/1标签表示。注意:分数的大小所表示含义应与前面好人与坏人的设定保持一致。
    • Step2:画出混淆矩阵(交叉表格)。
    • Step3:根据混淆矩阵,计算特异度、敏感度、第一类错误率和第二类错误率、总准确率。

    提交日期:5月9日

    实验课二:数据分类与转换

    任务1:虚拟变量

    • Step1:将grade转换为虚拟变量。
    • Step2:用图形展示新属性的好坏比率。

    任务2:粗分类

    • Step1:将grade粗分类。考虑等级与好坏比率的非线性关系,合理合并分组。
    • Step2:用图形展示粗分类前后的好坏比率对比。

    任务3:证据权重和信息值

    • Step1:用粗分类后的grade新属性,计算其WOE数值。报告WOE表格,并计算信息值。
    • Step2:用grade_WOE替换原特征。

    提交日期:4月23日

    实验课一:数据描述和可视化

    任务1:数据描述

    • Step1:查阅数据字典,理解各字段。根据各字段意义和特点进行归类,写出对每个字段的中文解读。
    • Step2:对所有部分检查缺失值情况,统计缺失值数量(总体和各变量),并删除缺失行数据。
    • Step3:对“绿色”部分每个字段进行描述统计,计算频数。
    • Step4:对“蓝色”部分每个字段进行描述统计,计算最大值/最小值/均值/标准差/25%分位数/75%分位数。
    • Step5:emp_length各类别贷款申请者的平均贷款额度(loan_amnt)及平均贷款利率(int_rate)
    • Step6:Grade各等级贷款申请者中的好人和坏人比例

    任务2:数据可视化

    • Step1:Grade各等级频数的折线图
    • Step2:emp_length的圆饼图
    • Step3:不同home_ownership类别中的好人和坏人比例

    提交日期:4月2日

  • 实验数据

    请点击下方按钮下载实验数据