利用数据挖掘进行信用卡评分,提高银行的客户风险识别能力

来源: 云巴巴 2022-11-22 10:20:00

 

信用卡业务具有透支笔数巨大、单笔金额小的特点,这使得数据挖掘技术在信用卡业务中的应用成为必然。国外信用卡发卡机构已经广泛应用数据挖掘技术促进信用卡业务的发展,实现全面的绩效管理。

>>>>

背景描述及需求

银行在市场经济中起着至关重要的作用。他们决定谁能获得资金,以什么条件获得资金,并决定投资决策的成败。为了让市场和社会发挥作用,个人和企业需要获得信贷。信用评分算法是银行用来决定贷款是否应该发放的一种方法,它对违约概率进行猜测。为了推进信用卡业务良性发展,减少坏账风险,各大银行都进行了信用卡客户风险识别相关工作,建立了相应的客户风险评分模型。

本案例基于思迈特软件的数据挖掘平台Smartbi Mining进行建模,使用逻辑回归分类算法预测客户在未来两年内遭遇财务困境的可能性并进行信用评分,提高银行的客户风险识别能力。本案例定义逾期90天以上就算作为逾期客户。

信用卡客户评分数据挖掘主要包括以下步骤:

1) 从银行获取信用卡相关信息;

2) 数据探索:探索整体数据分布和探索不同变量之间的关系;

3) 数据预处理工作:包括数据清洗、数据离散化、处理样本不平衡问题等操作;

4) 构建信用评分卡模型,计算各指标的分值及综合评分;

5) 根据评分结果,分析该银行的客户的信用风险情况。

>>>>

实施过程

本案例数据集来源于kaggle赛题数据,共计15万条客户数据,包括信用客户和逾期客户,并对数据进行人工标注,标注分为两类,分别为:0(信用客户)和1(逾期客户)。字段说明见表2-1。

字段名称

类型

字段说明

SeriousDlqin2yrs

整型

好坏客户。取值为{0,1}

RevolvingUtilizationOfUnsecuredLines

浮点型

可用额度比值

age

整型

年龄

NumberOfTime30-59DaysPastDueNotWorse

整型

逾期30-59天笔数

DebtRatio

浮点型

负债率

MonthlyIncome

整型

月收入

NumberOfOpenCreditLinesAndLoans

整型

信贷数量

NumberOfTimes90DaysLate

整型

逾期90天笔数

NumberRealEstateLoansOrLines

整型

固定资产贷款量

NumberOfTime60-89DaysPastDueNotWorse

整型

逾期60-89天笔数

NumberOfDependents

整型

家属数量

 

表2-1

2.1 数据接入

在实验中添加数据源节点,将评分卡客户数据读取进来,部分数据如图2-1所示。

 

图2-1 评分卡客户数据

为了方便理解本数据集每个特征的含义,使用元数据编辑节点,添加中文字段别名,更改后的输出如图2-2所示,流程图如图2-3所示。

图2-2

图2-3 流程图

2.2 数据探索

本案例的探索分析是对数据进行缺失值、重复值与异常值分析,分析出数据的规律以及异常值

为了查看整体数据集数值型数据的情况,我们接入一个全表统计节点,选中所有数值型字段如图2-4,输出结果如图2-5所示,可以看到部分数据(月收入、家属数量)存在缺失值。可以看到“月收入”缺失达到近20%,“家属数量”缺失较少仅有2.6%的缺失。

图2-4

 

图2-5 数据缺失情况

为了统计所有数据中好坏客户的分布情况,选择聚合节点,选择分组计数,如图2-6,输出结果分布情况如图2-7所示。发现0类样本占有较大的比例,则需要考虑到样本不平衡问题。

 

图2-6

 

图2-7 好坏客户分布情况

通过全表统计节点查看所有数据的分布情况,查看各指标的直方图、箱线图分布情况,如图2-8所示。发现“年龄”的最小值居然是0,但是根据我们的常识,小于18岁是不能在银行办理信用卡或是贷款业务的。以及看到三个逾期天数指标(逾期30-59天、逾期60-80天,逾期90天)是存在比较严重的离群值的。

 

图2-8 直方图、箱线图

2.3 数据预处理

通过数据探索发现,月收入、家属数量这两个字段数据有部分空值、三个逾期天数指标存在异常值和部分数据可能有重复值。以及好坏客户的数据比例存在明显的不平衡现象,如果将这些数据直接进入模型,必然会对分析造成很大的影响,得到的结果的质量也必然是存在问题的。那么,在利用到数据之前就必须先进行数据预处理,把无价值的指标及数据去除。

◆ 去重复值

通过去除重复值节点将重复行的数据进行给去除,结果去除后结果如图2-9所示。

 

图2-9 去除重复值

◆ 空值处理

由于“家属数量”缺失较少,可直接使用中位数进行填充。“月收入”这个特征对于征信来说非常重要的,本案例采用随机森林填补法来填充,即将缺失的特征值作为预测值,将未缺失的“月收入”数据作为训练样本的标签。流程图如图2-10所示。

 

2-10 空值处理

 异常值处理

根据探索分析发现年龄的最小值为0,通常我们知道年龄小于18岁是不能办理银行信用卡或者贷款业务的,并且发现三个逾期天数指标(逾期30-59天、逾期60-80天,逾期90天)是存在比较严重的离群值的。通过行选择节点筛选出年龄<18的数据分析发现仅有年龄=0的这一条数据,如图2-11所示。因此需要将年龄为0的数据进行删除过滤,如图2-12所示。

 

图2-11

 

图2-12 过滤与映射

通过行选择节点筛选出发现三个逾期指标出现的情况发生在相同的行,维度都是(225,11)。因此将其中一个异常指标过滤删除即可,如图2-13所示。

 

图2-13 过滤与映射

 处理样本不平衡

通过图2-7所示发现,0:1=139974:10026,是存在严重的样本不平衡的。这是在金融风控中非常常见的,因为会存在严重违约的用户毕竟是少数。本案例采取SMOTE上采样的方法处理数据不平衡。通过python脚本进行编写,核心代码如图2-14所示。处理不平衡数据后通过聚合节点分析发现1类和0类数据达到平衡状态,如图2-15所示。

图2-14 SMOTE上采样

图2-15

◆ 数据离散化

在建立模型前,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。连续变量是在任意两个值之间具有无限个值的数值变量。连续变量可以是数值变量,也可以是日期/时间变量。例如,零件的长度,或者收到付款的日期和时间。因此,我们自定义离散操作,如图2-16所示。

图2-16 自定义离散

整个的数据预处理流程如图2-17所示。

图2-17

2.4 特征选择

◆ 相关性分析

相关性分析是用来反映变量之间的相关关系的密切程度。相关系数的取值一般介于-1和1之间。当相关系数为正的时候,意味着变量之间是正相关的;当相关系数为负的时候,意味着变量之间是负相关的。我们选择相关性节点探索各指标的相关性,如图2-18所示。因此我们相关性较强的特征,如图2-19所示。

图2-18 相关性分析

图2-19 特征选择

2.5 模型建立

本案例采取逻辑回归模型,整体的流程图如图2-20所示。

逻辑回归具有以下优势:

1、逻辑回归经过信贷历史的反复验证是有效的

2、模型比较稳定相对成熟

3、建模过程透明而不是黑箱

4、不太容易过拟合

图2-20 模型训练及预测评估

通常而言,评分卡模型一般采用roc或ks曲线来评价模型的好坏。本案例的评估结果如图2-21所示,发现该模型的auc取值为0.835,ks的最大取值为0.51,说明该模型的效果是不错的。

图2-21 评估结果

2.6 计算评分

◆ 模型系数

通过逻辑回归模型训练后接入模型系数节点,输出的模型系数如图2-22所示。

图2-22 模型系数

◆ 计算得分

我们需要将逻辑回归转换为对应的分数,(0-999分)。

根据资料查得:Score = offset + factor * log(odds)

首先,我们得计算各特征的分数得分,部分核心代码如图2-23所示,各分数得分输出日志中可打印输出,如图2-24所示,然后根据基础分值与各特征的得分进行相加减获取最终信用评分,部分核心代码如图2-25所示。

图2-23 各特征分数得分函数

图 2-24 各特征对应的分数

图 2-25 用户总分函数

最后输出各特征指标的得分,如图2-26所示,根据得分结果可查看分析出评分越高的客户违约风险就越大。为此可对相应的工作采取措施。

图 2-26

>>>>

总结

本文结合信用卡评分的案例,重点介绍了数据挖掘算法中逻辑回归分类算法在实践中的应用。通过对客户的信用进行评分,可挖掘出该客户的违约风险程度,并针对可能违约的客户采取相应的措施。

 

更多产品了解

欢迎扫码加入云巴巴企业数字化交流服务群

产品交流、问题咨询、专业测评

都在这里!

 

评论列表

为你推荐

用虚拟现实,以留存哪些珍贵记忆

用虚拟现实,以留存哪些珍贵记忆

小编很喜欢的电影《寻梦环游记》有着样一句经典台词,“ 死亡是不是真的走了,忘了是永恒的灭亡 ”,当我们在人间离开,比不是真正的灭亡,但被所有人遗忘,才是真正的灭亡。 虚拟现实技术可以帮我们,看到自己想念的人。先来了解一下虚拟现实技术的概念。虚拟现实技术又

2022-11-22 16:14:55

生活中的哪些场景会用到人脸核身技术

生活中的哪些场景会用到人脸核身技术

人脸核身技术在需要对我们的身份信息进行核验的很多场景下都会用到,其实在我们注册相关信息时也会用到这一技术,通过人脸核身技术也让我们的生活感受到了更多的便利。

2022-11-24 11:24:13

保险业中最常用的4个RPA机器人实例,帮助企业轻松实现自动化

保险业中最常用的4个RPA机器人实例,帮助企业轻松实现自动化

据普华永道发布的行业调查研究报告数据显示,保险、金融、电商和银行是日常管理工作量最大的几个不同领域,据Capgemini管理顾问公司的一份调查报告显示,在应用RPA的保险公司中,工作效率平均提高了50%左右 ,客户服务时间节省了80%以上 。

2020-03-18 17:25:54

腾讯云的OCR识别产品都有那些功能(二)

腾讯云的OCR识别产品都有那些功能(二)

在上篇文章中,小巴详细的给朋友们阐述了腾讯云OCR识别产品的手写字体识别和印刷字体识别的功能和应用场景,本篇文章,我们看一下腾讯云OCR识别产品的文档表格识别和算式识别等的功能吧。

2022-11-24 09:55:05

2020年,企业将迎来哪些人工智能的新转折

2020年,企业将迎来哪些人工智能的新转折

数字化、人工智能、物联网等新技术在工业4.0催动下产生,并慢慢渗透到各领域,而2020年是一些新技术的关键转折点,如数字化技术,在数字经济大浪潮中,企业欲经由这些新技术扭转局面,其中,数据是完成人工智能和机械学习奠基石,可使企业处于同一起跑线,

2020-03-16 15:51:27

机器人应用到证券行业将会给我们带来哪些便利?

机器人应用到证券行业将会给我们带来哪些便利?

 机器人技术的不断发展越来越多的机器人技术被应用到更多的领域,证券机器人作为专为证券行业开发的一款机器人在这一领域得到了充分的应用以及更大的发展空间,而达观数据更是根据现如今证券行业的几大痛点推出了这款“证券机器人”。

2022-11-23 16:33:34

严选云产品

科亿科技灌装线缺陷检测解决方案 科亿科技AI视觉缺件检测相较于传统的视觉检测,融合了基于深度学习的AI算法,涵盖光、机、电、算、软全技术链。依托于中国科学技术大学模式识别重点实验室,研究开发出了AI视觉缺陷检测设备。
360企业安全云Web应用防火墙 对网站、H5、APP、小程序等Web应用,提供安全防护服务。支持识别恶意请求,防御未知威胁,实现防入侵、防扫描、防攻击、防数据泄露、防CC等攻击防护。将企业精力从信息安全防护建设的负担重释放出来,更加专注于自身业务的成长和发展。
文朗润城 农业环境智能监控系统 文朗润城-农业环境智能监控系统可以实时采集土壤温湿度、空气温湿度、氧气浓度、二氧化碳浓度、光照度等多种农业环境要素,并根据不同植物、不同生长阶段所需要的环境条件,通过控制温室内湿帘风机、加温补光等设备等环境控制设备,自动调控室内环境,保证相关环境条件能够最适宜作物生长,实现精细化管理,为作物的高产、优质、 高效、生态安全创造条件。
安科瑞分布式光伏发电系统 安科瑞分布式光伏发电系统,最终并网电压等级应根据电网条件,通过技术经济比选论证确定。若高低两级电压均具备接入条件,优先采用低电压等级接入。分布式光伏发电项目可以专线或T接方式接入系统。380V、10kV接入的分布式光伏发电可采用无线公网通信方式。
云客教育行业工作手机解决方案 云客教育行业工作手机解决方案,电话、短信统计实时可查,通话数量、时长、排名一目了然,KPI考核量化有依据,随时了解员工作情况。掌握每一次销售与客户在微信沟通内容,避免飞单、响应不及时、消极怠工、转化率低,精准复制成功经验,系统提升销售成功率;
新时代智云餐饮行业数电发票解决方案 新时代智云餐饮行业数电发票解决方案,支持WEB/客户端/移动端等多种开票方式,适配前端多种业务管理及ERP系统,采用标准网络调用模式,适配范围广;提供进销项发票数据采集、监控、分析,有效控制风险。

甄选10000+数字化产品 为您免费使用

申请试用