SaCa RealRec客户挖掘案例分析:中国银行客户流失(5)
时间:2025-07-11
时间:2025-07-11
客户挖掘案例分析,中国银行
上海分行的具体实施情况。
原始数据
原始数据共20w条,用户ID,12个因素变量(性别,房产,年龄,开户时长,是否持有信用卡、白金卡、理财卡,5、6、7三个月AUM值,AUM值5到6月、6到7月的变化),类别标识为8月份客户是否流失。实际数据中流失客户只占3%左右。
关于流失客户的定义,中国银行上海分行对于客户流失的定义为连续三个月AUM值小于20万的用户,但通过实际分析发现,连续两个月AUM值低于20万的客户与连续三个月的相差很少,再进一步分析发现,单个月AUM值低于20万的客户与连续两个月的相关也很少,因此,在实际整理样本数据时,直接选取7月份AUM值高于20万的客户为全部样本中高端客户,并根据其8月份AUM值是否高于20万来定义其是否流失。简单来说,就是用5,6,7三个月的数据来预测8月份客户是否流失。
SPSS模型
利用SPSS clementine构建了决策树模型,考虑到流失客户占比过少,他将流失客户的数据量放大了15倍,至于如何放大,是重复还是分析现有数据特征重新生成,由clementine来做,我们不知道。
构建模型需要有建模数据和测试数据,他设置6:4的参数来分配两者比例,至于clementine如何选取数据,我们也不知道。但估计应该是各分类数据都按照6:4的比例来分配。
模型构建成功后,clementine给出了各个因素的重要度,主要有三个:5月份、7月份的AUM值,6月到7月的AUM值变化率。其它几乎可忽略,至于这几个因素如何得到,我们不知道。
模型构建成功后,clementine给出了测试数据如下:
我们关心的是流失部分的指标:
准确率为1770/14461=12.2%
上一篇:中国医科大学药理学试题