SaCa RealRec客户挖掘案例分析:中国银行客户流失(6)
时间:2025-07-11
时间:2025-07-11
客户挖掘案例分析,中国银行
召回率为1770/2381=74.3%
Mahout模型
利用mahout-examples-0.7-cdh5.1.0-job.jar包内的随机森林算法(决策树的一种),主要步骤如下:
1. 原始数据处理,过滤原始数据中数据不全的用户,并按照可设置的比例分配建模数据和测试数据,由于流失用户数据过少,在建模数据中按照可设置的倍数复制该部分用户的数据。(该部分处理自己写程序实现)
2. 设置参数构建模型。流失客户召回率最高时的参数为
a) 建模测试数据比为9:1,流失客户数据放大倍数为20
b) 随机森林模型参数-p -sl 4 -t 40 -ms 50,其中
–p Optional, use the Partial Data implementation
–sl 每次随机选择属性的个数
–t 决策树的个数
–ms 树分枝上样本的个数的最小值
调整参数的过程中,流失客户的准确率和召回率变化情况如下
3. 编写程序用于实际处理。该部分本想直接在内存中加载模型进行预测,结果API没调用成功,用了另一种方式。即,将预测数据加上类别标签,当作建模过程中的测试数据,相当于又做了一次“测试”,程序会将各个客户的预测类型输出到HDFS上。
上一篇:中国医科大学药理学试题