SaCa RealRec客户挖掘案例分析:中国银行客户流失(6)

时间:2025-07-11

客户挖掘案例分析,中国银行

召回率为1770/2381=74.3%

Mahout模型

利用mahout-examples-0.7-cdh5.1.0-job.jar包内的随机森林算法(决策树的一种),主要步骤如下:

1. 原始数据处理,过滤原始数据中数据不全的用户,并按照可设置的比例分配建模数据和测试数据,由于流失用户数据过少,在建模数据中按照可设置的倍数复制该部分用户的数据。(该部分处理自己写程序实现)

2. 设置参数构建模型。流失客户召回率最高时的参数为

a) 建模测试数据比为9:1,流失客户数据放大倍数为20

b) 随机森林模型参数-p -sl 4 -t 40 -ms 50,其中

–p Optional, use the Partial Data implementation

–sl 每次随机选择属性的个数

–t 决策树的个数

–ms 树分枝上样本的个数的最小值

调整参数的过程中,流失客户的准确率和召回率变化情况如下

3. 编写程序用于实际处理。该部分本想直接在内存中加载模型进行预测,结果API没调用成功,用了另一种方式。即,将预测数据加上类别标签,当作建模过程中的测试数据,相当于又做了一次“测试”,程序会将各个客户的预测类型输出到HDFS上。

SaCa RealRec客户挖掘案例分析:中国银行客户流失(6).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219