数据挖掘试题参考答案(3)

发布时间:2021-06-07

数据挖掘试题参考答案

人员配合市场推出的各项优惠政策( 尤其是存话费、赠话费等) , 细分市场, 使该类优惠政策达到最好的效果。 通过对客户信用度的划分, 使决策人员能够清晰地看到,了解本网用户的信用度构成, 使其在制定、研究营销政策的时候做到心中有数。 数据的收集和抽取 数据收集和抽取的过程就是要理解、熟悉客户数据, 能够将商业理解转化为对数据的理解, 从而有针对性的开展数据挖掘。具体包括如下过程: 2.1数据源描述 对电信客户信用度的评估, 主要使用到数据源主要包括:行为数据、客户属性数据。具体到业务层面包含的信息有:客户的档案、身份信息、年龄、性别、历史欠费情况、往月的帐务消费情况等。 2.2数据质量描述 对获取的各变量进行分析探索, 选取可使用的关键变量(如年龄、话费等),可使用图形来展示这些关键的字段的分布。 数据准备

电信客户的用户群很大,且业务繁杂,拥有多个业务系统,各个系统对于参数

的定义和归类也是不尽相同的, 统一、整合各个系统中的信息, 使之能够达到参

数一致化, 能够满足挖掘目标的要求, 需要处理的数据量也是非常巨大的, 具

体处理步骤如下:

3.1数据的整合

3.2清洗数据

3.3构建数据

3.4选择数据

3.5确定训练集和结果集

建立挖掘模型

信用度挖掘变量很多, 数据结构也比较复杂,目前对于其研究也很多,而最常

用的挖掘方法为神经元网络和 C5.0 决策树两种算法。

建模之前, 我们需要对训练集的数据做修改: 即在训练集数据中加入结果字段,

供训练模型使用,我们首先根据业务需求人为划定信用度档次, 初步将信用度

划分为3个层次: 欠费回收情况、月均加权区内消费、区内消费变异系数。

经过以上三轮信用度划分, 可以划分结果为 AAA-EEE。

欠费回收情况首先反映了信用度的主要方面, 如果一个用户欠3个月以上才能

缴费或者不能缴费, 这样的用户对于电信公司来讲, 信用度应该是最差的"反之, 未发生欠费的用户信用度应该是最高的;

划分的第二个指标之所以选择了区内通话费, 是因为: 在用户消费过程中, 长

途等消费每个月的波动是比较大的, 我们在进行划分档次的时候应该尽量选择

比较平稳的指标, 所以本文选择了区内通话费,为了剔出1个月区内话费可能的

突高情况带来的噪声, 采用了近6个月区内消费金额的加权平均数。

划分的第三个指标采用了区内消费的变异系数, 反映了月 区内消费的波动情

况, 即: 越稳定的用户信用级别越高, 反之, 波动比较大的用户级别低。

而后根据两个算法进行建模分析。

模型选择

模型的选择和实际业务的需求密切相关, 和数据挖掘人员对业务逻辑的掌握是

数据挖掘试题参考答案(3).doc 将本文的Word文档下载到电脑

精彩图片

热门精选

大家正在看

× 游客快捷下载通道(下载后可以自由复制和排版)

限时特价:7 元/份 原价:20元

支付方式:

开通VIP包月会员 特价:29元/月

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信:fanwen365 QQ:370150219