数据挖掘试题参考答案(4)
发布时间:2021-06-07
发布时间:2021-06-07
数据挖掘试题参考答案
分不开的。我们在数据挖掘模型训练的过程中, 根据实际经验来判断, 信用度划分的准确率最高达到70%左右。考虑到划分信用度的时候采用的是三个输出点, 选择的是神经网络模型。模型的训练、比较和优化的过程是数据挖掘项目中的收尾工作,就是不断调整模型参数, 观看数据结果, 对结果不断比较, 根据经验判断优化的过程。最终得出了最后的模型。 模型发布
为了使市场经营决策人员能够直观地了解用户群在各个信用度指标的分布"以
便在制定营销政策之前能够了解目标客户群的大小, 初步对即将推出的活动的
绩效有大致的了解。因此需要进行发布。针对电信可采用报表工具发布。
5.请阐述如何利用神经网络发现用户欺诈行为。
主要方式是根据以前拥有的用户欺诈数据建立用户属性、服务属性和用户消费数据与用户流失可能性关联的数学模型,找出用户属性、服务属性和用户消费数据与用户欺诈状态的关系,并给出明确的数学公式。只要知道用户属性、服务属性和用户消费数据,就可以计算出用户欺诈的可能性。计费部门可以根据得到的数学模型,随时监控用户欺诈的可能性。如果用户欺诈流失的可能性高于事先划定的限度,就可以重点高频率地检测该用户话费的使用状况,一旦发现欠费就可及时停机,从而大大减少电信企业的损失。基于严格数学计算的数据挖掘技术能够在很大程度上改变以往电信企业在成功获得用户后无法监控用户恶意欠费的状况。
收集用户的信息,包括欺诈的,没有欺诈。并对用户欺诈的和没有欺诈的用户经行分类。建立多输入,二输出(有欺诈,没有欺诈)的神经网络。利用收集到的用大部分的历史数据对神经网络经行训练,训练完毕之后,规定精度,用剩下的数据用来检验神经网络的拟合优度。当然在实际中最好是根据历史数据的累积,规定一定的时间间隔,定期对神经网络经行训练,这样能保持神经网络的学习能力和适应度。
大体的步骤:
1. 收集历史的用户信息(包括欺诈的和没有欺诈的,可按各按一半选取数据,也可按照时间中欺诈与没有欺诈的比例进行选取数据),越多多好,这样对神经网络的训练就越来越优,神经网络的。
2. 建立用户多输入(用户的属性个数),二输出的神经网络。可以是BP,也可以是别的。
3. 利用收集的数据对建立好的神经网络进行训练。
4. 对训练好的数据对神经网络经行检验。
5. 用于用户欺诈发现与预防。
参考资料:
浙江大学数据挖掘 28讲 王灿主讲
上一篇:113班班级管理机制
下一篇:多武器协同作战发射时序规划方法