基于Spark的用户上网WAP日志分析_龚静

时间：2026-04-29

DOI:10.3969/j.issn.1006-6403.2015.01.004

基于Spark的用户上网WAP日志分析[龚静]

摘要

在移动互联网时代，越来越活跃的用户手机上网行为带来了流量的迅猛发展。对电信运营商而言，用户上网日志包含了大量用户个性化需求、喜好信息，对其进行分析和挖掘，能更好的了解客户需求。传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求，搭建基于 X86的 Hadoop平台，引入大数据处理技术的方式，实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择。文章主要以用户 WAP日志为例，详细阐述如何利用大数据技术处理海量的非结构化数据，进而挖掘和分析用户上网行为。

关键词：大数据分布式 Hadoop Spark通信热点

龚静中国移动通信集团南方基地IT工程师，主要研究方向为业务支撑系统中的大数据应用。

引言随着4G时代的来临、智能终端的普及、移动互联业务

WAP日志作为新型数据源引入经营分析系统，使其越来越具备大数据平台的特征，主要包括如下： (1)数据规模方面：WAP日志的条数和数据量已经超过了语音详单，且还处在不断增长的趋势。 (2)数据类型方面：从结构化数据，过渡到结构化数据和互联网网页、上网日志等非结构化数据和半结构化数据共存。 (3)对数据的使用方面：不仅有批量的数据加工和前台界面的访问，临时统计、数据挖掘等访问需求也逐步增多。对历史明细数据的访问增多。对数据访问的及时性增强。传统数据仓库基础架构[2]难以满足海量、多样化数据以及高速响应的需求。传统IT系统采用Scale-up设计路线，扩展性较弱，难以处理海量数据；小型机 Unix系统

1.1移动互联网时代引入上网日志分析的快速发展，用户手机上网行为越来越活跃，流量收入在运营商的收入中的占比逐年增多。依靠传统CDR话单分析已无法全面把握用户需求，从海量的日志数据中挖掘用户需求来迎合市场的发展，成为运营商需要迫切解决的问题。 WAP[1]日志中蕴含着大量的用户上网行为信息，包含了用户爱好、需求，可以更好的理解业务价值、客户价值，促进精细化营销，制定相应策略与控制。从而降低流量成本和提升流量收入，促进流量业务发展。

1.2引入大数据技术处理非结构化数据 16

基于Spark的用户上网WAP日志分析

的封闭性导致系统扩容时难以利旧，且拥有成本高[3]。为此，我们引入了大数据技术。

所存储的块 (block)的列表。 HDFS采用可扩展的系统结构，利用多台服务器并行计算，提供高吞吐量的应用程序数据访问，它不但提高了系统的可靠

性、可用性和存取

需求分析(1)数据源：用户上网WAP日志，每天200G。 (2)数据处理需求：①数据存储前客户隐私数据加密；② ETL处理；③用户上网时间特征分析；④热门网站分析；⑤用户内容偏好分析；⑥热点内容跟踪；⑦热点搜索内容分析；⑧访问内容分类流量监控。

效率，还易于扩展。

2.1主要业务需求

图1分布式存储系统构成元素 Map/Reduce是Google发明的一种编程模型。用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理，生成一系列新的键/值对作为中间结果；shffle过程将同属于一个键( key )的值( value )组合在一起，生成键/值列表((key/list of values) pair)对；reduce函数将键/值列表对作为输入，对同属于一个键的值列表进行处理，通信热点

2.2系统能力配置(1)服务器：13台HP DL585; (2)配置：CPU cpu:2*4核;内存32G;硬盘4T;千兆电口4个。

方案选择为了应对大数据时代业务需求的挑战，行业内涌现[4]

生成最终处理结果输出。 Spark是由UC伯克利大学的AMPLab发起构建的一个开源的用于数据分析的分布式并行计算框架，其核心是弹性分布式数据集RDD[9],RDD可以Cache到内存中，每次对RDD数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了MapReduce大量的磁盘IO操作。Spark除拥有Hadoop MapReduce所具有的优点之外，还提供了更加丰富的模型，可以快速在内存中对数据集进行多次迭代，以支持复杂的数据挖掘算法和图形计算[10-17]。

出大量的大数据技术及解决方案。主要包括 HDFS、 Map/Reduce[5]、Spark[6]等。一个HDFS集群由元数据节点(NameNode[7])、多个数据节(DataNode[8])点、客户端(Client)构成。数据被分割成特定大小的块存储其中。 Namenode用来维护文件系统所有的元数据，包括名字空间、访问控制信息、从文件到块的映射以及块的当前位置。 Datanode根据 Client或者是 Namenode的调度存储和检索数据，并且定期向 Namenode发送他们注：

2015.01.广东通信技术

通信热点

系统整体的体系架构，如图4。

4.1数据采集层数据采集：主要功能是通过 FTP方式，采集 WAP网关服务器上的数据文件和消息到接口服务器的内存中。每一分钟进行一次采集，并保留一周存储时间。然后将按照校验规则对采集到的数据做文件数据内容校验，并按协议做目标文件输出的分类、最后将小文件合并成大文件输出文件，消息缓存输出。处理完成后，推送到 Hadoop集群上。

图2 Map/Reduce运行环境

通信热点

图5数据预处理

逻辑 …… 此处隐藏：4887字，全部文档内容请下载后查看。喜欢就下载吧 ……

基于Spark的用户上网WAP日志分析_龚静.doc 将本文的Word文档下载到电脑

下载这篇word文档

上一篇：2004年咨询工程师考试工程项目组织与管理真题

下一篇：RHEL6_Oracle+11g+R2