第9讲 电子商务与数据挖掘
时间:2026-01-23
时间:2026-01-23
电子商务与数据挖掘
基于WEB日志的用户访问模式挖掘
数据挖掘——简短回顾(1)
什么是数据挖掘?
Jiawei Han (2000):“从大量的数据中挖掘哪些令 人感兴趣的、有用的、隐含的、先前未知的和可能 有用的模式或知识 ”。
数据挖掘——简短回顾(2)
数据挖掘的主要功能
概念/类描述: 特性化和区分
归纳,总结和对比数据的特性。
关联分析
发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出 现的条件。
分类和预测
通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。
聚类分析
将类似的数据归类到一起,形成一个新的类别进行分析。
孤立点分析
通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件 进行孤立点分析而得到结论。
趋势和演变分析
描述行为随时间变化的对象的发展规律或趋势
体系结构:典型数据挖掘系统
图形用户界面
模式评估 数据挖掘引擎
数据库或数据仓库服务器
数据清洗 数据集成 过滤
知识库
数据库
数据仓库
电子商务与数据挖掘——完美结合
在电子商务中进行成功的数据挖掘得益于:
电子商务提供海量的数据
如果一个电子商务网站平均每个小时卖出五件物品,那么它一 个月的平均点击量是160万次。
丰富的记录信息
良好的WEB站点设计将有助于获得丰富的信息
干净的数据
从电子商务站点收集的都是电子数据,无需人工输入或者是从 历史系统进行整合
研究成果容易转化
在电子商务中,很多知识发现都可以进行直接应用
投资收益容易衡量
电子商务为数据挖掘提供海量数据
“点击流”(Clickstreams)将会产生电子商务挖掘的 大量数据
Yahoo!在2000年每天被访问的页面数是10亿,如此大的访 问量将会产生巨大的Web日志(记载页面访问的情况),每 个小时产生的Web日志量就达到10GB!
即便是一个小的电子商务站点,也会在断时间内产生 进行数据挖掘所需的大量数据
计算一下,如果你的站点一个小时卖出5件物品,一个月会 有多少页面访问: 5件×24小时×30天/%2(转化率,表示访问的人中买东西 的人的比率)×9页面(平均买一件物品要访问9个页面)= 1,600,000页面
丰富的记录信息
如果你的电子商务站点设计的好,你将可以获 得各种商务的或者是用户访问的信息:
商品和商品的属性 商品的归类信息(当同时展示多种商品是,归类信 息是非常有用的) 促销信息 关于访问的信息(比如:访问计数) 关于客户额信息 (可以通过登陆/注册来获得)
“干净的数据”
信息直接从网站上提取
无需从历史系统中集成,
上一篇:近年来身体美学研究述论
下一篇:社区矫正人员执行档案