淘宝量子统计架构设计中的核心点

时间:2025-07-05

量子统计架构设计淘宝-张茂森

Agenda 量子统计面临的挑战 量子统计架构设计 量子统计的技术研究方向

挑战 成本 高并发数据分析网站的C10K问题 关系型数据库和实时数据计算结果的异构融合 复杂的数据查询接口逻辑和开发效率、查询效率、和正确性 分布式计算和任务管理

一组数据 实时计算处理数据3T/日离线分布式计算处理数据超过20T/日数据接口请求7500w/日网站资源请求9000w/日实时结果请求1700w/日服务超过百万的淘宝卖家

小结 电子商务类的数据处理、计算、分析目前没有“银弹” 整合、整合再整合

量子统计架构示意图网站展现

数据中间层分布式计算实时计算

数据流向基于Ajax的JS前端基于Nginx的数据中间层展现数据库集群实时计算和查询引擎

基于Hadoop的分布式数据仓库

量子Javascript前端 把计算推向客户Browser 利用Ajax技术提升用户体验 模块化的产品形式–展现组件化和控制逻辑分离随着Html5的到来,IE6的老去 Javascript将大放异彩

量子数据中间层 信条:非阻塞、持续优化 核心:Nginx和量子贡献的扩展模块––––非阻塞缓存非阻塞数据库访问实时引擎访问接口单元测试

异构数据的融合– LZSQL 将异构查询透明 将数据库结果和实时引擎结果进行融合 进行针对业务级的SQL优化

Lua作为粘合剂–解决非阻塞程序编写困难–提升数据二次处理能力

相对稳定的专职开发人员 关系型数据库优化技能的持续培养

实时流计算框架SuperMario 纠结– C++、JAVA、Erlang、 Go

选择– Erlang+ZooKeeper

保持简单,先解决:–低延迟、高可靠性–异构数据任务的快速串联

下一步:–封装更复杂的流模型–热迁移

实时计算、查询引擎 成本是梦魇– MySQL方案将是现在所需服务器的5-7倍– Postgresql也差不多–很多NoSQL产品的性能只是传说

选择– B tree+ Sorted list+ Hash的计算引擎,尽可能的优化内存消耗–利用Epoll实现简单查询模型

下一步方向–使用混合存储方案:Memory+Disk,进一步降低成本并提升可靠性

离线分布式计算和任务调度管理 Hadoop集群–原生Map-Reduce代码– Hive代码– Hadoop streaming代码

任务调度–构建任务依赖关系、加入优先级控制,多种时间粒度的任务调度–统一进行任务的调度–高可靠性,监控、报警、自动恢复/重启是关键

cronjob

雅虎 Octopus

淘宝天网

数据生产链的困境–任务依赖要和任务优先级、稳定性要求统筹考虑–数据正确性怎么校验–构造基于经验的检验

规则–数据结果间的四则运算关系–日任务数800个

数据分析网站的运维 别人负载高的时候,我们也高:因为实时计算 别人负载低的时候,我们也高:因为离线计算 运维的压力会是制约一个数据团队发展的重要因素–一定要重视运维,用开放的心态将专职运维人员加入进来–数据计算代码要可重入,去掉状态依赖–上下游依赖要理顺,并建立应急处理手册–重视开发人员中偏运维职能人员培养和提升

量子的技术研究方向 多维数据分析–将昂贵的数据分析技术分享给更多的用户–实时滑动窗口的多维分析–海量数据的多维分析

数据可视化–教育和培养用户解读数据–更直观的展现数据的价值

NoSQL产品在实时计算中的应用–解决K-V服务扩展性的难题–解决数据实时转换的难题–量子和OceanBase的合作

Thanks

Q&A

淘宝量子统计架构设计中的核心点.doc 将本文的Word文档下载到电脑

    精彩图片

    热门精选

    大家正在看

    × 游客快捷下载通道(下载后可以自由复制和排版)

    限时特价:7 元/份 原价:20元

    支付方式:

    开通VIP包月会员 特价:29元/月

    注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
    微信:fanwen365 QQ:370150219