概述:
此分享是关于海量日志分析系统实践的汇总
汇总点:
基于MySql; 分析指标有,Hits、带宽、UIP(独立用户IP)、下载速度、下载时长、响应时间、受访URL、受访域名、来路URL、来路域名、全国用户分布统计、运营商分布统计、受访文件大小、文件类型、Squid命中率、请求响应类型、异常用户统计; 海量数据,写多读少; 节点包括:A(Agent) 、B(Bee) 、D(Data) 、M(Manger) 、R(Relay) ; 采集节点利用Rsync实现推送日志到B点; 运算节点根据需求分析日志并推送到D点; R节点保障数据传输的速度及效率,减少网络问题导致的数据阻塞及不完整性; D节点负责将接收到的sql文本入库; 表细分汇总包括m_表、h_表、d_表等; 展示节点基于web数据库访问层基于Amoeba; 管理节点掌握各大节点的系统运行状况,资源使用情况; D节点中采用热数据来缓解DB的压力; 在MyISAM表中尽量使用定长类型; 将IP字段存储为整形; 使用merge表,对于过期的只读表进行myisampack,使用enum 使PROCEDURE ANALYSE() ,根据业务需求将产品线及时间建立联合索引; Mysql架构优化包括增加节点、分库分表、将m,h,d表的索引文件及数据文件分布到不同磁盘、将数据库指向不同的磁盘、禁止系统更新文件的atime属性; 使用tmpfs作cache磁盘(ramdisk); 采用infobright版; 基于mysqlnd做性能测试; 基于Memcache多级缓存;
技术:
Gearman 用于分布式节点的管理; Memcached 缓存数据; Amoeba 展示层数据库代理; INFOBRIGHT的ICE版;
更多详情参见附件
相关推荐
EFLK海量日志实时分析检索系统应用实践课件
NULL 博文链接:https://snv.iteye.com/blog/1912987
基于 ELK+Filebeat+Kafka+ZooKeeper的海量日志分析平台
百度海量日志分析架构及处理经验分享.pdf 希望对大家有所帮助
基于MySql的海量日志分析系统设计 主要内容: 日志分析系统查询需求分析 访问特点分析 基于性能考虑的系统体系架构 基于需求的mysql优化及表设计 基于需求的memcache使用 其他开源工具的使用 总结
针对传统分布式模型在海量日志并行处理时的可扩展性和并行程序编写困难的问题, 提出了基于Hive的Web海量搜索日志分析机制。利用HQL语言以及Hadoop分布式文件系统(HDFS)和MapReduce编程模式对海量搜索日志进行分析...
百度海量日志分析架构及处理经验分享,对海量互联网技术进行了介绍与说明
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可...
20th.陈晓鸣-百度海量日志分析架构及处理经验分享[1].pdf
海量日志的分析
智通运维及海量日志分析
分享一套视频教程,名字叫:构建ELK海量日志分析平台视频教程,2019年录制,内容还挺新,讲得也很棒,值得学习!!
其中上篇介绍了HDFS以及流式数据/日志的问题,同时还谈到了Flume是如何解决这些问题的。本书展示了Flume的架构,包括将数据移动到数据库中以及从数据库中获取数据、NoSQL数据存储和性能调优。对于各个架构组件(源、...
百度海量日志分析架构,读一读,增长技术认知。。。。
海量系统日志采集解析实践.pdf
海量系统日志采集解析实践.pptx
通过数据生命周期管理、结构化与非结构化融合、元数据管理等手段,设计了基于DW2.0的海量数据处理、分析系统架构,以解决传统数据仓库在数据存储、数据处理、数据展现能力等方面存在的问题,提升企业数据仓库系统的...
20th.陈晓明-百度海量日志分析架构及处理经验分享.pdf
flume:构建高可用、可扩展的海量日志采集系统 flume:构建高可用、可扩展的海量日志采集系统
Flume++构建高可用、可扩展的海量日志采集系统 Flume++构建高可用、可扩展的海量日志采集系统