SRE实践与思考

会议室:光大8
出品人:李文韬

SRE是谷歌提出的实践,旨在保障互联网服务的稳定性和性能,本专题将重点探讨企业在... 展开 >

专题出品人:李文韬

eBay Manager of Site Reliability Engineering

李文韬,“SRE实践与思考”专场出品人,Manager of Site Reliability Engineering in eBay,目前在 eBay 带领团队负责全球网站的可靠性工程实践。在SRE和基础架构运维上,有十年以上的工作经验。所负责的运维项目和平台,支持了 eBay 内部好几代产品和架构的更替。两年前,开始主导在中国卓越中心组建团队,在全球范围内实践网站可靠性工程。侧重于结合传统决策系统和人工智能,深入挖掘应用特性来构建平台,预防和解决大型复杂分布式系统的可靠性问题。

专题出品人:李文韬

eBay Manager of Site Reliability Engineering

李文韬,“SRE实践与思考”专场出品人,Manager of Site Reliability Engineering in eBay,目前在 eBay 带领团队负责全球网站的可靠性工程实践。在SRE和基础架构运维上,有十年以上的工作经验。所负责的运维项目和平台,支持了 eBay 内部好几代产品和架构的更替。两年前,开始主导在中国卓越中心组建团队,在全球范围内实践网站可靠性工程。侧重于结合传统决策系统和人工智能,深入挖掘应用特性来构建平台,预防和解决大型复杂分布式系统的可靠性问题。

地点:光大8

专题:SRE实践与思考

SRE是谷歌提出的实践,旨在保障互联网服务的稳定性和性能,本专题将重点探讨企业在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践。

by 朱伟

新浪微博广告SRE团队技术负责人,高级产品运维工程师
支撑百亿请求的微博广告运维技术实践

随着微博广告业务的迅速发展,相关的监控报警、自动化运维等基数设施也越来越重要。无论是代码的快速迭代,还是故障的迅速定位,我们都需要通过运维体系的建设去不断提高我们的效率,去优化我们的系统,而带给我们的就是系统可用性的提高以及服务质量的保证,从而避免广告收入的损失。

本次分享将为大家带来微博广告SRE体系的建设之路,以及在微博广告复杂的业务场景下,我们在监控报警、自动化、服务治理等方面遇到的困难以及解决方案。

主要内容:

1. 运维在广告体系中的价值
- 运维体系发展阶段
- SRE在微博广告中的价值

2. 海量指标监控平台Oops实践
- 自动化采集
- 配置化清洗
- 实时指标仓库
- 指标可视化

3. 复杂业务场景下的SRE建设之路
- 服务治理
- 有效的报警
- 全链路Trace系统
- 自动化运维平台Kunkka揭秘

听众收益

1. 如何在我们的业务中体现SRE的价值;
2. 复杂业务场景下如何提高系统可用性,减少收入损失;
2. 海量监控指标下,如何基于开源组件快速构建一个监控平台。

by 李号双

eBay 主管工程师
eBay付款系统的可靠性实践

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

eBay作为电商先驱,2017年总商品交易额达884亿美元, 付款系统的可靠性和高可用至关重要,eBay目前支持信用卡借记卡支付和第三方的Paypal支付,将来还会支持Adyen,这些外部服务的可靠性也直接或间接影响eBay用户的付款体验,另外硬件基础设施,操作系统,JVM以及应用本身架构和代码质量等都会影响整个付款系统的可靠性。

 

本演讲从客户的角度出发,使用FCI(失败的用户交互数)这个指标来衡量系统的可靠性,围绕如何FCI的定义,如何收集FCI数据,如何可视化FCI,以及如何减少FCI,最终达到减少损失等话题来探讨和展开。

主要内容:

  • eBay付款系统总体介绍
  • FCI的定义
  • 为什么用FCI来衡量系统的可靠性和稳定性
    • 考虑客户体验
    • 与电商收入和损失直接关联
    • 有明确责任人,方便问责
    • 有明确修复目标,可执行性强
    • 可实时监控修复效果
  • FCI的技术实现
    • FCI的收集 - Kafka
    • FCI的处理和存储 - Elastic Search
    • FCI的可视化和仪表盘 - Grafana
  • FCI修复实例分析
    • 超时的合理设置
    • 同步重试与异步重试
  • FCI修复带来的收益

听众受益:

  1. 学习电商付款系统的总体架构;
  2. 学习如何运用FCI准确衡量付款系统的可靠性;
  3. 学习如何收集,存储,分析和可视化FCI;
  4. 学习如何修复FCI并减少电商的损失。

by 林天智

七牛存储&直播运维 负责人
七牛存储运维实践

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00
  1. 七牛原本的告警系统是通过zabbix来触发,然后有一个人工告警通知的团队来通知各个业务线告警,再由各自的运维团队处理告警。这个在规模小的时候没有问题,但是在机器规模变大的时候会遇到很多问题,告警数量爆增,信息流单项无法确认,缺乏历史记录等。需要针对这个来做改造,但是过程中会遇到大量告警如何迁移,如何保证不影响当前的正常工作等,中间运用到一些开源服务比如prometheus,pushgateway,node_exporter等,以及一些自己开发的系统。最终存储运维相关的故障减少80%以上,以及不需要人工告警团队再继续通知。
  2. 资源利用以及集群复制。当前存储的部署是基于物理机部署,对于资源利用很不充分,也不利于集群的复制(私有云),会从这些角度讲如何从物理集群迁移到容器集群。

主要内容:

  1. 监控数据搜集;
  2. 告警收敛;
  3. 告警后续处理;
  4. 容器化方案。

听众受益:

  1. 灵活运用开源组件;
  2. 如何自动化的思路,避免无意义的工作;
  3. 容器化的思路。
本网站图片存储由七牛云独家支持