运维达尔文:SRE的自动化演进

本文是数人云CTO肖德时在GitChat进行的分享,当时正值GitLab数据库丢失事件,正好讲讲一次事故引发的SRE思考话题。提醒大家除了请勿疲劳驾驶之外,也要学习SRE相关的知识哦!(文末有数人云在上海“告别人肉运维”Meetup,欢迎报名。) 本次分享内容包括: 1.自动化系统对 SRE 的价值; 2.自动化系统演进的历程; 3.国外互联网企业 SRE 自动化应用案例; 4.国内运维领域自动化实践。 什么是 SRE ? SRE是Site Reliability »

SRE:文化传奇不完全指南?

数人云推出SRE系列译文,为大家带来国外SRE的深刻解读与实践。本文基于作者组建相应SRE组织总结出来的经验,提供了大家开始SRE之旅之前需要思考的各方面问题。 SRE最近已成为许多公司间一个热门讨论的话题。什么是SRE?谁是SRE?我们如何实现?对于这个话题我当然也有自己的一些观点。但是大部分观点都有一个共同点,SRE不仅是工具和技术,它更是在企业内部的一种文化转变。现在,作为一个免责声明我想说以下的内容只是基于我自己组建相应组织的一些经验,以及通过和其他一些已经实施或正在实施SRE的组织交流而总结出来的。建立SRE体系没有一个统一的处方,每个企业都会找到适合自身组织体系和运营模式的方法。仅仅因为这是一种流行趋势而强迫引入这种文化绝非一种正确的态度,这些都要取决于企业自身。 定义 在这篇文章中,会使用到一些不同的术语。将它们统一提出这样大家在阅读的时候就不用再去查询这些术语。定义非常简短,后面会深入阐述。 SRE- »

SRE第一课:New to an SRE team?

数人云推出SRE系列译文, 为大家带来国外SRE的深刻解读与实践。 今天的文章从一个SRE新人的角度出发, 为大家详细列出SRE进阶的四个阶段,在准确定位的情况下,指引大家更好地在公司推行SRE。 本文将与大家分享一些新加入SRE团队时应该考虑的问题。无论你是刚加入一个SRE团队的新人,亦或是公司的第一位SRE(Ops/Techops/DevOps)。笔者也曾经历过这个阶段,并尝试了很多方法去理解公司SRE当时的情况以及确定下一步行动的方向。 我把它分成了几个阶段。大家可以整体来看或者在对应的时间看自己符合的那一部分,然后对它们更加了解。如果立刻照此执行,那么将对你在新公司取得成功有所帮助。这些条目处于一个较高层级,我们可以把它们更加细分。想法从这里开始,由你的好奇心决定深入执行的程度。然而,不要在兔子洞掉得太深……可能会迷路哦。 »

实录问答 | SRE是如何炼成的

2017年2月7日晚上8点30分,数人云CTO肖德时为大家带来了主题为“运维达尔文:SRE的自动化演进”的交流。 本文转自GitChat的交流实录,由主持人Jacty整理。 SRE方法论 问:SRE和DevOps有什么区别? 答: 这个问题其实出现过很多次,之所有此一问,必然是两者之间有很多共同点。确实,DevOps和SRE都重视自动化,拒绝手工劳动,利用软件工程手段执行运维任务等等。我们可以认为DevOps是SRE核心理念的普适版,可以用于更广范围内的组织结构、管理结构和人员安排,SRE可以看做是DevOps模型在某种组织结构中的具体实践。DevOps 一般多指一个工作方式或者流程,DevOps 的定义中就包括 »