原Google架构师王璞:谷歌是这样做运维的

引言 SRE是Site Reliability Engineer的简称,从名字可以看出Google的SRE不只是做Operation方面的工作,更多是保障整个Google服务的稳定性。SRE不接触底层硬件如服务器,这也是高逼格的由来. Google 数据中心的硬件层面的维护工作是交给technician来做的,technician一般不需要有大学学历。 SWE是SoftWare Egineer的简称,即软件工程师(负责软件服务的开发、测试、发布)。SWE更新的程序代码(下文称为server),只有在SRE同意后才能上线发布。因此,SRE在Google工程师团队中地位非常高!我们下面将分别介绍。 SRE 职责 SRE在Google不负责某个服务的上线、 »

集群管理与公司管理对互联网公司一样重要

业务高速发展的互联网公司大都高度依赖数据中心,因为互联网公司的整个业务系统都由数据中心支撑,如果数据中心的服务器集群不稳定,不能承载业务负载,势必影响业务的发展。比如前段时间很火的一款应用,足记。在足记最火的时候,其用户量在一周之内从8万变成120万,并且连续一周多稳居苹果Appstore下载榜第一名。但是,当时足记的服务器集群扩容的速度跟不上用户增加的速度时,随之而来的就是用户在使用过程中遇到不断闪退等诸多问题,极大地影响用户体验,造成大量用户流失。数据中心的服务器集群管理问题已经成为各家互联网公司业务发展的瓶颈之一,本文就用通俗的语言描述下集群管理涉及的各种问题。 集群管理和公司管理一样是个复杂而重要的活 集群管理可以跟公司管理做类比,管理服务器就像管人。大公司的业务繁多,工作量很大,往往需要雇佣很多员工。每个员工虽然工作能力有限,处理的工作量有限,但是通过对员工进行有效的组织管理, »