数人云走进高校,畅谈Google SRE管理数据中心之道

2月18日,数人云CEO王璞走进上海华东师范大学,在湾区同学技术沙龙 (TechM Shanghai)上分享Google SRE管理数据中心之道。

Google拥有上百个数据中心,数百万台服务器,资源管理对于Google如此庞大规模的数据中心来说是重中之重。Google数据中心的资源主要由SRE团队来管理,SRE团队为数据中心的资源利用率负责。王璞表示,除了保证网站的稳定性,Google SRE的职责涵盖了整个公司的IT管理,既包括开发、测试、生产环境的规约,也包括硬件管理等等。

源于Google的SRE理念有助于解决传统运维模式上的问题,是谷歌生产系统的运维管理方法论,揭示了谷歌如何能够持续不断建设、部署世界级的工程项目,同时保持世界一流的可靠性标准。SRE团队分为两个部分,Borg SRE和App SRE。Borg SRE专职维护Borg系统(Borg是Google内部的应用管理和资源分配平台),给Google各个内外部业务系统分配资源,每个重要的业务部门有相应的资源配额;App SRE负责不同内外部业务系统的稳定性和性能,业务部门的App SRE把各自业务系统的资源再分配给系统内相应的应用。谷歌SRE全球共计约1000人,负责运维谷歌大部分商业应用,以及幕后首屈一指的计算基础设施,从百万台级别的服务器集群到全球一流的网络架构,背后都有SRE的身影。

王璞指出,企业数字化转型需要IT的精益化运营。为了提高数据中心资源利用率,SRE对数据中心的资源进行超卖,并对不同的业务应用分配不同的优先级,高优先级的应用可以抢占低优先级应用的资源,应用的优先级需要根据业务应用的重要性来判定。数人云轻量级PaaS借鉴Google SRE的DevOps实践经验,通过调度器实现应用的全生命周期管理,帮助企业管理海量监控、日志等产生的各类数据,自动分配应用资源、对业务运行状况进行自动分析。

DevOps是当下一个非常热的概念,它将整个开发流程的界限打通,使产品深入到研发的内部,使开发团队与运营团队之间形成更具协作性、更高效的关系。SRE是DevOps理念在运维领域的具体实现。目前,国外很多互联网企业都在深入实践SRE理念,国内也有越来越多的企业开始关注SRE如何在整个生命周期为项目提供持续性支持。SRE试图平衡服务不可用以及产品快速创新、提高运维效率之间的风险,用软件工程师的方法和手段解决运维的难题。数人云通过持续传播SRE核心理念,打造助力企业DevOps落地的最轻量级PaaS平台,帮助提升企业IT工业化程度。

关于数人云

数人云创始团队来自谷歌、红帽和惠普,在今年3月初公司完成A轮融资,由云启资本领投,思科、策源以及唯猎跟投。作为领先的云计算创新技术实践者,数人云致力于为客户提供领先的企业级容器解决方案,帮助传统企业实现IT业务转型,更好地应对业务变化。数人云重点聚焦于打造轻量级PaaS平台,使用户能够在云主机、虚拟机甚至物理机上快速建立并稳定运行一个高扩展性的生产环境,将应用弹性做到极致。数人云操作系统基于领先的容器技术,实现了一站式的微服务架构集群系统,最大化地帮助客户实现应用业务在云端的快速部署,解决应用上云的最后一公里。