0

谷歌的SRE和开发是如何合作的 - charlieroro

 2 years ago
source link: https://www.cnblogs.com/charlieroro/p/16501260.html
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
neoserver,ios ssh client

谷歌的SRE和开发是如何合作的

本文是一篇比较有价值的、介绍SRE的文章。国内的所谓SRE职责其实并不明确,大部分其实还是干普通运维的事。但文中介绍的谷歌的运作方式起点还是相对比较高的,无论对SRE、对开发,甚至对公司都有很高的要求。正如本文所述,谷歌的方式并不一定适合其他公司,但其SRE的建设经验仍然能够带来一定的启发。在阅读本文的时候,我是比较好奇谷歌是如何解决SRE和开发相互推诿的问题的。

译自:How Google SRE And Developers Collaborate

谷歌的SRE是一个专业的工程师组织,致力于设计、构建和维护大型产品服务。SRE可以是软件工程师或系统工程师,但通常会同时具备这两种技能。

谷歌的SRE的任务是:

  • 保证谷歌的产品和基础设施能够满足可用性目标
  • 根据(1),最大化长期特征速度(feature velocity,用于评估新特性的发布速度,参见Feature velocity and Serverless)
  • 使用软件而非人力来完成(1)和(2)
  • 当SRE处理(1)和(3)的效率高于开发时,SRE才会参与其中

可靠性和速度并不是互斥的,通常速度可以受益于可靠性的提升,反之亦然。然而,在产品或服务未达到期望的SLO前,(当需要在可靠性和速度之间进行权衡时)SRE会优先考虑稳定性,而非速度。如果没有达到SLO,此时产品的可靠性要比特征速度更加重要。当产品满足SLO后,以牺牲特征速度为代价来换取额外的可靠性则会适得其反。相比采用粗暴的方式来满足目标,SRE会采用工程和自动化方式(而非人力)来优化运维流程。

SLO是一个很好的判定何时该关注可靠性,何时改关注发布速度的标准。的确,如果产品服务已经达到SLO,那么继续提升像性能、可靠性等标准可能会对产品的发布造成很大影响。

作为一个专家团队,(产品开发团队,以下简称Dev对)谷歌SRE有着很高的需求量;SRE能够带来额外的价值的机会很多。在很多场景下,SRE可能会被放大。但如何某个问题可以被Dev组织解决,那么雇佣一个Dev而非SRE反而是一种更灵活的方式,可以减少跨组织带来的开销。引入SRE的最终的目标是使用足够的SRE来最大化影响和开销的比率(即提高性价比)。谷歌的SRE不应该作为其他公司实现SRE的蓝图,但可以作为研究案例。每个组织都是独特的,其需求和目标可能与谷歌不尽相同。但谷歌过去20年的实践经验提供了许多教训,可以帮助其他公司加速其SRE进程。

谷歌的SRE并不是静态的,它是持续演进的,谷歌的不同部门会根据需要采用不同的模型。与很多组织不同,谷歌的SRE是一个中心化的团队。SRE从最初的寥寥数人,目前已经发展为拥有近千人的团队。如下图所示,SRE团队专于特定产品领域(PA),并与该PA中的开发人员密切合作。SRE PAs的数目是可变的,可能会包含近百个SRE。SRE PAs由Dev伙伴组织提供资助,并在每个组织层面与之合作。一个SRE PA通常要比Dev伙伴组织小一个数量级,但比率可能相差很大。大多数SRE团队都有两个工作点,每个点有6到8个SRE,时区差为5到9个小时,以实on-call轮换。

可以看到谷歌的SRE是一个中心化的独立组织,更像是一个项目人力资源池。SRE和Dev会签订合作条约,规定合作范围和内容,以及合作目标,并由Dev提供资金支持。

这种组织架构看起来更有点像甲乙方的关系。对于大多数公司来说其实并不适合,主要有以下几个方面的考量:

  • SRE进入Dev其实也是有成本的,需要学习了解Dev的产品和服务功能。
  • 跨团队运作存在沟通成本、职责明确等问题
  • 如果公司没有足够的业务资助SRE团队,有可能SRE团队优先会成为某些情况下的成本优化对象。

当然好处也是有的,就是更灵活,也让SRE更加纯粹,避免在项目结束之后变为业务运维之类的角色。

image

SRE的工作是基于合作(engatement)的,与Dev同步展开。一个合作会同时涉及到两方,通常会围绕特定的服务或产品。大多数情况下,SRE和Dev之间的合作就是为了提升稳定性、基础设施以及针对特定产品系统的运维而建立的伙伴关系。其他合作可则能会关注产品的端到端用户体验或某个水平架构主题。任何一种合作都可能会跨多个产品系统。一个典型的SRE团队会与系统开发范围内的Dev团队保持一系列合作。

合作模型是谷歌SRE的基本观念。它描述了合作和一系列最佳实践(高效分配资源、沟通、协调以及SRE和Dev之间的协作)原则。它不是一个基于规则的静态模型,但为相关方提供了清晰的界限并设定了相互预期,并且可以轻松识别异常或降低合作度。

本章描述了合作模型的原则,下面将讨论合作类型以及如何在实践中使用它们。

合作原则是这种组织架构核心。它规定了SRE的工作范畴,避免SRE沦为测试+运维角色。

对齐SRE的使命

如前所述,SRE的使命是提高可靠性、效率以及提高谷歌产品的发布速度,保持团队的健康。这种使命应该贯穿每个合作,且每次合作都应该对这些目标产生可衡量的积极影响。

SRE是用户和用户体验的倡导者--无论是外部用户还是内部用户。事实上,可以由系统(或系统组)罗列出SRE的合作内容,但这不应该削弱SRE对用户如何感知可靠性(或缺乏可靠性)的关注。这种关注反映了强调端到端或以客户为中心、SLOs以及SRE的职责重点是关注开发合作伙伴的可靠性差距和风险,即使这些不在SRE团队的直接责任范围内。建议首先在产品层面对齐,然后再让SRE团队关注关键用户的历程(critical user journeys (CUJs))或端到端体验(即使SRE直接负责的特定领域被划定在一组(可能比较宽泛的)服务下)。

这其实是对SRE的一个高要求,总体目标是做出一个好的产品。

清晰的价值定位

SRE只应承担能够比其他任何人更有效执行的工作。将一个特定的团队添加到Dev团队中会引入额外的组织复杂度并增加孤岛风险。如果所有工作都能保证跟在Dev团队内部一样的质量和效率,那么这种方案是可行的,但在需求变更时,让所有团队更加灵活地转变工作并不是一件容易的事情。

SRE是技术娴熟的专业工程师,他们是备受追捧的人才,薪酬与开发同行相当。为了判定是否添加SRE的headcount ,一个合作应该包括具有持久价值的大量可靠性工作,而不是以on-call内容为主。否则,添加Dev的headcount则更有意义。为了深入了解哪些工程流提供了最高的价值,可以引入一定量的on-call工作。但是,给训练有素的工程师团队提供大量on-call工作可能会导致SRE团队内部的不满。由于Dev团队太小或由于Dev团队在某个单独的位置而无法覆盖其on-call的工作内容而引入SRE是错误的,这并不是证明SRE参与的充分理由。

SRE团队的工作范围应该局限于某些服务(或CUJs),并且有明确的相关性和界限。SRE不会对特定的服务负责,通常会对Dev团队的所有服务提供基础的支持。Dev和SRE领导层需要定期协商合作范围。

这一点至关重要,如果没有明确的工作范围和界限,SRE就可能被放大处理很多边界模糊的内容,沦为集多种职责于一身的角色。

由开发资助

SRE PAs接受Dev组织授予的headcount 。SRE不通过其自身的管理链接受headcount ,也不能携带未分配的headcount 。虽然Dev资助了SRE团队,但一旦转移了headcount,则由SRE负责该headcount。SRE PA负责人有义务与资助的Dev伙伴进行协商,以便能高效、有效地使用该headcount。如果无法通过SRE工作提供比Dev伙伴更有价值的工作,则需要将该headcount返回给Dev组织。

资助应该是长期的。因为过程中会花费比较长的时间来招聘SREs,并让其在SREs岗位上就职。出于这种原因,谷歌SRE计划在两年或两年以上的时间范围内为headcount 提供资金,并且不将资金与短期、有时间限制的活动挂钩。员工人数的波动将导致效率低下,并且无法让SRE团队深度参与到产品中。

SRE和Dev领导会审视合作的资助程度,例如按年度进行资助。过程中应该考虑合作类型是否正确以及是否降低或增加资金(如通过授予或返还headcount ,或在SRE内重新分配),最终双方达成一致。然而,SRE领导层拥有在现有headcount的限制下分配项目优先级的权利。否则,可能无法充分考虑到安排足够的合作人员等因素。

战略伙伴关系

卓越的产品是一项长期投资。合作不应该仅限于SRE PA层面。SRE PA作为一个整体,应该具有与Dev 组织相同并与之互补的战略愿景,不能仅仅进行一系列毫无联系的合作。SRE PA领导需要有SRE PA愿景,并负责与Dev组织领导优先协商任务。

每个单独的合作都是根据多年的规划建立起来的。合作有望在Dev和SRE之间建立一个共同的路线图,所开展的工作应该在SRE和Dev之间双向移动。SRE不应仅仅执行Dev交过来的任务。

应该在安排出现问题之前设定预期值。否则在胁迫下,很难达成书面协议。系统及其组件会发生变化、合并和偏差。SRE需要小心地使用产品,如果没有足够的启动时间,就不能立即支持新系统。

Dev所有权

不考虑合作的类型,服务本身以及服务的可靠性隶属于Dev团队(即便在某些形式的合作下日常生产权限属于SRE)。这意味着保障服务可靠性的责任并没有下发到SRE团队中,SRE团队的成员是专业的可靠性工程师,他们通过某种类型的合作与Dev团队建立伙伴关系,并帮助Dev团队达到可靠性目标(这反过来规定了SRE对Dev的责任)。

积极、稳健的开发人员参与是服务健康的一部分。由于SRE并不会控制headcount的分派,因此不能单独负责某个服务,历史上,当Dev合作结束之后,这些服务仍然由SRE提供服务,但通常结局都比较糟糕。因此,如果Dev团队打算减少人员配置,则还需要减少服务本身,并将剩余用户迁移到其他服务。一旦Dev不再资助,SRE的服务合作将立即结束,分配的headcount将在Dev合作结束之后返回给Dev团队。

这也是谷歌PA的一种好处,合作是有期限的,因此开发团队不会无限制地将一些事情交给SRE。一旦合作结束,SRE将不再管理该Dev团队的事务。这反过来也对Dev团队本身提出了一定要求。

联合合作伙伴关系

开始并继续与SRE进行合作是Dev和SRE双方共同协商的结果。不能强制SRE接受某个合作,Dev也不能强制资助某一方,Dev和SRE任一方都可以结束合作。

如果Dev或SRE某一方想要结束合作,那么就应该结束本次合作,并以符合上述资助原则的方式重新审查(重新部署或返回)headcount 职位。以非协商一致的方式结束合作是双方应该避免的事情。

共同的努力

SRE和Dev可以带来不同的专长:SRE注重可靠性原则、系统架构和生产最佳实践,而Dev组织通常更加擅长其业务领域。服务的成功是一种共同努力的结果。除了不同的团队担任不同的角色外,双方都有一个共同的目标。包括联合OKRs(目标和关键结果),并遵守错误预算策略(即当服务/CUJ达不到SLO时冻结特性发布)。Dev和SRE的共同目标是使用更有效的方式保证服务的SLO,因此违反SLO,对Dev和SRE 双方都是一个严重的问题。

SLOs和错误预算提升了对可靠性目标的理解,并可以以此衡量合作是否成功。这也使得SRE和Dev需要联合起来考虑如何在可靠性和特性速度之间进行权衡。冻结策略提供了一种简单的方法,可以在客户/用户信任有被破坏的危险时,调整这种平衡,使其达到可靠性。

运维和on-call责任也是一项共同努力,随着服务变得更加成熟,大部分(但不是100%)的维护责任通常由SRE承担。

SLOs是一个很好的团队粘合剂,可以让双方为同一目标而共同努力。但由于是不同的团队,SRE领导也需要对项目的SLO进行评估,避免因为不合理的SLOs或不成熟的团队导致无法达成目标。

SRE不是一个"运维团队"

SRE的使命不是处理运维工作,而是提升系统的可靠性。on-call是结束SRE的一种手段,通常这种方式提供了其他方面无法提供的宝贵见解,但on-call工作本身并没有长期价值。on-call不应该是SRE的核心工作,且单凭这一点并不能证明成立SRE团队是合理的。应该严格限制SRE的运维工作,SRE团队的苦力工作(中断,生产清理等)不应该超过50%的时间。如果超过该阈值,Dev必须负责处理额外的运维工作。这种机制保障了SRE有足够的时间来改善项目,进而降低运维压力。

Dev应该至少承担一部分运维职责。典型示例包括升级下的次级on-call轮换、非生产环境的所有权、和/或处理非关键运维工作。接触运维对于维持和培养Dev团队的生产知识至关重要。应以书面形式跟踪责任划分,以避免误解。

谷歌能够保证SRE的核心职责的一个原因也有组织架构的一部分因素在起作用。由于合作期限的约束,使得Dev团队不能将所有运维和on-call职责都交给SRE。

运维并不是零和游戏

SRE合作应该关注降低整体的运维压力,而不是将运维职责从一处转移到另一处。一个成功的合作会将运维压力降低到理想程度。Dev应该保证24/7 on-call升级路线。

SRE不应该作为生产的人类抽象层。这种方法不可扩展,加强了孤岛,破坏了关键反馈回路,并将生产复杂性转化为证明SRE存在的理由。相反,SRE应该帮助Dev更深刻地理解服务的生产特性

提升生产标准

SRE应促进使用通用生产平台和标准化基础设施。这种平台有几个优点:

  • 提供了一致的服务管理基础设置,降低了实现跨服务需求的实现成本
  • 降低生产中运营个人服务的持续成本(例如,入职时间、工程师培训时间、劳动)。
  • 总体降低支持生产中所有服务的成本;通过使传授技能,工程师可以更轻松地处理不同的服务
  • 降低开发人员和SRE之间以及不同SRE团队之间转移服务的成本。
  • 提高工程师在团队之间的流动性。
  • 简化并降低生产风险
  • 提高工程师的速度
  • 提高整体的生产服务资源利用率

SRE应发布SRE PA级别的生产平台标准---该原则适用于服务,与SRE的支持级别无关。

有意义的工作

必须考虑工作质量。谷歌的SRE与Dev有着相同的流动机会,因此需要一个新颖、富有挑战性、有趣的环境来实现个人发展。SRE在OKR规划方面与Dev密切合作,但最终拥有自己的OKR。

与SRE的合作是一项重大投资,需要结构化规划和进度追踪。SRE和Dev共享一个的路线图,并跟踪目标进展,定期审查服务的健康状况、关键性、业务合理性和优先级。 这可以通过业务审查、季度报告和生产健康审查等方式实现。

左移(shift left)

SRE合作可能发生在服务生命周期的任意阶段--不局限于生产启动阶段。通常在服务生命周期的早期(即"左移",如,在设计和实现阶段)引入SRE是最具影响力和效率的。在设计阶段,可以很容易地更改基本架构和基础设施决策,但对于一个完全产品化的系统来说,修改这些决策通常非常困难或代价高昂。早期与SRE建立合作关系可以防止以后出现严重的问题。

谷歌SRE的成功带有特定的企业基因:

  • 公司体量:保证了SRE的"就业市场"
  • 公司人员素质:保证了Dev和SRE团队的人员能够遵守相关流程约定,并能够保证绝大部分人员的技能水平和职业素养。

因此谷歌的SRE并不一定适用于其他企业,但其所提倡的SRE中心化也有其存在的意义,除了灵活地支持各个业务线,也可以让SRE避免沦为业务运维工具人。让SRE和Dev以SLOs作为决定提高可靠性还是特征速度的分界线,以此可以让各个团队有一个共同的目标。另外一个至关重要的是合作约定,该约定类似合同,除了保证SLOs的完成,也是可以避免SRE放大化的一个重要条约。

除了对SRE和Dev的硬性要求外,文中还提出了一些建议性的意见。但这需要各个团队成员具有一定程度的职业素养,且能够形成正反馈才能真正实现。文中所描述的SRE更像是个战斗旅和专家顾问的角色,不应该将其作为传统运维或on-call轮岗人员,这样会降低SRE的工作热情,无法发挥SRE的真正作用。

我个人认为理想的业务应该是一个个可以正反馈的闭环,相关成员都能够在保证交付的前提下,提升业务的可靠性,并从中得到技能提升和成就感。作为项目管理人员,应该细化项目的迭代周期,考虑项目可能存在的风险点,避免因为操之过急,导致开发进度和可靠性都无法满足。


About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK