为什么需要系统可靠性工程师

您如何确保您公司今天构建的软件能经受住时间的考验?雇用一个SRE。

2016年软件预测
Thinkstock

您如何确保今天构建的软件和服务可以满足您的客户和消费者未来的需求?如果您认为您的组织应该问这个问题,那么您可能需要系统可靠性工程师(SRE)。 SRE是软件工程师,他们不仅在短期内关注应用程序和服务的可靠性以及正常运行时间,而且还关注可伸缩性和长期使用。

DevOps宣传人员,事件和警报专家Jason Hand说,有时将这种工程角色称为“站点可靠性工程师”或“服务可靠性工程师”,这是随着DevOps实践在IT部门中扎根而找到的立足点。 维克多 。他说,这些角色在云服务,SaaS,PaaS和Iaas公司中最为普遍,他们的客户依靠它们来保持这些服务24/7/365的可用性。汉德说,对于依赖正常运行时间,可用性和可靠性的组织而言,SRE是合乎逻辑的人才补充,因为每分钟的停机时间都使利润减少。

[相关故事: 存储,网络的薪水继续上涨 ]

什么是SRE?

SRE是做什么的?它们是开发人员与系统管理员的混合体,既涉及开发和编码,也涉及软件和应用程序的无缝运行。

“对于我们来说,我们已经有工程师团队来构建后端和前端,但是我们还整合了SRE,他们在整个软件开发流程和软件开发生命周期中与这些团队一起工作,以确保开发人员团队至少对可扩展性有远见;对未来尤为重要,这在设计和初始开发过程中尤为重要,这样我们的解决方案既可以处理现在的负载,也可以处理六个月,一年,两年的负载。必须抽出部分代码库来重写,因此我们必须确保现在就预见到未来的需求。”

SRE扮演中间人和外交官的角色,平衡了开发团队的需求-开发团队希望尽快创建,测试和发布新产品,功能,更新和修复-以及业务利益相关者的需求-汉德说,他们希望确保产品和服务能够完美运行,并能够满足不断增长的客户需求。

“从DevOps的角度出发,这是一个角色和一种思想流派,将这两个不同的团队组合在一起。尽管这两种类型的角色需要相同的东西,但常常存在一些问题需要满足这些角色的需求:应用程序,易于维护并提供出色可用性,可靠性和可扩展性的软件和服务。”

[相关故事: 您真的需要首席执行官吗? ]

外交

正如Atlassian网站可靠性工程师Patrick Hill所说, 在这篇博客文章中解释,SRE通过消除“有关何时推出什么产品的争论”来调解开发人员和运营团队之间古老的权力斗争。

“潜在的问题是这样的:开发团队希望向大众发布很棒的新功能,并希望它们能大获成功。运维团队希望确保这些功能不会破坏事物。从历史上看,这造成了很大的麻烦。权力斗争,Ops试图阻止尽可能多的发布,而Dev正在寻找巧妙的新方法来规避阻碍发布的过程,” Hill说。

Hill解释说,有了SRE的心态和敬业的工程师,几乎可以消除这些问题,因为开发团队和运营人员事先就错误阈值达成了共识,在产品推出之前必须满足这些错误阈值。

汉德说,将SRE作为一种运动和将SRE作为角色最适合成熟的组织和大型企业。在较小的组织中,传统软件开发人员的工作与基础架构工程师,系统管理员和其他操作职称的职责之间存在很多重叠之处。

[相关故事: 10个薪资最高的数字营销工作 ]

名字叫什么?

“标题并不重要;他们可以被称为DevOps工程师,系统管理员,系统可靠性工程师,站点可靠性工程师。这更多地是关于他们在该职位上所做的工作。在小型企业中,每个人都必须戴上帽子,是的,确保代码的健壮性,可靠性和可扩展性是每个人的责任,但是在某些情况下,工作量太大,您需要专门的角色。”

对于没有资源聘请专门的SRE的小型组织,提供有关现有人才的培训和教育,以帮助其成功担任sysadmin或操作角色,并熟练掌握Chef,Ancible,Puppet和其他自动化工具等技术IT招聘和人员配置公司招聘高级总监Stephen Zafarino说,这可能是一个很好的权宜之计 蒙多 .

“特别是在SRE为此专业技能集支付高薪的情况下,某些客户可能会更好地为现有人才库提供专业发展。另一种选择是找到自由职业者或承包商,他们可以进来并提供建议或从事广告项目的工作-hoc基础,” Zafarino说。

Zafarino说,尽管目前对SRE的需求并不大,但随着越来越多的组织迁移到云中并从第三方提供商那里获取软件以及其他服务和解决方案,该角色将变得越来越普遍,需求也越来越大。

“目前,这些职责目前正在由IT部门的其他角色来处理-DevOps工程师,软件工程师,系统管理员-我们只有少数几个客户担任SRE的专门职责。但是随着团队开始集成DevOps并采用这些原则,随着角色的定义变得更加严格,它将变得越来越热。”他说。

相关影片

版权 © 2017 IDG通讯,Inc.