分享免费福利活动资讯,绿色软件,视频教程,源自灵魂的分享 — 4分贝

一个代码拼写错误,导致微软Azure DevOps服务在巴西停摆十小时

2023-06-04 11:06:18 投稿人:小贝 围观229 0 评论 收藏本文

一个代码拼写错误,导致微软Azure DevOps服务在巴西停摆十小时

6月4日消息,由于一个简单的代码错误,微软Azure DevOps在南巴西地区的服务中断了约十个小时。4分贝注意到,微软的软件工程经理Eric Mattingly在周五为这次中断道歉,并揭示了事故的原因:一个拼写错误导致了十七个生产数据库被删除。
一个代码拼写错误,导致微软Azure DevOps服务在巴西停摆十小时

Azure DevOps 提供一组集成的服务和工具,用于管理软件项目,从规划和开发到测试和部署。Mattingly 解释说,Azure DevOps 的工程师有时会对生产数据库进行快照(Snapshot),以便调查报告的问题或测试性能改进。他们依赖于一个每天运行的后台系统,该系统会在一定时间后删除旧的快照。近日 Azure DevOps 的工程师进行了一次代码升级,用支持的 Azure.ResourceManager.* NuGet 包替换了已弃用的 Microsoft.Azure.Managment.* 包。这导致了一个大型的拉取请求,其中更换了旧包和新包中的 API 调用。
一个代码拼写错误,导致微软Azure DevOps服务在巴西停摆十小时

拼写错误就发生在这个拉取请求中,它将删除快照数据库的调用换成了删除托管数据库的 Azure SQL Server 的调用。Azure DevOps 有专门的测试来发现这样的问题,但 Mattingly 说,由于错误的代码只在某些条件下运行,因此现有的测试覆盖不到。

几天后,软件更改被部署到南巴西规模单元(特定角色的服务器集群)的客户环境。该环境有一个老的快照数据库,触发了这个错误,导致后台任务删除了“整个 Azure SQL Server 和所有十七个生产数据库”

所有数据都已经恢复,但花了十多个小时。Mattingly 说,有几个原因造成这种情况。其中之一是,由于客户无法自己恢复 Azure SQL Server ,必须由值班的 Azure 工程师来处理,这个过程大约需要一个小时。另一个原因是,数据库有不同的备份配置:有些配置为区域冗余备份,有些配置为更新的地理区域冗余备份,解决这种不匹配增加了很长的恢复时间。

为了防止问题再次发生,Mattingly 称微软已经采取了各种修复和重新配置措施,并再次向所有受此中断影响的客户道歉。

免责声明:
本站提供的一切内容信息、软件、教程、影音仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!