在SRE工作中,为了减少手动的重复性工作,设计并实现了Business As Usual(BAU)自动化平台。
抓取错误: 使用C#代码连接日志接口,读取日志错误代码。对于一些没有提供接口的服务,使用Selenium进行网页爬取错误信息。
修复错误: 根据错误日志的级别、出现次数以及频率决定修复方法。例如:连接数据库修改数据、連接服務重试错误、重启服务等。
自动生成SQL脚本或修改文档: 用于审计留档。这包括根据修复操作自动生成SQL脚本,或者修改相关文档以记录操作的细节。这有助于日后审计和追踪操作的历史记录。
100% 本人完成
在自动化平台中,寻找错误发生的位置是一个相对较复杂的难点。例如:多服务环境,异常情况处理,日志信息规范,错误的异常隐藏等
上述是与代码技术无关的部分不详细说明了