一个系统,搞定闲鱼服务端复杂问题告警-定位-快速处理(2)
发布时间:2019-07-25 12:43 所属栏目:21 来源:XYtech_Alibaba
导读:监控系统发现商品发布接口成功率下跌发出来告警信息,点击告警诊断直接跳转到问题现场,发现是因为安全某个服务错误率飙升导致,整个过程不到5s。 案例2: 首页因为单机问题受到影响 闲鱼首页因为单机gc问题抖动触发
监控系统发现商品发布接口成功率下跌发出来告警信息,点击告警诊断直接跳转到问题现场,发现是因为安全某个服务错误率飙升导致,整个过程不到5s。 案例2: 首页因为单机问题受到影响 闲鱼首页因为单机gc问题抖动触发大量告警信息,秒级给出问题发生路径。根据诊断路径显示搜索单机出现大量异常。 总结 目前整个系统主要聚焦服务稳定性相关的问题定位,仍然有许多场景有待覆盖,信息有待补全,措施有待执行,定位只是其中的一环。最终目的一定是建设问题定位,隔离,降级,与快速恢复这样一个完整闭环。要想实现这样一个完整闭环,离不开底层各个子系统的数据建设,核心在于两点一面的建设:
(编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读