Flashduty帮助文档
  1. 故障管理
Flashduty帮助文档
  • Flashduty
    • 入门介绍
      • 介绍
      • 快速开始
      • 常见问题
      • 状态页
    • 访问控制
      • 成员管理
      • 权限控制
      • 团队管理
      • 账户设置
      • 单点登录
        • 配置Keycloak登录
        • 配置Authing登录
    • 值班管理
      • 值班规则
      • 值班示例
    • 故障管理
      • 协作空间
      • 接入告警
      • 处理告警
      • 分派策略
      • 通知方式
      • 告警降噪
      • 通知模板
    • 集成指引
      • 集成概览
      • 告警事件
        • 自定义事件集成
        • 邮件 Email 集成
      • 变更事件
      • 即时消息
    • 数据分析
      • 分析数据
    • 自动化
  1. 故障管理

协作空间

协作空间的概念#

协作空间作为一个组织和管理故障排查的核心载体,旨在将不同团队、不同业务系统或不同服务模块的告警进行分别管理。每个协作空间通常对应于团队日常运营和维护的一个特定范围,如某个核心业务支撑系统或者独立的技术组件亦或某个客户的相关事件:
订单管理系统协作空间: 集中所有与订单处理流程相关的故障事件,该空间不仅涵盖了从用户下单到支付完成再到订单执行和售后跟踪的全流程环节,还囊括了各个子系统的集成状况及问题解决过程,便于负责该业务的团队成员及时沟通和协同处理。
MySQL数据库组件协作空间: 专门针对公司基础架构中的MySQL数据库集群进行运维管理和故障处置,这里不仅涉及硬件资源监控、SQL查询优化等常规告警,还可以包括数据库备份恢复事件的告警,确保数据存储与访问服务的高可用性和安全性
某客户定制化服务协作空间: 专为满足A客户个性化需求而设立的专属空间,包含为其定制开发的软件功能、接口对接以及客户特定的SLA监控等内容

创建协作空间#

创建时可以设置该空间的管理团队,团队所属成员对该空间有全部操作权限
超时自动关闭即超过N分钟未关闭的故障系统会将其自动关闭(对该空间下所有新故障生效),超时关闭的故障也会有相应的关闭通知(通知渠道取决于分派策略的配置)
未规划好该空间的故障如何分派时,可以跳过设定分派策略,创建完成后还可以进行配置
创建时接入的集成类型属于专属集成,仅对该空间生效,同样可以忽略且创建完成后进行配置,更多集成相关可以参考集成指引
image.png

管理协作空间#

故障列表#

展示属于该空间的所有故障
可根据故障状态、时间、标题等条件进行筛选显示
选择多条相同状态的故障,可以进行批量关闭、认领等操作
合并即将多条故障合并为一条进行处理
支持视图模式展示故障,可根据相应条件进行聚合

集成数据#

在协作空间下创建的集成属于专属集成,即只应用于此空间
排除规则是将设定符合条件的事件进行丢弃,请合理配置

分派策略#

可管理故障的通知规则、通知渠道、升级规则等
故障通知会按照每个策略的先后顺序进行依次匹配,匹配到后不再进行往下匹配
多个策略时可以自由拖动调整分派策略的顺序,调整前请确保通知规则符合业务需求
更多分派策略相关请参考分派策略部分

降噪配置#

聚合降噪是将相似或相关联的告警进行合并为一个故障
可以根据告警标题、告警级别、标签维度进行配置聚合
故障收敛可以将某段时间内相同的故障自动屏蔽通知
更多降噪配置相关请参考降噪配置部分
修改于 2024-04-26 09:01:45
上一页
值班示例
下一页
接入告警
Built with