我的监控杂谈

admin 2023-11-24 22:32:11 4HOU_新闻 来源:ZONE.CI 全球网 0 阅读模式

timg (4).jpg

0x00 入梦

夜已深,逐困,遂眠,但心中还惦记着工作。

0x01 梦起

思想目前工作及流程,发现存在如下一些问题:

1、安全监控告警信息分散分布(网络的、主机的、应用的)
2、目前对告警事件处置缺乏完善的记录或者仅仅是记录了已有的事件
3、对生成的告警信息未形成完整的事件处理信息链(事件发生时间、发现时间、发现人员、处理人员、处理过程等)
4、缺少日常告警事件处理审计角色,无法对现有的安全监控措施、安全防御措施的有效性进行评估与衡量
5、缺少安全监控的SLI、SLA
6、工作量评估与度量

然后就想到建立一个告警收集与处理平台,主要集告警信息的收集、展现、处理、记录、审计等功能。

架构图.jpg

1. 事件详细情况:

(1)发生时间:事件的发生或发现是有一个时间起点,不可能凭空产生。

(2)上报时间:这里的上报时间包括监控系统自动发现的也包含客服、运维、等其他人员上报的,与发生时间产生的时间差会形成一个SLI,这里可以作为安全监控系统或安全监控人员的一个度量指标。

(3)输入时间:输入时间涉及安全事件人员处理过程记录的时间,这个时间不像前面两个时间要求那么严格,但是也不能太滞后,太滞后表示处理的不及时。(4)影响结束:这里表示经过系统自我处理或人为干涉后,系统恢复到能够提供业务服务或未出事件以前的状态。发生时间与影响结束时间也形成了一个SLI,即影响时长,这里面主要体现的是安全监控人员问题判断、问题处理的功力

(5)关闭时间:关闭时间是指该事件的跟进人员确认该事件处理完成,并持续观察一段时间后无一样对该事件执行关闭操作的时间节点,与发生时间形成一个闭环时间点。(6)影响时长:影响时长是确定该事件或告警的影响范围的一个考量因素,也决定着故障是否升级等等(7)状态:未处理、持续跟进、超时、处理结束、关闭等都是表示告警事件的处理情况。这些状态也间接反映了告警的处理效率问题。(8)事件等级:(一级、二级、三级等等,根据公司安全事件等级来划分,详见企业的安全事件管理相关制度)(9)事件类型:事件类型的分类也和各个企业的相关事件管理制度有关(10)维护组织:涉及参与处理的相关部门、小组等(11)需后续进行处理:一般事件的处理以及时止损或优先恢复可用性为目的,只是短时间内的一个救场动作,为了让业务或系统恢复到告警发生的时间节点前或恢复正常情况,需要本部门人员或其他部门人员对相关的制度、技术、人员等进行提升或改进优化。(12)影响范围:遭受的钱、人员、时间等的损失(13)概述:记录人员需要有良好的语文素养,用最简短的词语概括该告警发生的起因、影响、初步处理步骤及结果(14)沟通情况:当告警信息涉及多部门的时候,需要部门间的沟通,里面就涉及到沟通达成的结果,需要告警处理结束后的后续推进。

2. 事件处置过程:事件处置过程记录了详细的监控发现时间,发现后联系谁进行问题排查,排查出来的原因、处理进度等。

3. 安全事件响应审计:主要查看监控响应的及时性、有效性等,发现问题及时进行修正,每周、每月、每季度、年度的告警数量、事件处理及质量等进行统计。

4. 知识库:知识库作为历史事件的总结记录,为后续的事件处理、人员的成长等提供帮助

0x02 梦醒

不知不觉到了早上7:10闹钟响了,梦也该结束了,美好的一天又开始了,说了一夜梦话,该喝口水起床上班了。

结尾图.jpg

1 - 4HOU.COM
weinxin
版权声明
本站原创文章转载请注明文章出处及链接,谢谢合作!
评论:0   参与:  0