案例应用解决方案 >
全栈监控+统一告警+智能值守解决方案
全栈监控+统一告警+智能值守解决方案,旨在为经历IT系统规模激增和复杂性加剧的企业提供一站式、全方位的运维监控管理服务。该方案通过全面覆盖系统各层次的监控,统一整合告警管理,以及智能化的自动值守,确保运维过程的高效和系统运行的稳定。
全栈监控对基础设施、中间件、服务、应用、调用链等各种IT资源进行立体化监控,实时监测系统的运行状态和性能指标,及时发现潜在的风险和异常,并通过统一告警管理,将所有告警信息集中治理,避免信息孤岛和重复告警的问题,提高了告警的准确性和响应的及时性。同时,智能值守系统实现了7*24小时自动化值守和智能应急处置,能够在接收到告警后自动响应,给出相关的解决方案建议,并跟进处置状态,减少了对人工干预的依赖,提高了问题处置的效率和准确性。
通过该解决方案,企业能够实现“全面立体监控,实时发现异常,提升告警质量,支撑快速响应”的监控管理目标,确保IT系统的高效、稳定运行。
案例背景 >
经过多年的沉淀,案例客户在运维方面已经布局搭建了部分运维监控工具,由于各个运维点位建设初期并没有整体规划,这些运维监控工具的监控手段比较单一、技术相对落后,且运维数据相对分散,缺乏互联互通和协同工作机制,不具备统一的一体化管理能力。此外,现有运维团队受限于自身技能与工具能力,在应对系统故障时无法保证及时性与高效性。
案例客户为了应对70余套业务系统以及数百个系统节点所带来的运维压力,迫切需要一套完整且专业的智能运维体系以提升运维管理能力,实现一体化和精细化运维管控,全面保障IT系统的稳定运行。
01需求分析
01.1面临的问题
·运维手段不足-管理盲点范围大
由于监控工具技术较为陈旧,导致无法兼容部分设备类型、软件版本的监控;而使用开源技术则意味着需要持续投入人力进行开发维护,因此目前仅实现了对于服务器和日志的部分监控,应用性能、中间件和数据库等监控缺失,在监控的覆盖面、指标覆盖度和实时性等方面的不足,导致无法实时反应系统运行情况,故障发现比较滞后,甚至出现晚于用户上报的情况。已无法满足当前复杂系统的运维监控需求。
·运维数据分散-排查处置效率低
监控数据与其产生的告警分散在各工具平台中,缺乏统一的管理视图与关联汇总的告警信息,在面对大量告警时,运维人员无法快速识别重要告警,并判断问题影响范围;故障排查时,各专业组难以进行整体性的关联分析和故障溯源。
·智能决策缺失-管理协作靠人工
故障分析与处置环境完全依赖人工。在业务系统出现异常时,一线运维人员由于经验与技能的不足,往往需要寻求二、三线运维人员的协助,沟通与人力成本较大,而故障处理的用时过长,增加业务受影响的周期。
01.2项目建设目标
·监控全方位100%覆盖
针对全栈软、硬件性能指标通过多渠道多方式的监控采集,且具备自定义脚本上报数据的能力,建设一套平台全面覆盖各种监控类型,包括但不限于用户体验监控、应用性能监控和基础资源监控(包括服务器、中间件和数据库等)。此外,补全日志数据的实时采集与监控。确保运维团队能在第一时间感知系统异常。
·构建统一运维数据视图
通过统一平台融合运维大数据,包括结构化和非结构化数据,打通监控、告警和资产等数据。从业务视角出发,对核心骨干链路、核心业务应用、监控告警等信息重点展示,提供运维数据可视化洞察,帮助运维人员全方位掌握IT系统运行状况。
·提升告警质量、加速故障响应
对日常出现的大量相同或相似告警事件进行压缩,使运维人员的工作更聚焦于问题与故障的发现与溯源。使用告警处置跟踪,故障识别与自动升级,一键拉会并启动应急指挥室等自动化、智能化手段应对告警事件,节省人工干预的时间和精力,并能够在故障发生后快速响应和处理,降低故障对系统稳定性和业务连续性的影响。
02解决方案及思路
02.1建设思路
该方案内置基础资源监控、应用性能监控与用户体验监控模块,实现集基础环境、服务器、存储、网络、操作系统、中间件、数据库等于一体的统一监控覆盖。
方案以鼎茂科技自研的ARCANA平台(多模态数据智能分析与决策平台)作为统一数据底座,汇聚性能指标与日志等运维大数据;通过ARC-IOC(数智运营中心)使用低代码方式快速构建运维监控管理可视化视图;通过Di-Logger(智能日志中心)对日志进行监控与分析,将经由各监控模块与日志平台生成的告警推送给Di-Alert(智能告警中心),实现告警压缩与处置流转,并由Di-Robot(智能值守中心)跟进告警的处置,形成故障发现、分析、处置的闭环。
02.2方案实施
Step1部署全栈监控模块(基础资源监控、应用性能监控、用户体验监控、日志监控)
·使用各监控模块,围绕业务价值构建多维度的运维监控体系,实现业务系统与基础资源的全方位实时监控,扩大监控覆盖度、提升监控指标灵活性;设置及时准确的监控告警机制,在问题初现端倪的第一时间进行告警;
·利用Di-Logger的日志分析能力,对日志进行实时检测,对日志中隐藏的异常进行告警。
Step2部署云原生数智底座(ARCANA平台)
·通过ARCANA平台提供统一运维门户,集成所有运维监控管理工具形成统一运维入口。对运维大数据进行汇聚分析,提供低代码、可视化编辑的运维监控大屏、移动端视图等,形成个性化运维界面;
·基于底座搭载的丰富功能模块,可快速实现各项智能运维能力扩展。
Step3搭载智能告警功能模块(Di-Alert)
·由Di-Alert承接告警统一、告警压缩、告警视图的主要能力。对海量告警进行关联压缩,以告警拓扑视图的形式对关联告警进行通知和播报。
Step4构建个性化运维可视化视图(ARC-IOC)
·基于整合运维数据,包括交易-业务-服务-基础组件-基础设施的全栈指标、日志数据、告警信息,资产信息和事件工单等,以业务系统为核心,形成业务运行状态、系统健康状态等的可视化洞察。
Step5搭载智能值守功能模块(Di-Robot)
·由Di-Robot承载故障值守和应急管理等能力。实现自动化告警判断与故障升级,高效组织应急响应,提供故障场景下的智能决策。
03项目成果
03.1实现70+套业务系统的监控全覆盖
通过基础资源监控的替换,实现当前管理机制中所存在的操作系统监控不全、指标遗漏,以及数据库、中间件等监控缺失等管理盲点的改善。通过建设覆盖所有业务系统的应用性能监控和用户体验监控,直观反映业务健康状态,提供故障的感知能力。
03.2提供所有业务系统的全局监控视图,和IT系统拓扑视图
通过全局视图,监视所有应用的健康状况;通过IT系统拓扑视图,查看应用相关的主机、网络、中间件和数据库等的性能情况,可下钻的拓扑视图至指标趋势详情或日志明细,为分析故障影响范围、排查问题根因提供有力支撑。
03.3实现告警压缩与处置流程线上化
针对各类监控所产生的大量告警事件,进行告警收敛、压缩、降噪等处置,屏蔽告警风暴,聚焦有效告警,提升告警可读性,并改善多源告警分散管理的现状,实现统一告警分派、通知、认领、开单、处置、结单的告警处置流程闭环。
03.4以业务视角组建运维管理大屏
实现客户全量运维数据资产沉淀,以统一数据融合平台的形式,将当前多数据通道、多数据类型、多数据格式、多数据标准并存的运维数据,以业务视角设计运维管理故事线,并形成统一运维大屏作为日常运维管理的数据检阅工具。
03.5实现自动化、智能化运维值守与应急处理
实现7*24的自动值守,启用了数十类故障自动升级与处置规则,帮助一线运维人员在常见系统故障发生后及时响应。在排障过程中,可以通过故障应急驾驶舱所提供的故障处置最佳实践、历史故障处理记录,辅助应急响应决策,提高故障应急效率。
04客户收益
鼎茂科技帮助该客户实现了监控体系的全面升级,并对监控生成的告警进行治理与压缩,对于故障告警进行高效处置,使用可视化大屏展示业务健康状态和核心指标趋势等重要信息。整体提高了故障发现到定位的时效性,提升故障处置效率。
即时收益:
·达成重要(业务)系统、资产、指标100%的监控覆盖率;
·统一去除无效告警并进行智能分析降噪,实现超过90%的告警压缩率;
·实现自动化故障响应,提升一线运维人员的故障处置率至90%以上。
扩展性收益:
·解决方案能够快速扩展覆盖新增的业务系统或软硬件资产,轻松应对业务增长所带来的增长需求;
·并提供了全面运维数据的采集、治理与分析能力,为后续更多智能化运维分析场景落地提供了基础。