IDC发布报告,商汤科技跻身中国GenAI IaaS第一梯队 | NO.1!凯美瑞德获“资金交易系统解决方案”市场份额第一 | 鼎茂科技助制造业客户实现业务系统监控告警管理 | 助力乘风而起 激发高质量发展新动能——写在第二十六届北京科博会开幕之际 | 博大抗风索----改写行业历史的发明专利产品 | 高端白酒市场调和复苏 迎来新一轮价值回归 | 汉王友基受邀出席全国数据资源产教融合共同体成立大会 | 车载娱乐的未来:技术进步如何重塑汽车行业 | 浅谈安数云智能安全运营管理平台:DCS-SOAR | 启动!泉州城建集团携手浪潮海岳共同打造智能财务共享平台 |
 
当前位置: 新闻>滚动>

鼎茂科技助制造业客户实现业务系统监控告警管理

发布时间:2024-07-15 11:03:45  |  来源:东方网  |  作者:  |  责任编辑:科学频道

案例应用解决方案 >

全栈监控+统一告警+智能值守解决方案

全栈监控+统一告警+智能值守解决方案,旨在为经历IT系统规模激增和复杂性加剧的企业提供一站式、全方位的运维监控管理服务。该方案通过全面覆盖系统各层次的监控,统一整合告警管理,以及智能化的自动值守,确保运维过程的高效和系统运行的稳定。

全栈监控对基础设施、中间件、服务、应用、调用链等各种IT资源进行立体化监控,实时监测系统的运行状态和性能指标,及时发现潜在的风险和异常,并通过统一告警管理,将所有告警信息集中治理,避免信息孤岛和重复告警的问题,提高了告警的准确性和响应的及时性。同时,智能值守系统实现了7*24小时自动化值守和智能应急处置,能够在接收到告警后自动响应,给出相关的解决方案建议,并跟进处置状态,减少了对人工干预的依赖,提高了问题处置的效率和准确性。

通过该解决方案,企业能够实现“全面立体监控,实时发现异常,提升告警质量,支撑快速响应”的监控管理目标,确保IT系统的高效、稳定运行。

案例背景 >

经过多年的沉淀,案例客户在运维方面已经布局搭建了部分运维监控工具,由于各个运维点位建设初期并没有整体规划,这些运维监控工具的监控手段比较单一、技术相对落后,且运维数据相对分散,缺乏互联互通和协同工作机制,不具备统一的一体化管理能力。此外,现有运维团队受限于自身技能与工具能力,在应对系统故障时无法保证及时性与高效性。

案例客户为了应对70余套业务系统以及数百个系统节点所带来的运维压力,迫切需要一套完整且专业的智能运维体系以提升运维管理能力,实现一体化和精细化运维管控,全面保障IT系统的稳定运行。

01需求分析

01.1面临的问题

·运维手段不足-管理盲点范围大

由于监控工具技术较为陈旧,导致无法兼容部分设备类型、软件版本的监控;而使用开源技术则意味着需要持续投入人力进行开发维护,因此目前仅实现了对于服务器和日志的部分监控,应用性能、中间件和数据库等监控缺失,在监控的覆盖面、指标覆盖度和实时性等方面的不足,导致无法实时反应系统运行情况,故障发现比较滞后,甚至出现晚于用户上报的情况。已无法满足当前复杂系统的运维监控需求。

·运维数据分散-排查处置效率低

监控数据与其产生的告警分散在各工具平台中,缺乏统一的管理视图与关联汇总的告警信息,在面对大量告警时,运维人员无法快速识别重要告警,并判断问题影响范围;故障排查时,各专业组难以进行整体性的关联分析和故障溯源。

·智能决策缺失-管理协作靠人工

故障分析与处置环境完全依赖人工。在业务系统出现异常时,一线运维人员由于经验与技能的不足,往往需要寻求二、三线运维人员的协助,沟通与人力成本较大,而故障处理的用时过长,增加业务受影响的周期。

01.2项目建设目标

·监控全方位100%覆盖

针对全栈软、硬件性能指标通过多渠道多方式的监控采集,且具备自定义脚本上报数据的能力,建设一套平台全面覆盖各种监控类型,包括但不限于用户体验监控、应用性能监控和基础资源监控(包括服务器、中间件和数据库等)。此外,补全日志数据的实时采集与监控。确保运维团队能在第一时间感知系统异常。

·构建统一运维数据视图

通过统一平台融合运维大数据,包括结构化和非结构化数据,打通监控、告警和资产等数据。从业务视角出发,对核心骨干链路、核心业务应用、监控告警等信息重点展示,提供运维数据可视化洞察,帮助运维人员全方位掌握IT系统运行状况。

·提升告警质量、加速故障响应

对日常出现的大量相同或相似告警事件进行压缩,使运维人员的工作更聚焦于问题与故障的发现与溯源。使用告警处置跟踪,故障识别与自动升级,一键拉会并启动应急指挥室等自动化、智能化手段应对告警事件,节省人工干预的时间和精力,并能够在故障发生后快速响应和处理,降低故障对系统稳定性和业务连续性的影响。

02解决方案及思路

02.1建设思路

该方案内置基础资源监控、应用性能监控与用户体验监控模块,实现集基础环境、服务器、存储、网络、操作系统、中间件、数据库等于一体的统一监控覆盖。

方案以鼎茂科技自研的ARCANA平台(多模态数据智能分析与决策平台)作为统一数据底座,汇聚性能指标与日志等运维大数据;通过ARC-IOC(数智运营中心)使用低代码方式快速构建运维监控管理可视化视图;通过Di-Logger(智能日志中心)对日志进行监控与分析,将经由各监控模块与日志平台生成的告警推送给Di-Alert(智能告警中心),实现告警压缩与处置流转,并由Di-Robot(智能值守中心)跟进告警的处置,形成故障发现、分析、处置的闭环。

4b7daf4de7077b09674bac9358b462a1_20240712161030_659.png

02.2方案实施

Step1部署全栈监控模块(基础资源监控、应用性能监控、用户体验监控、日志监控)

·使用各监控模块,围绕业务价值构建多维度的运维监控体系,实现业务系统与基础资源的全方位实时监控,扩大监控覆盖度、提升监控指标灵活性;设置及时准确的监控告警机制,在问题初现端倪的第一时间进行告警;

·利用Di-Logger的日志分析能力,对日志进行实时检测,对日志中隐藏的异常进行告警。

Step2部署云原生数智底座(ARCANA平台)

·通过ARCANA平台提供统一运维门户,集成所有运维监控管理工具形成统一运维入口。对运维大数据进行汇聚分析,提供低代码、可视化编辑的运维监控大屏、移动端视图等,形成个性化运维界面;

·基于底座搭载的丰富功能模块,可快速实现各项智能运维能力扩展。

Step3搭载智能告警功能模块(Di-Alert)

·由Di-Alert承接告警统一、告警压缩、告警视图的主要能力。对海量告警进行关联压缩,以告警拓扑视图的形式对关联告警进行通知和播报。

Step4构建个性化运维可视化视图(ARC-IOC)

·基于整合运维数据,包括交易-业务-服务-基础组件-基础设施的全栈指标、日志数据、告警信息,资产信息和事件工单等,以业务系统为核心,形成业务运行状态、系统健康状态等的可视化洞察。

Step5搭载智能值守功能模块(Di-Robot)

·由Di-Robot承载故障值守和应急管理等能力。实现自动化告警判断与故障升级,高效组织应急响应,提供故障场景下的智能决策。

03项目成果

03.1实现70+套业务系统的监控全覆盖

通过基础资源监控的替换,实现当前管理机制中所存在的操作系统监控不全、指标遗漏,以及数据库、中间件等监控缺失等管理盲点的改善。通过建设覆盖所有业务系统的应用性能监控和用户体验监控,直观反映业务健康状态,提供故障的感知能力。

cbd95b4ca3f685ff43c757f8d43dc241_20240712161116_209.png

03.2提供所有业务系统的全局监控视图,和IT系统拓扑视图

通过全局视图,监视所有应用的健康状况;通过IT系统拓扑视图,查看应用相关的主机、网络、中间件和数据库等的性能情况,可下钻的拓扑视图至指标趋势详情或日志明细,为分析故障影响范围、排查问题根因提供有力支撑。

220cab31b9fcf9777230bff3ac83cb96_20240712161129_110.png

e323f1a08a4b999f56337136dcf937dc_20240712161202_100.png

03.3实现告警压缩与处置流程线上化

针对各类监控所产生的大量告警事件,进行告警收敛、压缩、降噪等处置,屏蔽告警风暴,聚焦有效告警,提升告警可读性,并改善多源告警分散管理的现状,实现统一告警分派、通知、认领、开单、处置、结单的告警处置流程闭环。

6363c9461df7a521a610656f8431933a_20240712161152_879.png

03.4以业务视角组建运维管理大屏

实现客户全量运维数据资产沉淀,以统一数据融合平台的形式,将当前多数据通道、多数据类型、多数据格式、多数据标准并存的运维数据,以业务视角设计运维管理故事线,并形成统一运维大屏作为日常运维管理的数据检阅工具。

61c0de5d4c398bdaf8654e64814fb03b_20240712161234_889.png

03.5实现自动化、智能化运维值守与应急处理

实现7*24的自动值守,启用了数十类故障自动升级与处置规则,帮助一线运维人员在常见系统故障发生后及时响应。在排障过程中,可以通过故障应急驾驶舱所提供的故障处置最佳实践、历史故障处理记录,辅助应急响应决策,提高故障应急效率。

5497e085a4ce2590ddf07147e73503b7_20240712161245_544.png

04客户收益

鼎茂科技帮助该客户实现了监控体系的全面升级,并对监控生成的告警进行治理与压缩,对于故障告警进行高效处置,使用可视化大屏展示业务健康状态和核心指标趋势等重要信息。整体提高了故障发现到定位的时效性,提升故障处置效率。

即时收益:

·达成重要(业务)系统、资产、指标100%的监控覆盖率;

·统一去除无效告警并进行智能分析降噪,实现超过90%的告警压缩率;

·实现自动化故障响应,提升一线运维人员的故障处置率至90%以上。

扩展性收益:

·解决方案能够快速扩展覆盖新增的业务系统或软硬件资产,轻松应对业务增长所带来的增长需求;

·并提供了全面运维数据的采集、治理与分析能力,为后续更多智能化运维分析场景落地提供了基础。