云计算、大数据、5G以及人工智能等新技术的发展给各行各业都带来了崭新机遇。为进一步提升 IT 服务管理的科学性、规范性与标准化,确保系统能够可靠且持续地运行,企业需要一套国际化、基于成熟理念的管理系统和标准化的实施方法来提升自动化运维效率、提升信息系统事前预防能力,从而为高速发展的业务经营提供有力支撑。
一、新常态下ITSM系统的新特性
当前,随着企业信息化建设的不断深入,网络不断延伸和拓展,IT与业务的融合不断向纵深方向发展:一方面,企业的内外部工作对信息化系统的依赖程度不断增加;另一方面,在云计算、大数据背景下,信息系统的自身复杂程度也不断增加,存在IT设施数量大、应用种类繁多、业务访问量大,注重用户体验、维护和管理挑战巨大等多种现实问题。传统的IT管理方式己经不能满足企业信息化发展的要求,虽然大部分企业已经采用多种工具与管理模式有效地解决了一些问题,但IT管理依然面临更多的、更新的挑战:在目前的人工管理状态下,存在着对人为操作的严重依赖、最终用户对服务的效果与价值不能完全认可、服务质量难以监控等多种问题。
实际上,基于帮助台处理各类用户问题只是运维IT服务人员日常工作中的一项。从IT整体管理的角度来看,IT统一的服务部门与统一IT服务中心规划应该将IT本身作为业务进行管理,对IT服务管理提出更高、更难的要求,所以非常有必要引入现代IT运维服务的思维。
(一)指导理论创新:ITIL 4为新一代ITSM提供全新理论支撑
从ITIL发展角度来看,目前国内外几乎所有的ITSM项目构建和实施都是基于ITIL V2、V3来进行的,即使是ITIL V3,已经是2007~2011年发布的标准了。在数字化转型、DveOps、敏捷、双态模式、人工智能和大数据蓬勃发展的时代,ITIL V3面向的管理对象以及理念、技术等有了非常大的挑战,尤其是传统的面向流程的方式已经越来越显得僵硬与固化,不能充分发挥人的主观能动性,导致IT服务管理最终结果与目标的偏差。ITIL官方本身也意识到了这个问题,所以AXELOS在2019年初发布了最新的ITIL 4版本,在ITIL 4版本中对原有的理念、模型、方法和流程进行了非常大的革新,在ITIL4中弱化了流程与管理,更加强调面向最终价值的协同与价值共创。在未来至少5年内,更多企业会基于ITIL 4的模型和方法来重塑企业的IT服务管理。
(二)技术实践创新:大数据和智能为新一代ITSM提供了技术土壤
ITSM作为运维工作的支撑体系,需要把IT系统基础设施和应用系统的运维协同起来,共同保障正常运行,确保业务高可用性及业务连续性。
随着新技术逐渐成熟及深化,ITSM的建设呈现“监控智能化、调度自动化、管理扁平化、分析立体化”的技术发展趋势。
二、新一代ITSM系统的主要特点
(一)保障高可用及业务连续性是新一代ITSM的首要目标
随着IT的发展和应用深化,企业生产活动对IT的依赖度越来越高,对可用性提出了更高的要求。为保障IT资源尤其是核心信息系统的可用性,面对庞大且复杂的运维任务,如何协同运维团队之间的运维工作,提高运维效率与运维水平,保障安全稳定运行,ITSM平台建设极其重要。同时,从应用系统建设转入运维,需要良好的运维体系和平台工具来保障可用性与业务连续性。
(二)面向共享式服务中心运营成为新一代ITSM的典型需求
要实现IT服务的统一受理、调度、协同、跟踪、反馈和应用监控,需要通过ITSM的建设和应用,促进各项运维活动和支持工作的规范化和标准化,帮助企业形成建设共享式中心,构建资源共享机制。这样才能有利于精干机构、降低成本,减少资源分散和浪费,以达到“省人”、“省事”、“省钱”的目的。
(三)让业务部门获得更好体验成为新一代ITSM的重要驱动力
业务部门需要第一时间发现故障、快速处理、及时协调和沟通,从而提高一线解决率、规范运维活动和流程、降低整体服务成本。而且,IT资源的划拨调配、日常维护、故障处理等工作繁重且可靠性要求高,需要在标准化、自主可控的基础上,实现智能化、自动化水平,提高工作效率,降低人为风险。
三、云智慧ITSM建设方法论
(一)近景和中长期规划结合的业务咨询
伴随IT的快速发展及企业自身的科技发展战略,IT服务管理体系需要对运维服务组织机构、运维管理制度、运维工作流程、运维系统支撑等方面进行梳理和分析,根据自身的特点与未来规划,自上而下逐层进行运维体系顶层架构设计:
●搭建适合运维最佳实践的运维组织架构;
●结合ITIL和运维行业经验,建立成套的运维管理制度;
●根据咨询成果进行系统建设规划。
(二)贴近业务场景的实施
在可预见的未来,智能运维将在高度、广度和深度三个纬度不断进化,这种进化与以往的状态相比,简称为智能业务运维2.0。
■运维日常工作场景:
• 将运维人员日常工作流程规范化;
• 作为统一入口,记录所有用户服务请求和故障申报;
• 运维人员通过系统记录运维流程处理过程,实现对运维工作的透明和量化管理;
• 管理人员通过统计分析报表,为运维管理提供决策支持。
■数据治理及配置管理场景
作为运行数据管理的核心,数据治理及配置管理提供配置模型、配置项、配置关系及权限管理,配置版本、变更管理,配置信息采集、导入、配置审计、配置更新等业务。
• 先进的自动化采集及存储机制:采用多种自动化采集手段对配置信息进行自动化采集,并采用两段式的管理模式,对原始配置信息以及格式化后的信息同步存储及管理;
• 先进的配置信息管理模型:采用了动态配置模型的设计方法,允许对配置模型进行定义、修改和扩展,从而彻底解决了数据治理模型设计完善性和可扩展性的难题;
• 为数据中心IT资源预测提供数据基础:提供了关于IT资源及其使用率、运行状态的准确信息;这种能力保证资源得到最有效的利用,而且有助于节约成本。
■ 智能运维场景
面向IT和业务双向驱动的运维数据指标体系建模,是指标体系构建与应用的必经之路。
常见的指标体系建模方法有平衡计分卡(BSC)、AARRR模型(也称海盗模型)、OSM模型等,但在实践过程中,这些模型向智能运维中监控、分析、流程以及管理评估等多种场景时,只具备部分的参考价值。所以面向智能运维的全局规划与实施落地,云智慧首次创新的提出了基于D-CREAM模型的运维指标体系构建、管理与应用的方法论,面向运维的各类应用场景,围绕运维数据,从管理和实践的视角,帮助建立全局的IT运维监控和管理指标体系。
以可编排作业平台为核心构建运维自动化平台,提供配置变更、任务巡检、脚本执行控制、自定义工作流等功能,覆盖巡检、文件分发、备份恢复、SQL操作等运维场景,并提供可扩展能力。
• 自动化故障报警,支持基于故障类型关联自动化作业响应;
• 提供智能调度,运行巡检、文件分发、备份恢复等多场景运维支撑;
• 支持自动化脚本、python、bat、ansible、Sql等下发执行;
■ 故障发现及处理场景
• 汇总告警数据,对原始告警信息进行解析和格式标准化处理;
• 进行统一规整、重新定义:对告警数据所属的类别和级别重新定义;
• 完成告警信息的过滤,解决多个相关事件信息的合并、压制、过滤、定位、根源确定;
• 以列表或拓扑等多种形式集中或分类显示被管对象的告警信息,方便自动确认和手动确认两种方式。告警清除后,删除活动告警记录,增加相应历史记录运维人员监控。
■数据指标分析及展现场景
在标准的数据分析层次模型基础上,根据应用数据中心的业务特征,作用域以及隶属关系,将反应数据中心运行状态中所涉及到的所有数据分解为三个指标体系。
• 生死线:主要描述核心业务、如大规模计算的业务状态;
• 关键指标:描述和衡量特定的业务状态,如负载趋势、空间增长趋势、能源利用率等;
• 标准指标:通过分层监控工具获取到的,描述和衡量IT资源状态及活动的指标,如CPU利用率、系统响应性能等。
(三)以ITIL4为设立思想的软件系统
面向数字化业务的新一代IT服务管理系统,需要以ITIL4和ITIL V3中的经典流程为理论基础,以大数据和人工智能技术为支撑,将企业IT部门技术资源各种要素(人、事、财)进行科学组织与管理,合理调配人力资源、有效管理信息系统软硬件、提高运营管理水平、提升运维整体效能。在保留基于传统的IT流程管理的能力基础之上,新一代的ITSM系统还需要具备更好的智能、协作与自动化能力。
• 基于扁平化任务协作,即时通讯、智能助理与自动化共同提升运维管理效能;
• 提供运维服务知识图谱构建、文本语义分析工具、可视化的语义分析模型管理;
• 借助机器学习和语料库的不断更新来优化算法,提高智能服务台首问解决率;
• 提供微信、即时通讯、呼叫中心、自助门户等多种渠道的服务接入;
• 提供脚本编排、跨平台调度、脚本分发与执行等自动化操作组件。
特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,并请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时联系我们,本站将会在24小时内处理完毕。