存储小海
作者存储小海联盟成员·2021-09-10 17:51
工程师·华为

上新了!智能运维 | VM到存储的子网故障分析

字数 1293阅读 969评论 0赞 0

前言

当前,数字化正在以不可逆转的趋势改变社会,各大企业也正处于数字化转型关键阶段。其中,数据中心存储设备的上线前的性能预测及上线后的性能分析,是影响业务持续运营的关键因素。

本期上新特性——

VM到存储的子网故障分析

伴随着企业IT设备虚拟化趋势,设备虚拟化后带来存储自网络的复杂性,VM到存储的子网故障分析存在以下痛点:

A.无可视化的溯源拓扑关系,难管理,定界耗时长。 随着存储子网的不断发展,网络结构愈发复杂,手工整理存储子网中海量对象的关联关系,对专业技能要求高;

B. 多个系统交替分析性能问题,操作复杂,成本高。 当虚拟机的时延、带宽、IOPS等性能KPI发生异常,管理员需跨多种工具进行对比分析,对性能问题根因进行定界。

C. VM资源抢占出现扰邻现象,难以快速定位扰邻源。 当共享内存、CPU、IO等资源的多台虚拟机出现异常,需要分析各虚拟机占用资源对关联对象的影响程度,从而定位扰邻源。

为解决以上痛点,华为云端智能运维平台eService推出“VM到存储的子网故障分析”新特性,依据虚拟机在存储子网中的拓扑关系,应用专家经验规则,结合异常检测结果,准确识别虚拟机因资源争抢出现的扰邻现象,直观展示虚拟机扰邻根因,并给出解决措施,快速高效解决虚拟机性能问题。实现以下关键能力:

01 VM到存储的拓扑可视 :可视化展示从vDisk到磁盘阵列的端到端拓扑图;

02 VM性能异常检测 :自动化识别VM的CPU, Memory, Latency指标持续偏高异常;

03 E2E性能自助分析 :客户可选择VM、Host、DataStore、LUN对象的CPU、内存、IOPS、带宽、时延等指标,进行对比分析;

04 VM扰邻分析 :快速定位存储子网中异常VM存在的扰邻根因,针对性给出扰邻现象的解决措施;常见场景有以下三类:

4.1主机内存资源竞争导致VM扰邻问题 主机内存利用率在某个时间段持续偏高,同时该主机下的某些虚拟机在这个时间段也出现内存利用率异常偏高的情况,此时认为当前主机下的这些异常虚拟机之间存在内存资源的竞争关系,出现了VM扰邻问题;

4.2主机CPU资源竞争导致VM扰邻问题 主机CPU利用率在某个时间段持续偏高,同时该主机下的某些虚拟机在这个时间段也出现CPU利用率异常偏高的情况,此时认为当前主机下的这些异常虚拟机之间存在CPU资源的竞争关系,出现了VM扰邻问题;

4.3 LUN的IO资源竞争导致VM扰邻问题

LUN的IO时延在某个时间段持续偏高,同时与该LUN关联的某些虚拟机在这个时间段也出现时延异常偏高的情况,此时认为当前LUN关联的这些异常虚拟机之间存在磁盘IO的竞争关系,出现了VM扰邻问题。

eService上新特性“VM到存储的子网故障分析”,能够提供VMware到磁盘阵列性能分析能力,发现被影响的VM,并标注出VM时延异常的时间段。在该性能异常时间段内,自动定位具体的VM扰邻根因,并给出解决建议帮助运维人员根据建议快速解决问题,减少对上层业务的影响。

转载自:上新了!智能运维 No.2 | 有奖体验,VM到存储的子网故障分析 (qq.com)

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

相关问题

相关资料

X社区推广