VSAN常见故障

内容摘自《VMware Virtual SAN实战》(吴秋林 著),方便自己查看,侵权删除。

1.Absent与 Degraded故障

Absent与 Degraded故障 Absent和 Degraded是针对组件的2种故障类型。

口 Absent:这种故障主要针对 Virtual SAN检测到了组件故障,但是 Virtual SAN 判定数据是完整的,还可以恢复和继续运行,所以不存在数据丢失。

口 Degraded:这种故障表示 Virtual SAN检测到有组件出现无法修复的故障,这时 Virtual SAN会立刻处理这块磁盘所在对象的相关数据,立刻重建数据,恢复对 象组件的正常状态。

通常以下场景可能导致 Absent故障:
口 ESXi Host重启;
口 Disk Group维护;
口 临时网络中断;
口 Disk Group中磁盘暂时离线。

针对 Absent故障,系统会在60分钟后重新同步数据,完成 rebalance动作。
Absent和 Degraded可能由同一种故障导致,通常情况下, Virtual SAN会根据 Mirrors的状态来判断重建的可能性,如果检测到有足够的主机、磁盘和 Replicas可以支持重建,Virtual SAN会根据故障结果的差异来决定到底是60分钟后,还是立刻执行重建动作。这样主要还是考虑重建成本问题,这里的成本包含时间成本和负载成本。

2 .Compliant与 Not compliant故障

Not compliant也是 Virtual SAN场景中容易出现的情况。
当应用了指定策略的对象无法满足策略对于 Compliance的要求时,就可能出现 Not Compliant状态。这种情况比较特殊,它有可能表示当前的硬件组件数无法支持对象的 Compliant要求,但是又不一定会出现真正意义上的故障,例如前面所说的 Absent。在这种情况下,不会出现真正意义上的对象宕掉,此时业务正常运行,60分钟后,会在 Resync页面看到系统自动执行重建动作,当然前提是这段时间内没发生故障自动恢复的情况。
此时尝试重新应用这条策略,依然提示 Not Compliant,则可能会完成修复动作,那么,此时的问题就可以忽略了。

3. Applicable与 Not Applicable故障

APPlicable与 NotApplicable故障状态主要是在将 VM storage policy应用到虚拟机对象时可能发生,当位于存储中的虚拟机无法匹配 VSAN的策略要求时,就可能出现如图10·3所示的故障提示。其中,最典型的就是当虚拟机位于 VMFS之类的文件系统中时,出现这样的场景。面对这种问题,解决方案不用多强调吧?

4. Out of Date故障

out of Date故障比较特殊,它表示当对象处于一种特殊状态时的一种提示。例如,虚拟机被 vsphere Replication执行拷贝、虚拟机处于被克隆状态,但还没生成或者虚拟机未部署完成时,当然也包含临时性地满足不了兼容性要求时的情况。在图10·4中,一部分数据满足了 compliant要求,另一部分由于数据不完整,提示 Out 0f Date。完成上述过程并刷新,自然就会恢复到正常状态了。

5.None故障

None故障准确来讲不算故障,因为,这表示没有为虚拟机对象分配VM Storage Policy,在Virtual SAN 5.5时,当没有注册到一个合适的VASA Storage Provider时,会出现没有默认策略的情况,此时虚拟机对象出现此提示。

6.healthy与unhealthy故障

通常情况下,当Virtual SAN Cluster的对象可用组件数低于50%时,这个Health Status就会显示为Unhealthy,超过50%则不会出现这个提示。当同一个对象的Replica Component与Witness都提示Absent时,提示Unhealthy。

7. inaccessible与 Orphaned故障

inaccessible与 orphaned故障针对的是虚拟机对象本身。虚拟机对象要运行,要求文件必须足够完整,包含 VM Home目录与 VMDK对象的完整,也就是需要组件数超过50%。因此,当组件数无法满足这个要求时,就会提示 orphaned或 inaccessible状态。 当虚拟机对象变成 Orphaned时,表示 vcenter与 ESXi Host都无法找到或检索到虚拟机相关的东西,如*.vmx,此时自然就会呈现出 Orphaned状态。 这种状态并不是恒定的,通常只有对象数量不够支撑虚拟机对象运行时,才会出现。而当故障主机恢复或计划内启动完成之后,这个故障会自动消失。

8. cache的闪存故障

闪存的基础用途是 cache和 Buffer,当一个 Disk Group发生闪存设备故障时,这个 Disk Group被标识为 Degraded状态,无论这个闪存设备是什么原因导致的故障,无论是计划内,还是计划外,都会导致这个 Disk Group被标识为 Degraded状态。换句话说也就是:闪存在 Disk Group中扮演着重要的位置,它宕掉就意味着整个 Disk Group出问题,针对这个部分的监控很重要了。因为有很多原因可能导致闪存故障,例如:
囗 Disk Group中的磁盘状态被标识为 Degraded状态;
囗 Virtual SAN中的1/0处于未知的挂起状态;
囗移除 Virtual SAN Cluster中的物理设备且恢复时间超过5、7秒。

当添加新的闪存设备时,需要先移除 Disk Group中的闪存设备,然后才能添加进来。

9 .HDD及 Network相关故障

HDD发生故障后, Virtual SAN Cluster会根据 Absent、 Degraded状态决定是否以及何时执行数据重建动作。

转载请注明原作者,如果你觉得文章对你有帮助或启发,也可以来请我喝咖啡

点赞