vsan组件元数据运行状况invalid state错误

很好的解决方案链接:Component metadata health check fails with invalid state error

原因
出现此问题是因为 vSAN Local Log Structured Object Management (LSOM) 组件存在问题,该问题导致组件中的元数据损坏。
注意:此问题通常不会影响“允许的主机故障”策略选项大于零的任何虚拟机对象的可用性。
解决

此问题在 ESXi 6.0 修补程序 ESXi600-201706001 中已得到解决,可从 VMware Patch Downloads 获取该修补程序。有关下载修补程序的详细信息,请参见 如何在 MyVMware 中下载修补程序 (2148707)

重要事项

  • 如果您目前没有任何处于无效状态的组件,则仅升级修补程序就已足够。
  • 如果在更新到修补程序 ESXi600-201706001 之前您的 vSAN 群集已经报告无效状态错误,则请开启VMware 支持请求并提及此篇知识库文章。有关开启支持请求的详细信息,请参见 在 My VMware 中提出支持请求 (2062900)

以上为官方的说明,意思是让你打补丁,已经出现状况的好像没啥叼用,附链接:https://kb.vmware.com/selfservice/microsites/search.do?language=en_US&cmd=displayKC&externalId=2147458


外国大佬的解决方式

不翻译了,保持原汁原味吧。意思是查出哪块盘来移除重新添加。但是我的群集中根本找不到uuid,最后通过移除磁盘组再添加解决的。

原文链接:http://cormachogan.com/2016/03/18/component-metadata-health-locating-problematic-disk/

First, using vsan.cmmds_find, search on the component UUID as reported in the health check (components with errors) to get the disk UUID. Some of the preceding columns have been removed for readability, and the command is run against the cluster object (represented by 0):

Now that you have the diskUuid, you can use that in the next command. Once more, some of the preceding columns in the output have been removed for readbility:

In the devName field above, you now have the NAA id (the SCSI id) of the disk.

附vmsky上前辈的引用

http://www.vmsky.com/thread-58595-1-1.html

感谢各位,直接升级成u3了
就是为了解决vsan老报组件Invalid state的问题
很奇怪的是根据官方指引找不到错误组件id所在的磁盘(同样的问题在另外一个vsan集群中可以根据官方指引处理,区别就是那个vsan集群ID是0,这个是2,怀疑是bug),只能整个磁盘组卸下来清空然后加回去
升了两台,然后集群报个什么高级参数错误,没记录,直接把剩下的机器也给升级了
tmd,又一台升级前正常的机器报组件invalid state,卸硬盘组,清空,重加,1t的数据卸载就用了2个多小时

最后,终于捣鼓好了,不能只升级部分机器,只能全部升级,否则vsan会报错

另外,还有个奇怪的问题,本来有个ssd盘(intel SSD DC S3700 200G)报错,就是硬盘灯闪黄,vsan里面也认不到ssd盘了,因为没有备件,等我拿了备件我过去机房的时候,ssd盘又正常了,拆下来用Intel SSD Toolbox检查,smart状态也是正常,我就靠了,intel给的答复是“说明硬盘本身没有故障(无硬件故障),可能是原先存储的数据有报错(软件或数据故障),导致了您出现了警告。”

 

转载请注明原作者,如果你觉得文章对你有帮助或启发,也可以来请我喝咖啡

点赞