断电导致的AIX上hacmp不能启动的问题解决


因为ups问题导致数据库小型机及存储等断电,hacmp不能启动,
发现jzpt1上的硬盘识别有问题,原来硬盘是从hdisk0--hdisk11,现在是hdisk2到hdisk9没有了,后面从hdisk12之后有不少硬盘,通过rmdev -Rdl

hdisk2到所有末尾硬盘,cfgmgr -v重新识别,但是在importvg时报错,
0516-082 lqueryvg: Unable to access a special device file.
        Execute redefinevg and synclvodm to build correct environment.
0516-082 lqueryvg: Unable to access a special device file.
        Execute redefinevg and synclvodm to build correct environment.
0516-1140 importvg: Unable to read the volume group descriptor area
        on specified physical volume.

所有新识别的硬盘均没有pvid
通过如下命令:
chdev -l hdisk2 -a pv=yes,报错:
Method error (/usr/lib/methods/chgdisk):
        0514-047 Cannot access a device.

采用如下方法解决问题:
rmdev -Rdl hdisk2
rmdev -Rdl hdisk3
....
rmdev -Rdl hdisk11
删除所有磁盘
rmdev -Rdl fcs0
....
rmdev -Rdl fcs3

cfgmgr -v

发现所有pv均出现了pvid

但是发现
jzpt1上的hdisk2-hdisk8和jzpt2上的pv顺序一致,但是同样属于datavg的hdisk9(在jzpt2上)在jzpt1上却是hdisk10。出现了两机硬盘顺序不一致,

且都是datavg。看来以后在做共享vg时尽量不要用多个小的lun,而是用少量的大容量lun,以便减少这种hdisk顺序不一致的想象。
不得已,在jzpt2上将datavg varyon,然后smitty reducevg,但是提示说将要破坏datavg上的裸设备内容。
只好采用smitty migratepv命令将hdisk9上的内容转移动到hdisk2上。转以后lspv -p datavg,发现hdisk9上不再有内容,而hdisk2上的内容比hdisk3

等磁盘内容多。
lsvg -p datavg
datavg:
PV_NAME          PV STATE          TOTAL PPs  FREE PPs    FREE DISTRIBUTION
hdisk2            active            1599        811        62..00..109..320..320
hdisk3            active            1599        1155        192..04..319..320..320
hdisk4            active            1599        1155        192..04..319..320..320
hdisk5            active            1599        1087        64..64..319..320..320
hdisk6            active            1599        1087        64..64..319..320..320
hdisk7            active            1599        1135        112..64..319..320..320
hdisk8            active            1599        1215        192..64..319..320..320
hdisk9            active            1599        1599        192..64..319..320..320
再采用smitty reducevg将hdisk9从datavg摘掉。这样jzpt1和jzpt2上的datavg中的hdisk就保持一致了。
在jzpt1上执行smitty importvg
vg写入datavg,pv写入hdisk2。datavg导入了。将datavg中的裸设备赋予Oracle:dba用户组。
问题解决


后来发现jzpt1的hacmp能启动,datavg也能并发拉起来,但是jzpt2的datavg死活起不来,于是将jzpt2上的所有存储磁盘删掉,删掉hba卡,然后重新

importvg datavg,问题解决,他妈的,毛病。
其实根本问题是因为操作系统没有安装存储多路径软件导致的。

相关内容