oracle三机rac模式,rac02宕机故障报告

故障报告
1背景:
某省的某一数据库主机目前的工作模式为3机rac模式,在该模式下,当一个节点发生故障时,相应的数据库连接能自动切换到其他节点,从而不影响应用的正常工作。

2故障过程:
2007年1月8日下午18:00左右,主机工程师利用siteview进行系统检查时发现rac02主机告警。通过telnet登陆rac02主机没有响应;在客户端测试用Sqlplus连接rac02也是没有响应,但能正常连接数据库的其他节点(rac01和rac03)。初步判断rac02主机宕机,需要重启。尝试用console登陆主机,登陆主机后发现主机dump报错信息后自动reboot,大约1小时后仍未reboot成功。于是向HP 800报障,与HP工程师约定时间到现场进行检测维修。

2007年1月8日下午19:30,HP工程师到达现场,经检测发现是主机上的cell板发生电气故障,联系库房调用库存进行部件更换。

2007年1月8日晚21:30,备件到达现场进行更换。完成更换后,加电启动进行观察,但是启动的时候仍有报错,且运行一段时间后系统自动重启。考虑到主机运行并不稳定,要求HP工程师进行进一步的故障检测,同时也决定先不启动rac02的数据库,待主机运行稳定一段时间后再次启动。

2007年1月9日2:30,HP现场工程师和HP北京工程师一起分析故障原因,但是故障的日志采集和分析需要一段时间,当时无法确认。HP工程师建议先撤离现场,明日上午10点前给出诊断结果。

2007年1月9日2:40,接到724小组的告警,应用连接数据库失败,返回现场发现rac01和rac03数据库主机能正常登陆,但是rac03数据库的侦停和实例已经消失,rac01正常工作。从故障现象上看,可能是rac02反复重启,影响到其他的rac节点,于是将rac02进行隔离,并且重启rac03的侦听和实例,检查应用连接数据库没有问题后,离开现场。

2007年1月9日上午,HP北京工程师和HP美国工程师诊断rac02主机问题,确定问题为控制IO链路的PCI背板的故障。与此同时,联系了veritas工程师预定时间到现场帮助诊断数据库问题。

2007年1月9日14:30,HP现场工程师到现场进行PCI背板的更换,同时发现cell板和与主板之间的I/O接触点有一弹簧铁片向一侧倾斜。拨正弹簧片和更换PCI背板后,于下午16:30加电启动,经过1个多小时的观测,主机运行正常。

2007年1月9日15:00,veritas工程师到达现场,检查了数据库的alertlog,确认集群控制软件工作正常,在rac02发生宕机时,及时的重构了集群节点;在主机的syslog时发现,集群的心跳网络尚未划分vlan,在syslog中有delay的报错。通过划分vlan,目前已经解决该问题。

2007年1月9日17:30,启动rac02数据库侦听和实例,数据库运行正常,应用的session已经能正常连接到rac02数据库。检查应用连接该节点没有问题,且没有相关告警后,完成故障修复,离开现场。

3故障影响:
在rac模式下,一个节点的宕机不会影响到应用无法连接数据库,除了在rac02刚刚发生宕机,数据库重构rac节点时,应用需要重新连接数据库的新节点,在短短的几秒钟后业务在新的rac模式(2节点的rac模式)下工作,不受影响。

4故障解决:
本次故障的主要原因为rac02主机的硬件问题,通过更换cell板和pci背板后,问题得到解决。

5故障分析:
由于rac02数据库主机的cell板和pci背板故障,造成主机启动时cpu和IO检测有问题,故无法正常启动。

6改进与预防措施:
定期检查主机的syslog和数据库的alertlog,及时发现问题。并且当发生rac中某一节点宕机的情况,应该将该节点进行隔离,防止其发生因间断性重启从而影响到其他节点的正常工作。

相关文章

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据