一个Job运行失败导致数据库挂死

今天上午10点多的时候，同事接到一个电话，某数据库任何连接都连不上数据库，登录主机后发现，该数据库已经挂死，sqlplus都无法登陆，在alertlog中发现大量的“PMON failed to acquire latch, see PMON dump”。无奈之下，杀掉了oracle的进程，重启了数据库。

事后，我们来看看究竟是什么原因，造成了这次数据库的挂死。

我们看alertlog的相关报错，我们发现“PMON failed to acquire latch, see PMON dump”5月4日的10：32，而这个报错发生在之前，还有一个报错，在5月2日的4：51还有一个“>>> WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK! pid=11”

……
Sun May  1 12:00:16 2011
Thread 1 advanced to log sequence 1940
  Current log# 1 seq# 1940 mem# 0: /u08/IGP2TCACAC0/IGP2TCAC/redo01.log
Mon May  2 03:39:57 2011
Starting control autobackup
Control autobackup written to DISK device
	handle '/u08/IGP2TCACAC0/flash_recovery_area/IGP2TCACAC0/autobackup/2011_05_02/o1_mf_s_750051597_6vvfrh25_.bkp'
Mon May  2 04:51:03 2011
>>> WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK! pid=11
System State dumped to trace file /u04/admin/IGP2TCACAC0/bdump/igp2tcacac0_mmon_811148.trc
Wed May  4 10:32:32 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:33:32 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:34:33 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:35:34 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:36:35 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:37:35 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:38:36 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:39:37 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:40:37 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:43:06 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:44:07 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:45:08 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:46:09 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:47:10 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:48:10 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:49:11 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:50:12 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:51:13 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:53:42 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:54:42 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:55:43 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:56:44 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:57:45 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:58:45 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 10:59:46 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:00:47 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:01:47 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:04:16 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:05:17 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:06:18 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:07:19 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:08:19 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:09:20 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:10:21 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:11:21 2011
PMON failed to acquire latch, see PMON dump
Wed May  4 11:12:22 2011
……

……

Sun May 1 12:00:16 2011

Thread 1 advanced to log sequence 1940

Current log# 1 seq# 1940 mem# 0: /u08/IGP2TCACAC0/IGP2TCAC/redo01.log

Mon May 2 03:39:57 2011

Starting control autobackup

Control autobackup written to DISK device

handle '/u08/IGP2TCACAC0/flash_recovery_area/IGP2TCACAC0/autobackup/2011_05_02/o1_mf_s_750051597_6vvfrh25_.bkp'

Mon May 2 04:51:03 2011

>>> WAITED TOO LONG FOR A ROW CACHE ENQUEUE LOCK! pid=11

System State dumped to trace file /u04/admin/IGP2TCACAC0/bdump/igp2tcacac0_mmon_811148.trc

Wed May 4 10:32:32 2011