Oracle listener日志的解析利器

我们在处理数据库的问题的时候,有时在数据库端看不到异常的等待,但是应用却报连接异常。
这种情况,有可能是在压力还没有传递到数据库,在网络这层已经发生问题了。如连接风暴,此时的数据库listener的进程已经忙不过来,将连接丢弃。(在主机层面可以看到tcpListeneDrop增加)。
我们如果去看普通的listener日志,看到的东西是这样的:

这样我们会看的比较晕,不知道里面的连接数变化。

有一个listener日志的解析利器,可以分析到这种类型的问题。见附件。
用法:lsnr_analyzer.pl -t ‘time rexge’ [-h] filename
如,我们要分析24-FEB-2017 09:30~09:59的连接情况,可以如下操作:

可以看到,在09:31的时候,有个连接数的增加,到了一分钟50个连接。

我们可以加-h的参数,breakdown具体是哪些主机连接过来的:

可以看到09:30的时候,是来自11.22.3.123有49个连接,来自22.3.4.111有1个连接。

注1:lsnr_analyzer.pl 是用来分析已经establish的连接,如果是其他连接,不统计在内。
注2:lsnr_analyzer.pl 的统计比较消耗cpu,30万行的listener日志分析大约1秒出结果,300万行的listener日志分析大约6秒出结果。所以如果listener日志比较大,建议tail剪切后统计。

对于已经出现tcpListenDrop的情况,我们分几种情况分析:
(1)如果是突然的连接风暴,需要控制前端的连接,如weblogic中间件逐台启动,而不是同时启动;
(2)如果一直连接数很高,导致listener无法处理,就需要拆分listener,如按照端口拆分。

附件:lsnr_analyzer.pl
lsnr_analyzer

相关文章

发表评论

电子邮件地址不会被公开。 必填项已用*标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据