Oracle 无响应故障


1.现象

数据库实例不能响应客户端的发起的请求。

2.种类

-Oracle的进程在等待某个资源或事件

-Oracle Process Spins,所谓Spin,就是指Oracle进程中的代码在执行某个过程时,陷入循环。在v$session视图中,往往可以看到Hang住的会话

 一直处于"ACTIVE"状态.

3.从故障范围来看,无响应故障可以分为以下几种情况:

-单个或部分会话Hang住

-单个数据实例Hang住

-OPS或RAC中的多个实例或所有实例都Hang住

4.无响应故障成因分析

-数据库主机负载过高,严重的超过主机承受能力

--应用设计不发,数据性能低下,活动会话数大量增加

--主机内存严重不足,引起大量的换页

-日常维护不当

--归档日志的存储空间满

--对DML操作比较多的大表进行move,增加外键约束

--不正确的资源计划配置

-Oracle数据库的Bug

-其他方面的一些原因

--如RAC数据库中,如果一个节点退出或加入RAC的过程中,当进行Resource Reconfiguration时,会使系统冻结一段时间

5.无故障处理流程

-确认系统的影响范围

-同时询问系统维护和开发人员,受影响的系统在出现故障前是否有过变动

  包括主机、硬件、操作系统、网络、数据库及应用

-为了避免由于网络、数据库监听或客户端因素影响分析,登录到主机上进行操作

-如果不能登录主机,尝试关闭业务系统,重启主机,监控主机资源

-登录主机后,先用top,topas等命令查询系统CPU使用,物理内存,虚拟内在的使用,IO使用等情况

-使用SQLPLUS连接数据,使用gdb,dbx等debugger工具对数据库进行system state dump;使用strace truss等工具检查异常进程的系统调用

使用用pstack,procstack等工具察看异常进程的call stack等

6.使用sqlplus连接上数据后,进行hanganalyze,system state dump等操作;检查等待事件,异常会话等正在执行的SQL等

7.找到故障原因,尽量收集数据

8.如急须恢复,可通过kill会话,重启动数据库实例等方式,先恢复应用

9.根据最终诊断结果,对数据库升级打补丁或者修改应用等方式从根本上解决问题。

相关内容