下载丨云和恩墨技术通讯:OCR无法正常读取导致节点宕机
墨墨导读:为了及时共享行业案例,通知共性问题,达成共享和提前预防,我们整理和编辑了《云和恩墨技术通讯》,通过对过去一段时间的知识回顾,故障归纳,以期提供有价值的信息供大家参考。同时,我们也希望能够将热点事件、新的产品特性及其他有价值的信息聚集起来,为您提供具有前瞻性的支持信息,保持对于当前最新的数据库新闻和事件的了解,其中包括重要数据库产品发布、警报、更新、新版本、补丁等。墨天轮文档:《云和恩墨技术通讯(11月刊)》:https://www.modb.pro/doc/6950(复制到浏览器中打开或者点击文末左下角“阅读原文”立即下载)
这里推荐一个常见的问题,希望对大家有借鉴作用。故障:OCR无法正常读取导致节点宕机-陆发圣“OCR存储了所有与集群,RAC数据库相关的配置信息。并且这种配置信息都是多个节点进行共享。所以OCR会存放在共享磁盘上。OCR包含了节点成员信息,数据库实例,节点,以及其他映射关系,资源配置信息等。本文主要介绍的是OCR磁盘异常,导致节点宕机。1. 问题概述数据库系统节点1集群资源突然故障,在通过重启集群资源也未能恢复(无法找到表决磁盘)。2. 过程分析2.1 故障根源通过与主机工程师的交流和日志分析,由于hba光纤口断掉,而且由于主机上只配了一块HBA卡,没有冗余,从而导致主机无法与存储磁盘正常通信。因此节点1无法读取OCR表决盘,导致节点1集群资源宕机,从而引发数据库意外宕机。Nov 16 10:04:33 gzfpdb1 kernel: rport-1:0-2: blocked FC remote port time out: removing target and saving bindingNov 16 10:04:33 gzfpdb1 kernel: lpfc 0000:0e:00.0: 0:(0):0203 Devloss timeout on WWPN 50:00:00:e0:d4:6f:2d:80 NPort x010500 Data: x0 x8 x03. 日志分析3.1 数据库日志在16日10点04分33秒数据库无法正常对磁盘组GROUP 1的DISK 0正常进行读操作:Mon Nov 16 10:04:33 2020WARNING: Read Failed. group:1 disk:0 AU:4247 offset:0 size:1048576WARNING: Read Failed. group:1 disk:0 AU:40598 offset:0 size:1048576随后也出现大量IO报错:ORA-27061: waiting for async I/Os failedLinux-x86_64 Error: 5: Input/output errorAdditional information: -1Additional information: 8192Errors in file /u01/app/oracle/diag/rdbms/gzfpdb/gzfpdb1/trace/gzfpdb1_dbw6_22402.trc:ORA-15080: synchronous I/O operation to a disk failedORA-27061: waiting for async I/Os failedLinux-x86_64 Error: 5: Input/output errorAdditional information: -1Additional information: 8192Errors in file /u01/app/oracle/diag/rdbms/gzfpdb/gzfpdb1/trace/gzfpdb1_dbw2_22394.trc:ORA-15080: synchronous I/O operation to a disk failedORA-27061: waiting for async I/Os failedLinux-x86_64 Error: 5: Input/output errorAdditional information: -1Additional information: 8192Errors in file /u01/app/oracle/diag/rdbms/gzfpdb/gzfpdb1/trace/gzfpdb1_dbw0_22390.trc:ORA-15080: synchronous I/O operation to a disk failedORA-27061: waiting for async I/Os failedLinux-x86_64 Error: 5: Input/output errorAdditional information: -1Additional information: 8192于16日10点04分34秒基于自我保护机制,集群自行杀掉了DBWR进程,因此数据库宕机:Mon Nov 16 10:04:34 2020ORA-1092 : opitsk aborting processInstance terminated by DBW7, pid = 224043.2 系统日志同样是10点04分33秒,磁盘:sdc、sdd、sde存在大量I/O错误:
3.3 集群告警日志无法找到表决磁盘,导致集群无法正常启动:
3.4 故障处置确认了数据库已经异常宕机的前提下,于10点57分左右进行了主机重启,主机启动完毕之后11点00分集群随主机启动,之后数据库于11点00分37秒恢复正常:Mon Nov 16 11:00:37 2020QMNC started with pid=51, OS id=7015Completed: ALTER DATABASE OPEN /* db agent *//* {1:41562:2} */4. 根本解决方案故障根本原因为:节点1表决磁盘无法正常读写导致节点1集群异常宕机;临时解决方法:重启1节点主机,集群、数据库恢复正常;建议:重要系统应配置双HBA卡、双网卡、双电源等冗余配置,避免这些组件成为单点故障来源。