忘れかけのIT備忘録

今まで学んできた知識や小技、なるほど!と思ったことをメモするブログです。

ノードのCSS障害検証(cssagent,ocssd.bin,cssdmonitor編)

今回はCSS関連プロセス(CSSD(ocssd.bin)およびCSSエージェント(cssdagent,cssdmonitor))がすべて停止した場合のクラスタの動きを検証してみようと思います。

■検証環境
OS:Oracle Linux 6.5
GI:Oracle Grid Infrastructure 12c Release 1 (12.1.0.2.0) Enterprise Edition

DB:Oracle Database 12c Release 1 (12.1.0.2.0) Enterprise Edition
※3ノードRAC(管理者管理型DB)

■前提
・SCANを使用しています
DNSサーバはdnsmasqを使用しています
・ASMの冗長構成は標準冗長性(2多重)

■設定情報

クラスタリソース情報
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
--------------------------------------------------------------------------------
Name           Target  State        Server                   State details       
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.CRS.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.DATA.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.FRA.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.LISTENER.lsnr
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.asm
               ONLINE  ONLINE       node1                    Started,STABLE
               ONLINE  ONLINE       node2                    Started,STABLE
               ONLINE  ONLINE       node3                    Started,STABLE
ora.net1.network
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.ons
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
      1        ONLINE  ONLINE       node1                    STABLE
ora.LISTENER_SCAN2.lsnr
      1        ONLINE  ONLINE       node3                    STABLE
ora.LISTENER_SCAN3.lsnr
      1        ONLINE  ONLINE       node2                    STABLE
ora.MGMTLSNR
      1        ONLINE  ONLINE       node3                    169.254.57.30 192.16
                                                                                 8.100.103,STABLE
ora.cvu
      1        OFFLINE OFFLINE                               STABLE
ora.mgmtdb
      1        ONLINE  ONLINE       node3                    Open,STABLE
ora.node1.vip
      1        ONLINE  ONLINE       node1                    STABLE
ora.node2.vip
      1        ONLINE  ONLINE       node2                    STABLE
ora.node3.vip
      1        ONLINE  ONLINE       node3                    STABLE
ora.oc4j
      1        ONLINE  ONLINE       node2                    STABLE
ora.orcl.db
      1        ONLINE  ONLINE       node1                    Open,STABLE
      2        ONLINE  ONLINE       node2                    Open,STABLE
      3        ONLINE  ONLINE       node3                    Open,STABLE
ora.scan1.vip
      1        ONLINE  ONLINE       node1                    STABLE
ora.scan2.vip
      1        ONLINE  ONLINE       node3                    STABLE
ora.scan3.vip
      1        ONLINE  ONLINE       node2                    STABLE
--------------------------------------------------------------------------------

投票ディスク状態確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
##  STATE    File Universal Id                File Name Disk group
--  -----    -----------------                --------- ---------
 1. ONLINE   c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
 2. ONLINE   cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
 3. ONLINE   aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).

CSSのMISSCOUNT値
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl get css misscount
CRS-4678: Successful get misscount 30 for Cluster Synchronization Services.

CSSのDISKTIMEOUT値
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl get css disktimeout
CRS-4678: Successful get disktimeout 200 for Cluster Synchronization Services.

CSSのREBOOTTIME値
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl get css reboottime
CRS-4678: Successful get reboottime 3 for Cluster Synchronization Services.

 

■検証パターン
①ノード1のCSS障害(cssdagent,ocssd.bin,cssdmonitorプロセス停止)

■検証
①ノード1のCSS障害(cssdagent,ocssd.bin,cssdmonitorプロセス停止)
ノード1でCSS障害(cssdagent,ocssd.bin,cssdmonitorプロセス停止)が発生した場合のクラスタの動きやDBからアプリデータをSELECTできるか検証します
今回はノード1のcssdagent,ocssd.bin,cssdmonitorプロセスをkillして疑似的にCSS障害を発生させます

【検証手順】
1. ノード1のcssdagent,ocssd.bin,cssdmonitorプロセスをkill
2. プロセスkill直後の各ノードのクラスタリソースと投票ディスクの状態を確認
3. プロセスkillの30秒後(MISSCOUNT値)の各ノードのクラスタリソースと投票ディスクの状態を確認
4. プロセスkillの200秒後(DISKTIMEOUT値)の各ノードのクラスタリソースと投票ディスクの状態を確認
5. ノード1でDBからアプリデータをSELECT

【想定】
ノード1が自動的に再起動され、ノード1でDBからアプリデータをSELECTできるはず

【検証結果】
ノード1は再起動されず、cssdagent,ocssd.bin,cssdmonitorプロセスが自動的に再起動され、ノード1でDBからアプリデータをSELECTできた(インスタンスが起動するまではDB接続できない)
CSS関連プロセス障害はノード再起動されると思っていましたが、マニュアルを見たところ必ず再起動されるわけではないようです

cssdagentで障害が発生した場合、Oracle Clusterwareによってノードが再起動されることがあります。

クラスタ・レディ・サービス技術スタック

【作業ログ】

1. ノード1のcssdagent,ocssd.bin,cssdmonitorプロセスをkill
[root@node1 ~]# ps -ef | grep d.bin | grep -v grep
root      3475     1  1 20:40 ?        00:00:04 /u01/app/12.1.0/grid/bin/ohasd.bin reboot
grid      3826     1  0 20:40 ?        00:00:01 /u01/app/12.1.0/grid/bin/oraagent.bin
grid      3839     1  0 20:40 ?        00:00:00 /u01/app/12.1.0/grid/bin/mdnsd.bin
grid      3841     1  0 20:40 ?        00:00:02 /u01/app/12.1.0/grid/bin/evmd.bin
grid      3856     1  0 20:40 ?        00:00:00 /u01/app/12.1.0/grid/bin/gpnpd.bin
grid      3868  3841  0 20:40 ?        00:00:00 /u01/app/12.1.0/grid/bin/evmlogger.bin -o /u01/app/12.1.0/grid/log/[HOSTNAME]/evmd/evmlogger.info -l /u01/app/12.1.0/grid/log/[HOSTNAME]/evmd/evmlogger.log
grid      3875     1  1 20:40 ?        00:00:05 /u01/app/12.1.0/grid/bin/gipcd.bin
root      3896     1  0 20:40 ?        00:00:01 /u01/app/12.1.0/grid/bin/orarootagent.bin
root      4081     1  0 20:40 ?        00:00:00 /u01/app/12.1.0/grid/bin/cssdmonitor
root      4097     1  0 20:40 ?        00:00:00 /u01/app/12.1.0/grid/bin/cssdagent
grid      4108     1  1 20:40 ?        00:00:04 /u01/app/12.1.0/grid/bin/ocssd.bin 
root      4338     1  0 20:41 ?        00:00:01 /u01/app/12.1.0/grid/bin/octssd.bin reboot
root      4568     1  0 20:41 ?        00:00:01 /u01/app/12.1.0/grid/bin/osysmond.bin
root      4575     1  1 20:41 ?        00:00:03 /u01/app/12.1.0/grid/bin/crsd.bin reboot
grid      4708     1  0 20:41 ?        00:00:01 /u01/app/12.1.0/grid/bin/oraagent.bin
root      4724     1  0 20:41 ?        00:00:01 /u01/app/12.1.0/grid/bin/orarootagent.bin
grid      4834     1  0 20:41 ?        00:00:00 /u01/app/12.1.0/grid/bin/tnslsnr LISTENER -no_crs_notify -inherit
grid      4843     1  0 20:41 ?        00:00:00 /u01/app/12.1.0/grid/bin/tnslsnr LISTENER_SCAN1 -no_crs_notify -inherit
oracle    4898     1  0 20:41 ?        00:00:01 /u01/app/12.1.0/grid/bin/oraagent.bin
[root@node1 ~]# kill -9 4097 4108 4081
[root@node1 ~]# ps -ef | grep d.bin | grep -v grep
root      3475     1  1 20:40 ?        00:00:07 /u01/app/12.1.0/grid/bin/ohasd.bin reboot
grid      3826     1  0 20:40 ?        00:00:02 /u01/app/12.1.0/grid/bin/oraagent.bin
grid      3839     1  0 20:40 ?        00:00:01 /u01/app/12.1.0/grid/bin/mdnsd.bin
grid      3856     1  0 20:40 ?        00:00:01 /u01/app/12.1.0/grid/bin/gpnpd.bin
grid      3875     1  1 20:40 ?        00:00:09 /u01/app/12.1.0/grid/bin/gipcd.bin
root      3896     1  0 20:40 ?        00:00:02 /u01/app/12.1.0/grid/bin/orarootagent.bin
root      4568     1  0 20:41 ?        00:00:03 /u01/app/12.1.0/grid/bin/osysmond.bin
grid      4834     1  0 20:41 ?        00:00:00 /u01/app/12.1.0/grid/bin/tnslsnr LISTENER -no_crs_notify -inherit
grid      4843     1  0 20:41 ?        00:00:00 /u01/app/12.1.0/grid/bin/tnslsnr LISTENER_SCAN1 -no_crs_notify -inherit
root      9218     1  2 20:50 ?        00:00:00 /u01/app/12.1.0/grid/bin/cssdmonitor
root      9221     1  1 20:50 ?        00:00:00 /u01/app/12.1.0/grid/bin/cssdagent
grid      9243     1  1 20:50 ?        00:00:00 /u01/app/12.1.0/grid/bin/ocssd.bin 
grid      9249     1  2 20:50 ?        00:00:00 /u01/app/12.1.0/grid/bin/evmd.bin

2. プロセスkill直後の各ノードのクラスタリソースと投票ディスクの状態を確認
# ノード1
クラスタリソース確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4000: Command Status failed, or completed with errors.

投票ディスク状態確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
##  STATE    File Universal Id                File Name Disk group
--  -----    -----------------                --------- ---------
 1. ONLINE   c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
 2. ONLINE   cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
 3. ONLINE   aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).

# ノード2 ※ノード3も同様
クラスタリソース確認
[root@node2 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
--------------------------------------------------------------------------------
Name           Target  State        Server                   State details       
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.CRS.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.DATA.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.FRA.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.LISTENER.lsnr
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.asm
               ONLINE  ONLINE       node1                    Started,STABLE
               ONLINE  ONLINE       node2                    Started,STABLE
               ONLINE  ONLINE       node3                    Started,STABLE
ora.net1.network
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.ons
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
      1        ONLINE  ONLINE       node1                    STABLE
ora.LISTENER_SCAN2.lsnr
      1        ONLINE  ONLINE       node3                    STABLE
ora.LISTENER_SCAN3.lsnr
      1        ONLINE  ONLINE       node2                    STABLE
ora.MGMTLSNR
      1        ONLINE  ONLINE       node3                    169.254.57.30 192.16
                                                                                 8.100.103,STABLE
ora.cvu
      1        OFFLINE OFFLINE                               STABLE
ora.mgmtdb
      1        ONLINE  ONLINE       node3                    Open,STABLE
ora.node1.vip
      1        ONLINE  ONLINE       node1                    STABLE
ora.node2.vip
      1        ONLINE  ONLINE       node2                    STABLE
ora.node3.vip
      1        ONLINE  ONLINE       node3                    STABLE
ora.oc4j
      1        ONLINE  ONLINE       node2                    STABLE
ora.orcl.db
      1        ONLINE  ONLINE       node1                    Open,STABLE
      2        ONLINE  ONLINE       node2                    Open,STABLE
      3        ONLINE  ONLINE       node3                    Open,STABLE
ora.scan1.vip
      1        ONLINE  ONLINE       node1                    STABLE
ora.scan2.vip
      1        ONLINE  ONLINE       node3                    STABLE
ora.scan3.vip
      1        ONLINE  ONLINE       node2                    STABLE
--------------------------------------------------------------------------------

投票ディスク状態確認
[root@node2 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
##  STATE    File Universal Id                File Name Disk group
--  -----    -----------------                --------- ---------
 1. ONLINE   c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
 2. ONLINE   cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
 3. ONLINE   aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).

3. プロセスkillの30秒後(MISSCOUNT値)の各ノードのクラスタリソースと投票ディスクの状態を確認
# ノード1
クラスタリソース確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4000: Command Status failed, or completed with errors.

投票ディスク状態確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
##  STATE    File Universal Id                File Name Disk group
--  -----    -----------------                --------- ---------
 1. ONLINE   c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
 2. ONLINE   cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
 3. ONLINE   aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).

[root@node1 ~]# su - oracle -c "sqlplus / as sysdba"
アイドル・インスタンスに接続しました。
★cssdagent,ocssd.bin,cssdmonitorプロセス再起動直後はインスタンス1へ接続できなかった

# ノード2 ※ノード3も同様
クラスタリソース確認
[root@node2 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
--------------------------------------------------------------------------------
Name           Target  State        Server                   State details       
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.CRS.dg
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.DATA.dg
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.FRA.dg
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.LISTENER.lsnr
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.asm
               ONLINE  ONLINE       node2                    Started,STABLE
               ONLINE  ONLINE       node3                    Started,STABLE
ora.net1.network
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.ons
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
      1        ONLINE  OFFLINE                               STABLE
ora.LISTENER_SCAN2.lsnr
      1        ONLINE  ONLINE       node3                    STABLE
ora.LISTENER_SCAN3.lsnr
      1        ONLINE  ONLINE       node2                    STABLE
ora.MGMTLSNR
      1        ONLINE  ONLINE       node3                    169.254.57.30 192.16
                                                                                 8.100.103,STABLE
ora.cvu
      1        OFFLINE OFFLINE                               STABLE
ora.mgmtdb
      1        ONLINE  ONLINE       node3                    Open,STABLE
ora.node1.vip
      1        ONLINE  OFFLINE      node3                    STARTING
ora.node2.vip
      1        ONLINE  ONLINE       node2                    STABLE
ora.node3.vip
      1        ONLINE  ONLINE       node3                    STABLE
ora.oc4j
      1        ONLINE  ONLINE       node2                    STABLE
ora.orcl.db
      1        ONLINE  OFFLINE                               STABLE
      2        ONLINE  ONLINE       node2                    Open,STABLE
      3        ONLINE  ONLINE       node3                    Open,STABLE
ora.scan1.vip
      1        ONLINE  OFFLINE      node2                    STARTING
ora.scan2.vip
      1        ONLINE  ONLINE       node3                    STABLE
ora.scan3.vip
      1        ONLINE  ONLINE       node2                    STABLE
--------------------------------------------------------------------------------
クラスタリソースがノード2・3で稼働するよう再構成されました
 ノード1で動いていたノードVIPがノード3へ、ノード1で動いていたSCAN VIPがノード2へそれぞれフェイルオーバーし、インスタンス1が停止しました

投票ディスク状態確認
[root@node2 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
##  STATE    File Universal Id                File Name Disk group
--  -----    -----------------                --------- ---------
 1. ONLINE   c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
 2. ONLINE   cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
 3. ONLINE   aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).

4. プロセスkillの200秒後(DISKTIMEOUT値)の各ノードのクラスタリソースと投票ディスクの状態を確認
# ノード1 ※ノード2・3も同様
クラスタリソース確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
--------------------------------------------------------------------------------
Name           Target  State        Server                   State details       
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.CRS.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.DATA.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.FRA.dg
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.LISTENER.lsnr
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.asm
               ONLINE  ONLINE       node1                    Started,STABLE
               ONLINE  ONLINE       node2                    Started,STABLE
               ONLINE  ONLINE       node3                    Started,STABLE
ora.net1.network
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
ora.ons
               ONLINE  ONLINE       node1                    STABLE
               ONLINE  ONLINE       node2                    STABLE
               ONLINE  ONLINE       node3                    STABLE
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
      1        ONLINE  ONLINE       node1                    STABLE
ora.LISTENER_SCAN2.lsnr
      1        ONLINE  ONLINE       node3                    STABLE
ora.LISTENER_SCAN3.lsnr
      1        ONLINE  ONLINE       node2                    STABLE
ora.MGMTLSNR
      1        ONLINE  ONLINE       node3                    169.254.57.30 192.16
                                                                                 8.100.103,STABLE
ora.cvu
      1        OFFLINE OFFLINE                               STABLE
ora.mgmtdb
      1        ONLINE  ONLINE       node3                    Open,STABLE
ora.node1.vip
      1        ONLINE  ONLINE       node1                    STABLE
ora.node2.vip
      1        ONLINE  ONLINE       node2                    STABLE
ora.node3.vip
      1        ONLINE  ONLINE       node3                    STABLE
ora.oc4j
      1        ONLINE  ONLINE       node2                    STABLE
ora.orcl.db
      1        ONLINE  ONLINE       node1                    Open,STABLE
      2        ONLINE  ONLINE       node2                    Open,STABLE
      3        ONLINE  ONLINE       node3                    Open,STABLE
ora.scan1.vip
      1        ONLINE  ONLINE       node1                    STABLE
ora.scan2.vip
      1        ONLINE  ONLINE       node3                    STABLE
ora.scan3.vip
      1        ONLINE  ONLINE       node2                    STABLE
--------------------------------------------------------------------------------
★ノード3へフェイルオーバーしたノード1のノードVIP、SCAN VIPがノード1へフェイルバックしています
 インスタンス1も起動しました
 クラスタリソースもノード1・2・3で稼働するよう再構成されました

投票ディスク状態確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
##  STATE    File Universal Id                File Name Disk group
--  -----    -----------------                --------- ---------
 1. ONLINE   c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
 2. ONLINE   cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
 3. ONLINE   aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).

5. ノード1でDBからアプリデータをSELECT
SQL> select * from scott.emp;

     EMPNO ENAME                          JOB                                MGR HIREDATE        SAL       COMM     DEPTNO
---------- ------------------------------ --------------------------- ---------- -------- ---------- ---------- ----------
      7369 SMITH                          CLERK                             7902 80-12-17        800                    20
      7499 ALLEN                          SALESMAN                          7698 81-02-20       1600        300         30
      7521 WARD                           SALESMAN                          7698 81-02-22       1250        500         30
      7566 JONES                          MANAGER                           7839 81-04-02       2975                    20
      7654 MARTIN                         SALESMAN                          7698 81-09-28       1250       1400         30
      7698 BLAKE                          MANAGER                           7839 81-05-01       2850                    30
      7782 CLARK                          MANAGER                           7839 81-06-09       2450                    10
      7839 KING                           PRESIDENT                              81-11-17       5000                    10
      7844 TURNER                         SALESMAN                          7698 81-09-08       1500          0         30
      7900 JAMES                          CLERK                             7698 81-12-03        950                    30
      7902 FORD                           ANALYST                           7566 81-12-03       3000                    20
      7934 MILLER                         CLERK                             7782 82-01-23       1300                    10

12行が選択されました。
★ノード1でDBからアプリデータをSELECTできた

●各ノードのクラスタアラートログ
# ノード1
2022-09-18 20:50:03.239 [CSSDAGENT(9155)]CRS-8500: Oracle Clusterware CSSDAGENTプロセスをオペレーティング・システム・プロセスID 9155で開始しています
2022-09-18 20:50:03.256 [CSSDMONITOR(9163)]CRS-8500: Oracle Clusterware CSSDMONITORプロセスをオペレーティング・システム・プロセスID 9163で開始しています
2022-09-18 20:50:03.614 [ORAAGENT(4708)]CRS-5822: エージェント'/u01/app/12.1.0/grid/bin/oraagent_grid'はサーバーから切断されました。詳細は(:CRSAGF00117:) {0:1:5}(/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_grid.trc)を参照してください。
2022-09-18 20:50:03.614 [ORAAGENT(4898)]CRS-5822: エージェント'/u01/app/12.1.0/grid/bin/oraagent_oracle'はサーバーから切断されました。詳細は(:CRSAGF00117:) {0:9:35}(/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_oracle.trc)を参照してください。
2022-09-18 20:50:03.614 [ORAROOTAGENT(4724)]CRS-5822: エージェント'/u01/app/12.1.0/grid/bin/orarootagent_root'はサーバーから切断されました。詳細は(:CRSAGF00117:) {0:5:4}(/u01/app/grid/diag/crs/node1/crs/trace/crsd_orarootagent_root.trc)を参照してください。
2022-09-18 20:50:04.320 [CSSDMONITOR(9218)]CRS-8500: Oracle Clusterware CSSDMONITORプロセスをオペレーティング・システム・プロセスID 9218で開始しています
2022-09-18 20:50:04.346 [CSSDAGENT(9221)]CRS-8500: Oracle Clusterware CSSDAGENTプロセスをオペレーティング・システム・プロセスID 9221で開始しています
2022-09-18 20:50:04.491 [OCSSD(9243)]CRS-8500: Oracle Clusterware OCSSDプロセスをオペレーティング・システム・プロセスID 9243で開始しています
2022-09-18 20:50:04.559 [ORAAGENT(3826)]CRS-5011: リソース"ora.asm"のチェックが失敗しました: 詳細は"(:CLSN00006:)"("/u01/app/grid/diag/crs/node1/crs/trace/ohasd_oraagent_grid.trc")を参照してください
2022-09-18 20:50:04.568 [ORAAGENT(3826)]CRS-5011: リソース"ora.asm"のチェックが失敗しました: 詳細は"(:CLSN00006:)"("/u01/app/grid/diag/crs/node1/crs/trace/ohasd_oraagent_grid.trc")を参照してください
2022-09-18 20:50:05.393 [EVMD(9249)]CRS-8500: Oracle Clusterware EVMDプロセスをオペレーティング・システム・プロセスID 9249で開始しています
2022-09-18 20:50:05.544 [OCSSD(9243)]CRS-1713: CSSDデーモンがhubモードで起動しています
2022-09-18 20:50:21.519 [OCSSD(9243)]CRS-1707: ノードnode1、番号1のリース取得が完了しました
2022-09-18 20:50:22.614 [OCSSD(9243)]CRS-1605: CSSD投票ファイルがオンラインです: /dev/sdd1。詳細は/u01/app/grid/diag/crs/node1/crs/trace/ocssd.trcを参照してください。
2022-09-18 20:50:22.619 [OCSSD(9243)]CRS-1605: CSSD投票ファイルがオンラインです: /dev/sdc1。詳細は/u01/app/grid/diag/crs/node1/crs/trace/ocssd.trcを参照してください。
2022-09-18 20:50:22.622 [OCSSD(9243)]CRS-1605: CSSD投票ファイルがオンラインです: /dev/sdb1。詳細は/u01/app/grid/diag/crs/node1/crs/trace/ocssd.trcを参照してください。
2022-09-18 20:50:24.323 [OCSSD(9243)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode1 node2 node3 です。
2022-09-18 20:50:26.529 [OCTSSD(9467)]CRS-8500: Oracle Clusterware OCTSSDプロセスをオペレーティング・システム・プロセスID 9467で開始しています
2022-09-18 20:50:27.644 [OCTSSD(9467)]CRS-2407: 新しいクラスタ時刻同期化サービスの参照ノードはホストnode2です。
2022-09-18 20:50:27.645 [OCTSSD(9467)]CRS-2401: クラスタ時刻同期化サービスがホストnode1で起動されました。
2022-09-18 20:50:27.662 [OCTSSD(9467)]CRS-2408: ホストnode1の時計は、平均クラスタ時刻と同期化するために、クラスタ時刻同期化サービスによって更新されました。
2022-09-18 20:50:50.035 [CRSD(10264)]CRS-8500: Oracle Clusterware CRSDプロセスをオペレーティング・システム・プロセスID 10264で開始しています
2022-09-18 20:50:51.412 [CRSD(10264)]CRS-1012: OCRサービスがノードnode1で起動されました。
2022-09-18 20:50:51.469 [CRSD(10264)]CRS-1201: CRSDがノードnode1で起動されました。
2022-09-18 20:51:44.429 [ORAAGENT(10590)]CRS-8500: Oracle Clusterware ORAAGENTプロセスをオペレーティング・システム・プロセスID 10590で開始しています
2022-09-18 20:51:44.437 [ORAAGENT(10594)]CRS-8500: Oracle Clusterware ORAAGENTプロセスをオペレーティング・システム・プロセスID 10594で開始しています
2022-09-18 20:51:44.457 [ORAROOTAGENT(10599)]CRS-8500: Oracle Clusterware ORAROOTAGENTプロセスをオペレーティング・システム・プロセスID 10599で開始しています
2022-09-18 20:51:44.529 [ORAAGENT(10594)]CRS-5011: リソース"orcl"のチェックが失敗しました: 詳細は"(:CLSN00007:)"("/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_oracle.trc")を参照してください
2022-09-18 20:51:46.063 [ORAAGENT(10590)]CRS-5016: プロセス"/u01/app/12.1.0/grid/bin/lsnrctl"(エージェント"ORAAGENT"によりアクション"start"に対して生成)が失敗しました: 詳細は"(:CLSN00010:)"("/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_grid.trc")を参照してください
2022-09-18 20:51:49.757 [ORAAGENT(10672)]CRS-8500: Oracle Clusterware ORAAGENTプロセスをオペレーティング・システム・プロセスID 10672で開始しています
2022-09-18 20:51:50.856 [ORAAGENT(10690)]CRS-8500: Oracle Clusterware ORAAGENTプロセスをオペレーティング・システム・プロセスID 10690で開始しています
2022-09-18 20:51:50.950 [ORAAGENT(10690)]CRS-5011: リソース"orcl"のチェックが失敗しました: 詳細は"(:CLSN00007:)"("/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_oracle.trc")を参照してください

# ノード2
2022-09-18 20:50:18.170 [OCSSD(4027)]CRS-1612: タイムアウト間隔の50%で、ノードnode1(1)のネットワーク通信がありません。クラスタからこのノードを14.450秒内に削除します
2022-09-18 20:50:22.857 [OCSSD(4027)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode2 node3 です。
2022-09-18 20:50:22.862 [CRSD(4510)]CRS-5504: ノード'node1'について、ノード・ダウン・イベントが報告されました。
2022-09-18 20:50:24.331 [OCSSD(4027)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode1 node2 node3 です。
2022-09-18 20:51:02.585 [ORAROOTAGENT(4669)]CRS-5017: リソース・アクション"ora.scan1.vip start"に次のエラーが発生しました: 
2022-09-18 20:51:02.585+CRS-5005: IPアドレス: 192.168.56.203は、ネットワーク内ですでに使用されています
。詳細は"(:CLSN00107:)"("/u01/app/grid/diag/crs/node2/crs/trace/crsd_orarootagent_root.trc")を参照してください。
2022-09-18 20:51:43.311 [ORAROOTAGENT(4669)]CRS-5017: リソース・アクション"ora.node1.vip start"に次のエラーが発生しました: 
2022-09-18 20:51:43.311+CRS-5005: IPアドレス: 192.168.56.111は、ネットワーク内ですでに使用されています
。詳細は"(:CLSN00107:)"("/u01/app/grid/diag/crs/node2/crs/trace/crsd_orarootagent_root.trc")を参照してください。
2022-09-18 20:51:44.350 [CRSD(4510)]CRS-2773: サーバー'node1'はプール'Generic'から削除されました。
2022-09-18 20:51:44.351 [CRSD(4510)]CRS-2773: サーバー'node1'はプール'ora.orcl'から削除されました。
2022-09-18 20:51:44.748 [CRSD(4510)]CRS-2750: サーバー'node1'でカーディナリティ違反が検出されました。リソース'ora.LISTENER_SCAN1.lsnr'が不明状態です。詳細は(:CRSPE00149:) {2:54299:363}(/u01/app/grid/diag/crs/node2/crs/trace/crsd.trc)を参照してください。
2022-09-18 20:51:45.538 [CRSD(4510)]CRS-2750: サーバー'node1'でカーディナリティ違反が検出されました。リソース'ora.scan1.vip'が不明状態です。詳細は(:CRSPE00149:) {2:54299:363}(/u01/app/grid/diag/crs/node2/crs/trace/crsd.trc)を参照してください。
2022-09-18 20:51:45.618 [CRSD(4510)]CRS-2772: サーバー'node1'はプール'Generic'に割り当てられています。
2022-09-18 20:51:45.619 [CRSD(4510)]CRS-2772: サーバー'node1'はプール'ora.orcl'に割り当てられています。

# ノード3
2022-09-18 20:50:17.819 [OCSSD(3851)]CRS-1612: タイムアウト間隔の50%で、ノードnode1(1)のネットワーク通信がありません。クラスタからこのノードを14.800秒内に削除します
2022-09-18 20:50:22.848 [OCSSD(3851)]CRS-1632: ノードnode1がクラスタインカーネーション558998465のクラスタから削除されています
2022-09-18 20:50:22.857 [OCSSD(3851)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode2 node3 です。
2022-09-18 20:50:23.850 [OCSSD(3851)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode1 node2 node3 です。
2022-09-18 20:51:02.589 [ORAROOTAGENT(4461)]CRS-5017: リソース・アクション"ora.node1.vip start"に次のエラーが発生しました: 
2022-09-18 20:51:02.589+CRS-5005: IPアドレス: 192.168.56.111は、ネットワーク内ですでに使用されています
。詳細は"(:CLSN00107:)"("/u01/app/grid/diag/crs/node3/crs/trace/crsd_orarootagent_root.trc")を参照してください。
2022-09-18 20:51:43.309 [ORAROOTAGENT(4461)]CRS-5017: リソース・アクション"ora.scan1.vip start"に次のエラーが発生しました: 
2022-09-18 20:51:43.309+CRS-5005: IPアドレス: 192.168.56.203は、ネットワーク内ですでに使用されています
。詳細は"(:CLSN00107:)"("/u01/app/grid/diag/crs/node3/crs/trace/crsd_orarootagent_root.trc")を参照してください。

●各ノードのASMアラートログ
# ノード1
Sun Sep 18 20:50:03 2022
Error 29701: unexpected return code 6 from the Cluster Synchronization Service.
Sun Sep 18 20:50:03 2022
NOTE: client exited [4575]
Sun Sep 18 20:50:03 2022
Error 29701: unexpected return code 6 from the Cluster Synchronization Service
Sun Sep 18 20:50:03 2022
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_lmon_4442.trc:
ORA-29701: unable to connect to Cluster Synchronization Service
USER (ospid: 4442): terminating the instance due to error 29701
(中略)
Sun Sep 18 20:50:51 2022
NOTE: Standard client +ASM1:+ASM:node-cluster registered, osid 10288, mbr 0x0, asmb 10286 (reg:206628584)
Sun Sep 18 20:50:51 2022
NOTE: ASMB connected to ASM instance +ASM1 osid: 10288 (Flex mode; client id 0xffffffffffffffff)
Sun Sep 18 20:51:54 2022
NOTE: Standard client orcl1:orcl:node-cluster registered, osid 10804, mbr 0x1, asmb 10798 (reg:3226355133)
NOTE: client orcl1:orcl:node-cluster mounted group 3 (FRA)
NOTE: client orcl1:orcl:node-cluster mounted group 2 (DATA)
Sun Sep 18 20:54:44 2022
ALTER SYSTEM SET local_listener=' (ADDRESS=(PROTOCOL=TCP)(HOST=192.168.56.111)(PORT=1521))' SCOPE=MEMORY SID='+ASM1';

# ノード2
Sun Sep 18 20:50:23 2022
Reconfiguration started (old inc 10, new inc 12)
List of instances (total 2) :
 2 3
Dead instances (total 1) :
 1
My inst 2   
 Global Resource Directory frozen
* dead instance detected - domain 1 invalid = TRUE 
* dead instance detected - domain 2 invalid = TRUE 
(中略)
 End lmon rcfg omni enqueue reconfig stage5
 All grantable enqueues granted
 Begin lmon rcfg omni enqueue reconfig stage6
 End lmon rcfg omni enqueue reconfig stage6
 Submitted all GCS remote-cache requests
 Begin lmon rcfg omni enqueue reconfig stage7
 End lmon rcfg omni enqueue reconfig stage7
 Fix write in gcs resources
Sun Sep 18 20:50:47 2022
Reconfiguration complete (total time 0.1 secs)

# ノード3
Sun Sep 18 20:50:23 2022
Reconfiguration started (old inc 10, new inc 12)
List of instances (total 2) :
 2 3
Dead instances (total 1) :
 1
My inst 3   
 Global Resource Directory frozen
* dead instance detected - domain 1 invalid = TRUE 
* dead instance detected - domain 2 invalid = TRUE 
(中略)
 End lmon rcfg omni enqueue reconfig stage5
 All grantable enqueues granted
 Begin lmon rcfg omni enqueue reconfig stage6
 End lmon rcfg omni enqueue reconfig stage6
 Submitted all GCS remote-cache requests
 Begin lmon rcfg omni enqueue reconfig stage7
 End lmon rcfg omni enqueue reconfig stage7
 Fix write in gcs resources
Sun Sep 18 20:50:47 2022
Reconfiguration complete (total time 0.1 secs)

●各ノードのDBアラートログ
# ノード1
Sun Sep 18 20:50:03 2022
Error 29701: unexpected return code 6 from the Cluster Synchronization Service.
Restarting dead background process LMHB
Starting background process LMHB
Sun Sep 18 20:50:03 2022
LMHB started with pid=45, OS id=9161 at elevated (RT) priority
Sun Sep 18 20:50:03 2022
Error 29701: unexpected return code 6 from the Cluster Synchronization Service
Sun Sep 18 20:50:03 2022
Errors in file /u01/app/oracle/diag/rdbms/orcl/orcl1/trace/orcl1_lmon_4963.trc:
(中略)
Setting Resource Manager plan SCHEDULER[0x4449]:DEFAULT_MAINTENANCE_PLAN via scheduler window
Setting Resource Manager plan DEFAULT_MAINTENANCE_PLAN via parameter
Sun Sep 18 20:52:13 2022
Shared IO Pool defaulting to 48MB. Trying to get it from Buffer Cache for process 10983.
Sun Sep 18 20:52:15 2022
===========================================================
Dumping current patch information
===========================================================
No patches have been applied
===========================================================

# ノード2
Sun Sep 18 20:50:23 2022
Reconfiguration started (old inc 10, new inc 12)
List of instances (total 2) :
 2 3
Dead instances (total 1) :
 1
My inst 2   
publish big name space -  dead or down/up instance detected, invalidate domain 0 
 Global Resource Directory frozen
 * dead instance detected - domain 0 invalid = TRUE 
(中略)
Reconfiguration complete (total time 0.2 secs) 
Sun Sep 18 20:51:57 2022
minact-scn: Master returning as live inst:1 has inc# mismatch instinc:0 cur:14 errcnt:0
Sun Sep 18 20:52:09 2022
Setting Resource Manager plan DEFAULT_MAINTENANCE_PLAN via parameter
Sun Sep 18 20:52:24 2022
db_recovery_file_dest_size of 7168 MB is 7.69% used. This is a
user-specified limit on the amount of space that will be used by this
database for recovery-related files, and does not reflect the amount of
space available in the underlying filesystem or ASM diskgroup.

# ノード3
Sun Sep 18 20:50:23 2022
Reconfiguration started (old inc 10, new inc 12)
List of instances (total 2) :
 2 3
Dead instances (total 1) :
 1
My inst 3   
publish big name space -  dead or down/up instance detected, invalidate domain 0 
 Global Resource Directory frozen
 * dead instance detected - domain 0 invalid = TRUE 
(中略)
 Set master node info 
 Submitted all remote-enqueue requests
 Dwn-cvts replayed, VALBLKs dubious
 All grantable enqueues granted
 Submitted all GCS remote-cache requests
 Fix write in gcs resources
Sun Sep 18 20:51:55 2022
Reconfiguration complete (total time 0.2 secs) 
Sun Sep 18 20:52:09 2022
Setting Resource Manager plan DEFAULT_MAINTENANCE_PLAN via parameter

 

■おわりに
CSS障害(cssagent,ocssd.bin,cssdmonitorプロセス停止)が発生した場合、cssagent,ocssd.bin,cssdmonitorプロセスが自動的に再起動され、DBからアプリデータをSELECTできることを確認できました。