今回はCSS関連プロセス(CSSD(ocssd.bin)およびCSSエージェント(cssdagent,cssdmonitor))がすべて停止した場合のクラスタの動きを検証してみようと思います。
■検証環境
OS:Oracle Linux 6.5
GI:Oracle Grid Infrastructure 12c Release 1 (12.1.0.2.0) Enterprise Edition
DB:Oracle Database 12c Release 1 (12.1.0.2.0) Enterprise Edition
※3ノードRAC(管理者管理型DB)
■前提
・SCANを使用しています
・DNSサーバはdnsmasqを使用しています
・ASMの冗長構成は標準冗長性(2多重)
■設定情報
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
--------------------------------------------------------------------------------
Name Target State Server State details
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.CRS.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.DATA.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.FRA.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.LISTENER.lsnr
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.asm
ONLINE ONLINE node1 Started,STABLE
ONLINE ONLINE node2 Started,STABLE
ONLINE ONLINE node3 Started,STABLE
ora.net1.network
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.ons
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
1 ONLINE ONLINE node1 STABLE
ora.LISTENER_SCAN2.lsnr
1 ONLINE ONLINE node3 STABLE
ora.LISTENER_SCAN3.lsnr
1 ONLINE ONLINE node2 STABLE
ora.MGMTLSNR
1 ONLINE ONLINE node3 169.254.57.30 192.16
8.100.103,STABLE
ora.cvu
1 OFFLINE OFFLINE STABLE
ora.mgmtdb
1 ONLINE ONLINE node3 Open,STABLE
ora.node1.vip
1 ONLINE ONLINE node1 STABLE
ora.node2.vip
1 ONLINE ONLINE node2 STABLE
ora.node3.vip
1 ONLINE ONLINE node3 STABLE
ora.oc4j
1 ONLINE ONLINE node2 STABLE
ora.orcl.db
1 ONLINE ONLINE node1 Open,STABLE
2 ONLINE ONLINE node2 Open,STABLE
3 ONLINE ONLINE node3 Open,STABLE
ora.scan1.vip
1 ONLINE ONLINE node1 STABLE
ora.scan2.vip
1 ONLINE ONLINE node3 STABLE
ora.scan3.vip
1 ONLINE ONLINE node2 STABLE
--------------------------------------------------------------------------------
投票ディスク状態確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
## STATE File Universal Id File Name Disk group
-- ----- ----------------- --------- ---------
1. ONLINE c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
2. ONLINE cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
3. ONLINE aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).
CSSのMISSCOUNT値
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl get css misscount
CRS-4678: Successful get misscount 30 for Cluster Synchronization Services.
CSSのDISKTIMEOUT値
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl get css disktimeout
CRS-4678: Successful get disktimeout 200 for Cluster Synchronization Services.
CSSのREBOOTTIME値
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl get css reboottime
CRS-4678: Successful get reboottime 3 for Cluster Synchronization Services.
■検証パターン
①ノード1のCSS障害(cssdagent,ocssd.bin,cssdmonitorプロセス停止)
■検証
①ノード1のCSS障害(cssdagent,ocssd.bin,cssdmonitorプロセス停止)
ノード1でCSS障害(cssdagent,ocssd.bin,cssdmonitorプロセス停止)が発生した場合のクラスタの動きやDBからアプリデータをSELECTできるか検証します
今回はノード1のcssdagent,ocssd.bin,cssdmonitorプロセスをkillして疑似的にCSS障害を発生させます
【検証手順】
1. ノード1のcssdagent,ocssd.bin,cssdmonitorプロセスをkill
2. プロセスkill直後の各ノードのクラスタリソースと投票ディスクの状態を確認
3. プロセスkillの30秒後(MISSCOUNT値)の各ノードのクラスタリソースと投票ディスクの状態を確認
4. プロセスkillの200秒後(DISKTIMEOUT値)の各ノードのクラスタリソースと投票ディスクの状態を確認
5. ノード1でDBからアプリデータをSELECT
【想定】
ノード1が自動的に再起動され、ノード1でDBからアプリデータをSELECTできるはず
【検証結果】
ノード1は再起動されず、cssdagent,ocssd.bin,cssdmonitorプロセスが自動的に再起動され、ノード1でDBからアプリデータをSELECTできた(インスタンスが起動するまではDB接続できない)
※CSS関連プロセス障害はノード再起動されると思っていましたが、マニュアルを見たところ必ず再起動されるわけではないようです
cssdagentで障害が発生した場合、Oracle Clusterwareによってノードが再起動されることがあります。
【作業ログ】
[root@node1 ~]# ps -ef | grep d.bin | grep -v grep
root 3475 1 1 20:40 ? 00:00:04 /u01/app/12.1.0/grid/bin/ohasd.bin reboot
grid 3826 1 0 20:40 ? 00:00:01 /u01/app/12.1.0/grid/bin/oraagent.bin
grid 3839 1 0 20:40 ? 00:00:00 /u01/app/12.1.0/grid/bin/mdnsd.bin
grid 3841 1 0 20:40 ? 00:00:02 /u01/app/12.1.0/grid/bin/evmd.bin
grid 3856 1 0 20:40 ? 00:00:00 /u01/app/12.1.0/grid/bin/gpnpd.bin
grid 3868 3841 0 20:40 ? 00:00:00 /u01/app/12.1.0/grid/bin/evmlogger.bin -o /u01/app/12.1.0/grid/log/[HOSTNAME]/evmd/evmlogger.info -l /u01/app/12.1.0/grid/log/[HOSTNAME]/evmd/evmlogger.log
grid 3875 1 1 20:40 ? 00:00:05 /u01/app/12.1.0/grid/bin/gipcd.bin
root 3896 1 0 20:40 ? 00:00:01 /u01/app/12.1.0/grid/bin/orarootagent.bin
root 4081 1 0 20:40 ? 00:00:00 /u01/app/12.1.0/grid/bin/cssdmonitor
root 4097 1 0 20:40 ? 00:00:00 /u01/app/12.1.0/grid/bin/cssdagent
grid 4108 1 1 20:40 ? 00:00:04 /u01/app/12.1.0/grid/bin/ocssd.bin
root 4338 1 0 20:41 ? 00:00:01 /u01/app/12.1.0/grid/bin/octssd.bin reboot
root 4568 1 0 20:41 ? 00:00:01 /u01/app/12.1.0/grid/bin/osysmond.bin
root 4575 1 1 20:41 ? 00:00:03 /u01/app/12.1.0/grid/bin/crsd.bin reboot
grid 4708 1 0 20:41 ? 00:00:01 /u01/app/12.1.0/grid/bin/oraagent.bin
root 4724 1 0 20:41 ? 00:00:01 /u01/app/12.1.0/grid/bin/orarootagent.bin
grid 4834 1 0 20:41 ? 00:00:00 /u01/app/12.1.0/grid/bin/tnslsnr LISTENER -no_crs_notify -inherit
grid 4843 1 0 20:41 ? 00:00:00 /u01/app/12.1.0/grid/bin/tnslsnr LISTENER_SCAN1 -no_crs_notify -inherit
oracle 4898 1 0 20:41 ? 00:00:01 /u01/app/12.1.0/grid/bin/oraagent.bin
[root@node1 ~]# kill -9 4097 4108 4081
[root@node1 ~]# ps -ef | grep d.bin | grep -v grep
root 3475 1 1 20:40 ? 00:00:07 /u01/app/12.1.0/grid/bin/ohasd.bin reboot
grid 3826 1 0 20:40 ? 00:00:02 /u01/app/12.1.0/grid/bin/oraagent.bin
grid 3839 1 0 20:40 ? 00:00:01 /u01/app/12.1.0/grid/bin/mdnsd.bin
grid 3856 1 0 20:40 ? 00:00:01 /u01/app/12.1.0/grid/bin/gpnpd.bin
grid 3875 1 1 20:40 ? 00:00:09 /u01/app/12.1.0/grid/bin/gipcd.bin
root 3896 1 0 20:40 ? 00:00:02 /u01/app/12.1.0/grid/bin/orarootagent.bin
root 4568 1 0 20:41 ? 00:00:03 /u01/app/12.1.0/grid/bin/osysmond.bin
grid 4834 1 0 20:41 ? 00:00:00 /u01/app/12.1.0/grid/bin/tnslsnr LISTENER -no_crs_notify -inherit
grid 4843 1 0 20:41 ? 00:00:00 /u01/app/12.1.0/grid/bin/tnslsnr LISTENER_SCAN1 -no_crs_notify -inherit
root 9218 1 2 20:50 ? 00:00:00 /u01/app/12.1.0/grid/bin/cssdmonitor
root 9221 1 1 20:50 ? 00:00:00 /u01/app/12.1.0/grid/bin/cssdagent
grid 9243 1 1 20:50 ? 00:00:00 /u01/app/12.1.0/grid/bin/ocssd.bin
grid 9249 1 2 20:50 ? 00:00:00 /u01/app/12.1.0/grid/bin/evmd.bin
2. プロセスkill直後の各ノードのクラスタリソースと投票ディスクの状態を確認
# ノード1
クラスタリソース確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4000: Command Status failed, or completed with errors.
投票ディスク状態確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
## STATE File Universal Id File Name Disk group
-- ----- ----------------- --------- ---------
1. ONLINE c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
2. ONLINE cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
3. ONLINE aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).
# ノード2 ※ノード3も同様
クラスタリソース確認
[root@node2 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
--------------------------------------------------------------------------------
Name Target State Server State details
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.CRS.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.DATA.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.FRA.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.LISTENER.lsnr
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.asm
ONLINE ONLINE node1 Started,STABLE
ONLINE ONLINE node2 Started,STABLE
ONLINE ONLINE node3 Started,STABLE
ora.net1.network
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.ons
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
1 ONLINE ONLINE node1 STABLE
ora.LISTENER_SCAN2.lsnr
1 ONLINE ONLINE node3 STABLE
ora.LISTENER_SCAN3.lsnr
1 ONLINE ONLINE node2 STABLE
ora.MGMTLSNR
1 ONLINE ONLINE node3 169.254.57.30 192.16
8.100.103,STABLE
ora.cvu
1 OFFLINE OFFLINE STABLE
ora.mgmtdb
1 ONLINE ONLINE node3 Open,STABLE
ora.node1.vip
1 ONLINE ONLINE node1 STABLE
ora.node2.vip
1 ONLINE ONLINE node2 STABLE
ora.node3.vip
1 ONLINE ONLINE node3 STABLE
ora.oc4j
1 ONLINE ONLINE node2 STABLE
ora.orcl.db
1 ONLINE ONLINE node1 Open,STABLE
2 ONLINE ONLINE node2 Open,STABLE
3 ONLINE ONLINE node3 Open,STABLE
ora.scan1.vip
1 ONLINE ONLINE node1 STABLE
ora.scan2.vip
1 ONLINE ONLINE node3 STABLE
ora.scan3.vip
1 ONLINE ONLINE node2 STABLE
--------------------------------------------------------------------------------
投票ディスク状態確認
[root@node2 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
## STATE File Universal Id File Name Disk group
-- ----- ----------------- --------- ---------
1. ONLINE c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
2. ONLINE cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
3. ONLINE aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).
3. プロセスkillの30秒後(MISSCOUNT値)の各ノードのクラスタリソースと投票ディスクの状態を確認
# ノード1
クラスタリソース確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4000: Command Status failed, or completed with errors.
投票ディスク状態確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
## STATE File Universal Id File Name Disk group
-- ----- ----------------- --------- ---------
1. ONLINE c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
2. ONLINE cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
3. ONLINE aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).
[root@node1 ~]# su - oracle -c "sqlplus / as sysdba"
アイドル・インスタンスに接続しました。
★cssdagent,ocssd.bin,cssdmonitorプロセス再起動直後はインスタンス1へ接続できなかった
# ノード2 ※ノード3も同様
クラスタリソース確認
[root@node2 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
--------------------------------------------------------------------------------
Name Target State Server State details
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.CRS.dg
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.DATA.dg
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.FRA.dg
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.LISTENER.lsnr
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.asm
ONLINE ONLINE node2 Started,STABLE
ONLINE ONLINE node3 Started,STABLE
ora.net1.network
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.ons
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
1 ONLINE OFFLINE STABLE
ora.LISTENER_SCAN2.lsnr
1 ONLINE ONLINE node3 STABLE
ora.LISTENER_SCAN3.lsnr
1 ONLINE ONLINE node2 STABLE
ora.MGMTLSNR
1 ONLINE ONLINE node3 169.254.57.30 192.16
8.100.103,STABLE
ora.cvu
1 OFFLINE OFFLINE STABLE
ora.mgmtdb
1 ONLINE ONLINE node3 Open,STABLE
ora.node1.vip
1 ONLINE OFFLINE node3 STARTING
ora.node2.vip
1 ONLINE ONLINE node2 STABLE
ora.node3.vip
1 ONLINE ONLINE node3 STABLE
ora.oc4j
1 ONLINE ONLINE node2 STABLE
ora.orcl.db
1 ONLINE OFFLINE STABLE
2 ONLINE ONLINE node2 Open,STABLE
3 ONLINE ONLINE node3 Open,STABLE
ora.scan1.vip
1 ONLINE OFFLINE node2 STARTING
ora.scan2.vip
1 ONLINE ONLINE node3 STABLE
ora.scan3.vip
1 ONLINE ONLINE node2 STABLE
--------------------------------------------------------------------------------
★クラスタリソースがノード2・3で稼働するよう再構成されました
ノード1で動いていたノードVIPがノード3へ、ノード1で動いていたSCAN VIPがノード2へそれぞれフェイルオーバーし、インスタンス1が停止しました
投票ディスク状態確認
[root@node2 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
## STATE File Universal Id File Name Disk group
-- ----- ----------------- --------- ---------
1. ONLINE c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
2. ONLINE cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
3. ONLINE aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).
4. プロセスkillの200秒後(DISKTIMEOUT値)の各ノードのクラスタリソースと投票ディスクの状態を確認
# ノード1 ※ノード2・3も同様
クラスタリソース確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl stat res -t
--------------------------------------------------------------------------------
Name Target State Server State details
--------------------------------------------------------------------------------
Local Resources
--------------------------------------------------------------------------------
ora.CRS.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.DATA.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.FRA.dg
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.LISTENER.lsnr
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.asm
ONLINE ONLINE node1 Started,STABLE
ONLINE ONLINE node2 Started,STABLE
ONLINE ONLINE node3 Started,STABLE
ora.net1.network
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
ora.ons
ONLINE ONLINE node1 STABLE
ONLINE ONLINE node2 STABLE
ONLINE ONLINE node3 STABLE
--------------------------------------------------------------------------------
Cluster Resources
--------------------------------------------------------------------------------
ora.LISTENER_SCAN1.lsnr
1 ONLINE ONLINE node1 STABLE
ora.LISTENER_SCAN2.lsnr
1 ONLINE ONLINE node3 STABLE
ora.LISTENER_SCAN3.lsnr
1 ONLINE ONLINE node2 STABLE
ora.MGMTLSNR
1 ONLINE ONLINE node3 169.254.57.30 192.16
8.100.103,STABLE
ora.cvu
1 OFFLINE OFFLINE STABLE
ora.mgmtdb
1 ONLINE ONLINE node3 Open,STABLE
ora.node1.vip
1 ONLINE ONLINE node1 STABLE
ora.node2.vip
1 ONLINE ONLINE node2 STABLE
ora.node3.vip
1 ONLINE ONLINE node3 STABLE
ora.oc4j
1 ONLINE ONLINE node2 STABLE
ora.orcl.db
1 ONLINE ONLINE node1 Open,STABLE
2 ONLINE ONLINE node2 Open,STABLE
3 ONLINE ONLINE node3 Open,STABLE
ora.scan1.vip
1 ONLINE ONLINE node1 STABLE
ora.scan2.vip
1 ONLINE ONLINE node3 STABLE
ora.scan3.vip
1 ONLINE ONLINE node2 STABLE
--------------------------------------------------------------------------------
★ノード3へフェイルオーバーしたノード1のノードVIP、SCAN VIPがノード1へフェイルバックしています
インスタンス1も起動しました
クラスタリソースもノード1・2・3で稼働するよう再構成されました
投票ディスク状態確認
[root@node1 ~]# /u01/app/12.1.0/grid/bin/crsctl query css votedisk
## STATE File Universal Id File Name Disk group
-- ----- ----------------- --------- ---------
1. ONLINE c65a4dc1e8824ff7bfb08ce7e31cf578 (/dev/sdb1) [CRS]
2. ONLINE cdc840af67ef4fcfbf5a77edeedc41bc (/dev/sdc1) [CRS]
3. ONLINE aafc9cb42c8d4fbebf1108e1d519d0c9 (/dev/sdd1) [CRS]
Located 3 voting disk(s).
5. ノード1でDBからアプリデータをSELECT
SQL> select * from scott.emp;
EMPNO ENAME JOB MGR HIREDATE SAL COMM DEPTNO
---------- ------------------------------ --------------------------- ---------- -------- ---------- ---------- ----------
7369 SMITH CLERK 7902 80-12-17 800 20
7499 ALLEN SALESMAN 7698 81-02-20 1600 300 30
7521 WARD SALESMAN 7698 81-02-22 1250 500 30
7566 JONES MANAGER 7839 81-04-02 2975 20
7654 MARTIN SALESMAN 7698 81-09-28 1250 1400 30
7698 BLAKE MANAGER 7839 81-05-01 2850 30
7782 CLARK MANAGER 7839 81-06-09 2450 10
7839 KING PRESIDENT 81-11-17 5000 10
7844 TURNER SALESMAN 7698 81-09-08 1500 0 30
7900 JAMES CLERK 7698 81-12-03 950 30
7902 FORD ANALYST 7566 81-12-03 3000 20
7934 MILLER CLERK 7782 82-01-23 1300 10
12行が選択されました。
★ノード1でDBからアプリデータをSELECTできた
●各ノードのクラスタアラートログ
# ノード1
2022-09-18 20:50:03.239 [CSSDAGENT(9155)]CRS-8500: Oracle Clusterware CSSDAGENTプロセスをオペレーティング・システム・プロセスID 9155で開始しています
2022-09-18 20:50:03.256 [CSSDMONITOR(9163)]CRS-8500: Oracle Clusterware CSSDMONITORプロセスをオペレーティング・システム・プロセスID 9163で開始しています
2022-09-18 20:50:03.614 [ORAAGENT(4708)]CRS-5822: エージェント'/u01/app/12.1.0/grid/bin/oraagent_grid'はサーバーから切断されました。詳細は(:CRSAGF00117:) {0:1:5}(/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_grid.trc)を参照してください。
2022-09-18 20:50:03.614 [ORAAGENT(4898)]CRS-5822: エージェント'/u01/app/12.1.0/grid/bin/oraagent_oracle'はサーバーから切断されました。詳細は(:CRSAGF00117:) {0:9:35}(/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_oracle.trc)を参照してください。
2022-09-18 20:50:03.614 [ORAROOTAGENT(4724)]CRS-5822: エージェント'/u01/app/12.1.0/grid/bin/orarootagent_root'はサーバーから切断されました。詳細は(:CRSAGF00117:) {0:5:4}(/u01/app/grid/diag/crs/node1/crs/trace/crsd_orarootagent_root.trc)を参照してください。
2022-09-18 20:50:04.320 [CSSDMONITOR(9218)]CRS-8500: Oracle Clusterware CSSDMONITORプロセスをオペレーティング・システム・プロセスID 9218で開始しています
2022-09-18 20:50:04.346 [CSSDAGENT(9221)]CRS-8500: Oracle Clusterware CSSDAGENTプロセスをオペレーティング・システム・プロセスID 9221で開始しています
2022-09-18 20:50:04.491 [OCSSD(9243)]CRS-8500: Oracle Clusterware OCSSDプロセスをオペレーティング・システム・プロセスID 9243で開始しています
2022-09-18 20:50:04.559 [ORAAGENT(3826)]CRS-5011: リソース"ora.asm"のチェックが失敗しました: 詳細は"(:CLSN00006:)"("/u01/app/grid/diag/crs/node1/crs/trace/ohasd_oraagent_grid.trc")を参照してください
2022-09-18 20:50:04.568 [ORAAGENT(3826)]CRS-5011: リソース"ora.asm"のチェックが失敗しました: 詳細は"(:CLSN00006:)"("/u01/app/grid/diag/crs/node1/crs/trace/ohasd_oraagent_grid.trc")を参照してください
2022-09-18 20:50:05.393 [EVMD(9249)]CRS-8500: Oracle Clusterware EVMDプロセスをオペレーティング・システム・プロセスID 9249で開始しています
2022-09-18 20:50:05.544 [OCSSD(9243)]CRS-1713: CSSDデーモンがhubモードで起動しています
2022-09-18 20:50:21.519 [OCSSD(9243)]CRS-1707: ノードnode1、番号1のリース取得が完了しました
2022-09-18 20:50:22.614 [OCSSD(9243)]CRS-1605: CSSD投票ファイルがオンラインです: /dev/sdd1。詳細は/u01/app/grid/diag/crs/node1/crs/trace/ocssd.trcを参照してください。
2022-09-18 20:50:22.619 [OCSSD(9243)]CRS-1605: CSSD投票ファイルがオンラインです: /dev/sdc1。詳細は/u01/app/grid/diag/crs/node1/crs/trace/ocssd.trcを参照してください。
2022-09-18 20:50:22.622 [OCSSD(9243)]CRS-1605: CSSD投票ファイルがオンラインです: /dev/sdb1。詳細は/u01/app/grid/diag/crs/node1/crs/trace/ocssd.trcを参照してください。
2022-09-18 20:50:24.323 [OCSSD(9243)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode1 node2 node3 です。
2022-09-18 20:50:26.529 [OCTSSD(9467)]CRS-8500: Oracle Clusterware OCTSSDプロセスをオペレーティング・システム・プロセスID 9467で開始しています
2022-09-18 20:50:27.644 [OCTSSD(9467)]CRS-2407: 新しいクラスタ時刻同期化サービスの参照ノードはホストnode2です。
2022-09-18 20:50:27.645 [OCTSSD(9467)]CRS-2401: クラスタ時刻同期化サービスがホストnode1で起動されました。
2022-09-18 20:50:27.662 [OCTSSD(9467)]CRS-2408: ホストnode1の時計は、平均クラスタ時刻と同期化するために、クラスタ時刻同期化サービスによって更新されました。
2022-09-18 20:50:50.035 [CRSD(10264)]CRS-8500: Oracle Clusterware CRSDプロセスをオペレーティング・システム・プロセスID 10264で開始しています
2022-09-18 20:50:51.412 [CRSD(10264)]CRS-1012: OCRサービスがノードnode1で起動されました。
2022-09-18 20:50:51.469 [CRSD(10264)]CRS-1201: CRSDがノードnode1で起動されました。
2022-09-18 20:51:44.429 [ORAAGENT(10590)]CRS-8500: Oracle Clusterware ORAAGENTプロセスをオペレーティング・システム・プロセスID 10590で開始しています
2022-09-18 20:51:44.437 [ORAAGENT(10594)]CRS-8500: Oracle Clusterware ORAAGENTプロセスをオペレーティング・システム・プロセスID 10594で開始しています
2022-09-18 20:51:44.457 [ORAROOTAGENT(10599)]CRS-8500: Oracle Clusterware ORAROOTAGENTプロセスをオペレーティング・システム・プロセスID 10599で開始しています
2022-09-18 20:51:44.529 [ORAAGENT(10594)]CRS-5011: リソース"orcl"のチェックが失敗しました: 詳細は"(:CLSN00007:)"("/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_oracle.trc")を参照してください
2022-09-18 20:51:46.063 [ORAAGENT(10590)]CRS-5016: プロセス"/u01/app/12.1.0/grid/bin/lsnrctl"(エージェント"ORAAGENT"によりアクション"start"に対して生成)が失敗しました: 詳細は"(:CLSN00010:)"("/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_grid.trc")を参照してください
2022-09-18 20:51:49.757 [ORAAGENT(10672)]CRS-8500: Oracle Clusterware ORAAGENTプロセスをオペレーティング・システム・プロセスID 10672で開始しています
2022-09-18 20:51:50.856 [ORAAGENT(10690)]CRS-8500: Oracle Clusterware ORAAGENTプロセスをオペレーティング・システム・プロセスID 10690で開始しています
2022-09-18 20:51:50.950 [ORAAGENT(10690)]CRS-5011: リソース"orcl"のチェックが失敗しました: 詳細は"(:CLSN00007:)"("/u01/app/grid/diag/crs/node1/crs/trace/crsd_oraagent_oracle.trc")を参照してください
# ノード2
2022-09-18 20:50:18.170 [OCSSD(4027)]CRS-1612: タイムアウト間隔の50%で、ノードnode1(1)のネットワーク通信がありません。クラスタからこのノードを14.450秒内に削除します
2022-09-18 20:50:22.857 [OCSSD(4027)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode2 node3 です。
2022-09-18 20:50:22.862 [CRSD(4510)]CRS-5504: ノード'node1'について、ノード・ダウン・イベントが報告されました。
2022-09-18 20:50:24.331 [OCSSD(4027)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode1 node2 node3 です。
2022-09-18 20:51:02.585 [ORAROOTAGENT(4669)]CRS-5017: リソース・アクション"ora.scan1.vip start"に次のエラーが発生しました:
2022-09-18 20:51:02.585+CRS-5005: IPアドレス: 192.168.56.203は、ネットワーク内ですでに使用されています
。詳細は"(:CLSN00107:)"("/u01/app/grid/diag/crs/node2/crs/trace/crsd_orarootagent_root.trc")を参照してください。
2022-09-18 20:51:43.311 [ORAROOTAGENT(4669)]CRS-5017: リソース・アクション"ora.node1.vip start"に次のエラーが発生しました:
2022-09-18 20:51:43.311+CRS-5005: IPアドレス: 192.168.56.111は、ネットワーク内ですでに使用されています
。詳細は"(:CLSN00107:)"("/u01/app/grid/diag/crs/node2/crs/trace/crsd_orarootagent_root.trc")を参照してください。
2022-09-18 20:51:44.350 [CRSD(4510)]CRS-2773: サーバー'node1'はプール'Generic'から削除されました。
2022-09-18 20:51:44.351 [CRSD(4510)]CRS-2773: サーバー'node1'はプール'ora.orcl'から削除されました。
2022-09-18 20:51:44.748 [CRSD(4510)]CRS-2750: サーバー'node1'でカーディナリティ違反が検出されました。リソース'ora.LISTENER_SCAN1.lsnr'が不明状態です。詳細は(:CRSPE00149:) {2:54299:363}(/u01/app/grid/diag/crs/node2/crs/trace/crsd.trc)を参照してください。
2022-09-18 20:51:45.538 [CRSD(4510)]CRS-2750: サーバー'node1'でカーディナリティ違反が検出されました。リソース'ora.scan1.vip'が不明状態です。詳細は(:CRSPE00149:) {2:54299:363}(/u01/app/grid/diag/crs/node2/crs/trace/crsd.trc)を参照してください。
2022-09-18 20:51:45.618 [CRSD(4510)]CRS-2772: サーバー'node1'はプール'Generic'に割り当てられています。
2022-09-18 20:51:45.619 [CRSD(4510)]CRS-2772: サーバー'node1'はプール'ora.orcl'に割り当てられています。
# ノード3
2022-09-18 20:50:17.819 [OCSSD(3851)]CRS-1612: タイムアウト間隔の50%で、ノードnode1(1)のネットワーク通信がありません。クラスタからこのノードを14.800秒内に削除します
2022-09-18 20:50:22.848 [OCSSD(3851)]CRS-1632: ノードnode1がクラスタ・インカーネーション558998465のクラスタから削除されています
2022-09-18 20:50:22.857 [OCSSD(3851)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode2 node3 です。
2022-09-18 20:50:23.850 [OCSSD(3851)]CRS-1601: CSSDの再構成が完了しました。アクティブ・ノードはnode1 node2 node3 です。
2022-09-18 20:51:02.589 [ORAROOTAGENT(4461)]CRS-5017: リソース・アクション"ora.node1.vip start"に次のエラーが発生しました:
2022-09-18 20:51:02.589+CRS-5005: IPアドレス: 192.168.56.111は、ネットワーク内ですでに使用されています
。詳細は"(:CLSN00107:)"("/u01/app/grid/diag/crs/node3/crs/trace/crsd_orarootagent_root.trc")を参照してください。
2022-09-18 20:51:43.309 [ORAROOTAGENT(4461)]CRS-5017: リソース・アクション"ora.scan1.vip start"に次のエラーが発生しました:
2022-09-18 20:51:43.309+CRS-5005: IPアドレス: 192.168.56.203は、ネットワーク内ですでに使用されています
。詳細は"(:CLSN00107:)"("/u01/app/grid/diag/crs/node3/crs/trace/crsd_orarootagent_root.trc")を参照してください。
●各ノードのASMアラートログ
# ノード1
Sun Sep 18 20:50:03 2022
Error 29701: unexpected return code 6 from the Cluster Synchronization Service.
Sun Sep 18 20:50:03 2022
NOTE: client exited [4575]
Sun Sep 18 20:50:03 2022
Error 29701: unexpected return code 6 from the Cluster Synchronization Service
Sun Sep 18 20:50:03 2022
Errors in file /u01/app/grid/diag/asm/+asm/+ASM1/trace/+ASM1_lmon_4442.trc:
ORA-29701: unable to connect to Cluster Synchronization Service
USER (ospid: 4442): terminating the instance due to error 29701
(中略)
Sun Sep 18 20:50:51 2022
NOTE: Standard client +ASM1:+ASM:node-cluster registered, osid 10288, mbr 0x0, asmb 10286 (reg:206628584)
Sun Sep 18 20:50:51 2022
NOTE: ASMB connected to ASM instance +ASM1 osid: 10288 (Flex mode; client id 0xffffffffffffffff)
Sun Sep 18 20:51:54 2022
NOTE: Standard client orcl1:orcl:node-cluster registered, osid 10804, mbr 0x1, asmb 10798 (reg:3226355133)
NOTE: client orcl1:orcl:node-cluster mounted group 3 (FRA)
NOTE: client orcl1:orcl:node-cluster mounted group 2 (DATA)
Sun Sep 18 20:54:44 2022
ALTER SYSTEM SET local_listener=' (ADDRESS=(PROTOCOL=TCP)(HOST=192.168.56.111)(PORT=1521))' SCOPE=MEMORY SID='+ASM1';
# ノード2
Sun Sep 18 20:50:23 2022
Reconfiguration started (old inc 10, new inc 12)
List of instances (total 2) :
2 3
Dead instances (total 1) :
1
My inst 2
Global Resource Directory frozen
* dead instance detected - domain 1 invalid = TRUE
* dead instance detected - domain 2 invalid = TRUE
(中略)
End lmon rcfg omni enqueue reconfig stage5
All grantable enqueues granted
Begin lmon rcfg omni enqueue reconfig stage6
End lmon rcfg omni enqueue reconfig stage6
Submitted all GCS remote-cache requests
Begin lmon rcfg omni enqueue reconfig stage7
End lmon rcfg omni enqueue reconfig stage7
Fix write in gcs resources
Sun Sep 18 20:50:47 2022
Reconfiguration complete (total time 0.1 secs)
# ノード3
Sun Sep 18 20:50:23 2022
Reconfiguration started (old inc 10, new inc 12)
List of instances (total 2) :
2 3
Dead instances (total 1) :
1
My inst 3
Global Resource Directory frozen
* dead instance detected - domain 1 invalid = TRUE
* dead instance detected - domain 2 invalid = TRUE
(中略)
End lmon rcfg omni enqueue reconfig stage5
All grantable enqueues granted
Begin lmon rcfg omni enqueue reconfig stage6
End lmon rcfg omni enqueue reconfig stage6
Submitted all GCS remote-cache requests
Begin lmon rcfg omni enqueue reconfig stage7
End lmon rcfg omni enqueue reconfig stage7
Fix write in gcs resources
Sun Sep 18 20:50:47 2022
Reconfiguration complete (total time 0.1 secs)
●各ノードのDBアラートログ
# ノード1
Sun Sep 18 20:50:03 2022
Error 29701: unexpected return code 6 from the Cluster Synchronization Service.
Restarting dead background process LMHB
Starting background process LMHB
Sun Sep 18 20:50:03 2022
LMHB started with pid=45, OS id=9161 at elevated (RT) priority
Sun Sep 18 20:50:03 2022
Error 29701: unexpected return code 6 from the Cluster Synchronization Service
Sun Sep 18 20:50:03 2022
Errors in file /u01/app/oracle/diag/rdbms/orcl/orcl1/trace/orcl1_lmon_4963.trc:
(中略)
Setting Resource Manager plan SCHEDULER[0x4449]:DEFAULT_MAINTENANCE_PLAN via scheduler window
Setting Resource Manager plan DEFAULT_MAINTENANCE_PLAN via parameter
Sun Sep 18 20:52:13 2022
Shared IO Pool defaulting to 48MB. Trying to get it from Buffer Cache for process 10983.
Sun Sep 18 20:52:15 2022
===========================================================
Dumping current patch information
===========================================================
No patches have been applied
===========================================================
# ノード2
Sun Sep 18 20:50:23 2022
Reconfiguration started (old inc 10, new inc 12)
List of instances (total 2) :
2 3
Dead instances (total 1) :
1
My inst 2
publish big name space - dead or down/up instance detected, invalidate domain 0
Global Resource Directory frozen
* dead instance detected - domain 0 invalid = TRUE
(中略)
Reconfiguration complete (total time 0.2 secs)
Sun Sep 18 20:51:57 2022
minact-scn: Master returning as live inst:1 has inc# mismatch instinc:0 cur:14 errcnt:0
Sun Sep 18 20:52:09 2022
Setting Resource Manager plan DEFAULT_MAINTENANCE_PLAN via parameter
Sun Sep 18 20:52:24 2022
db_recovery_file_dest_size of 7168 MB is 7.69% used. This is a
user-specified limit on the amount of space that will be used by this
database for recovery-related files, and does not reflect the amount of
space available in the underlying filesystem or ASM diskgroup.
# ノード3
Sun Sep 18 20:50:23 2022
Reconfiguration started (old inc 10, new inc 12)
List of instances (total 2) :
2 3
Dead instances (total 1) :
1
My inst 3
publish big name space - dead or down/up instance detected, invalidate domain 0
Global Resource Directory frozen
* dead instance detected - domain 0 invalid = TRUE
(中略)
Set master node info
Submitted all remote-enqueue requests
Dwn-cvts replayed, VALBLKs dubious
All grantable enqueues granted
Submitted all GCS remote-cache requests
Fix write in gcs resources
Sun Sep 18 20:51:55 2022
Reconfiguration complete (total time 0.2 secs)
Sun Sep 18 20:52:09 2022
Setting Resource Manager plan DEFAULT_MAINTENANCE_PLAN via parameter
■おわりに
CSS障害(cssagent,ocssd.bin,cssdmonitorプロセス停止)が発生した場合、cssagent,ocssd.bin,cssdmonitorプロセスが自動的に再起動され、DBからアプリデータをSELECTできることを確認できました。