更換SATADOM Boot Device後,如何最快速回復 hypervisor (esxi/AHV)?

更換SATADOM有二個時機:
一個是壞掉之後才換。
另外一個是告警告訴你快壞了,還有時間應變一下。不過硬體何時要掛點!?本來就是不可預期。

現在2018/2019年的機器,已經大部分換成了 M.2. Boot Device。應該良率會好一些。

SATADOM的狀況,可以用smartctl來手動檢查。如:

AHV # smartctl -a /dev/sda | grep -i result
SMART overall-health self-assessment test result: PASSED

AHV # smartctl -a /dev/sda | grep -i wear
233 Media_Wearout_Indicator 0x0000 099 000 000 Old_age Offline – 99


在nutanix文件上,清楚說明平常可以準備著一個開機還原ISO Phoenix,裡面包括hypervisor與CVM軟體版本。以備不時之需。

Step 1: 在 CVM 或 Foundation 裡建立phoenix ISO (時間花費:10-20分鐘)

img-2018-04-22_202309.png

2019年註記:這個過程已經變成 GUI 了。直接在 Prism -> Hardware 裡面選擇。
image_20200429_19001

 

Step 2: 用這個 Phoenix-4.0.x.ISO 放到 IPMI KVM console 裡開機,並開始安裝 (時間花費:30分鐘)

img-2018-04-22_203203.png

注意:上面的 “Choose action" 有很多模式可以選,請左右鍵確認。

Step 3: Plug out ISO,並回答 “y" 重開,進 Hypervisor / CVM 改成適合的 IP (花費時間:20分鐘)

img-2018-04-22_211953.png

STEP 4: 這個新的 CVM 上面沒有資料,也不屬於任一個 Cluster

img-2018-04-22_214834

STEP 5: 在原本的叢集上,已經可以 Discover 到這台全新的 NODE。點一點把此節點加進來。

img-2018-04-22_215627

img-2018-04-22_214907

 

順利的話,一小時可以收工。(當然這不包括換硬體與軟體準備的時間)

 

Notes:

有另外的方法可以保存 (preserve) CVM 上面原本的資料,請參考 nutanix docs。這個方法也可以用。只是多一些步驟出來。

這裡的方法是連 CVM 也重刷掉了。Data Resiliency Status = OK 的狀況下,沒有風險下做什麼都行。

移除節點的指令,對於 3-node cluster 不適用,叢集數 = 3 是最小單位。

 

 

 

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google photo

您的留言將使用 Google 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s