NetApp Metrocluster Switchover FDISC Error mit Cisco MDS Switches

Ich hatte letztens ein kleines Problem… Wir haben in einem Setup einen NetApp MetroCluster mit Cisco MDS SAN Frontend aufgebaut. Eigentlich keine Hexerei, aber der Fehler liegt im Detail.

Im Falle eines Switchovers oder Switchbacks, verloren alle Hosts ihre Pfade und natürlich auch die LUNs, welche auf dem übernommenen Controller terminierten.

Der Fehler war schnell gefunden, die LIFs blieben einfach down.

Wir fanden dann diesen wunderbaren Artikel in der Knowledgebase: https://kb.netapp.com/support/s/article/ka11A0000001UmE/fcp-fcoe-lif-reports-operationally-down

Folgen wir also dem Guide:

network interface show -data-protocol fcp -fields status-admin,status-oper,status-extended



vserver lif status-oper status-extended status-admin
------------------ ---------------------- ----------- --------------- ------------
svm-*******01-mc *******_lif_1 down - up
svm-*******01-mc *******_lif_2 down - up
svm-*******01 *******_lif_1 down FDISC error - ID could not be acquired for this virtual port.
 up
svm-*******01 *******_lif_2 down FDISC error - ID could not be acquired for this virtual port.
 up
4 entries were displayed.

Interessant! Wir probierten herum und fanden schnell einen Workaround: einfach das Interface down und up setzen. Das Funktioniert … Lösung ist das aber keine.

Am MDS wurde auf Version 8.1.1 aktualisiert haben und es dabei offensichtlich ein paar neue Default gibt. Zumindest wird man beim Downgrade darauf hingewiesen:

Checking incompatible configuration(s)
The following configurations on active are incompatible with the system image
1) Service : flogi , Capability : CAP_FEATURE_FLOGI_SCALE_ENABLE
Description : flogi scale enabled on this switch
Capability requirement : STRICT
Enable/Disable command : no flogi scale enable

2) Service : flogi , Capability : CAP_FEATURE_FLOGI_QUIESCE_TIMEOUT
Description : flogi queisce timeout enabled on this switch
Capability requirement : STRICT
Enable/Disable command : flogi quiesce timeout 0



Checking dynamic incompatibilities:
-----------------------------------
No incompatible configurations

Irgendwie springt in diesem Fall diese Option ziemlich ins Auge: CAP_FEATURE_FLOGI_QUIESCE_TIMEOUT

Der Default Wert liegt in diesem Release bei:

show flogi internal info |inc quiesce
 Stats: fs_flogi_quiesce_timerval: 2000

Also schnell einen Versuch starten und mit dem folgenden Befehl auf einer der beiden Fabrics das Timeout wieder auf 0 setzen:

flogi quiesce timeout 0

Anschließend noch einmal einen Switchover/Switchback testen und viola … es funktioniert. 🙂

 

Ich hoffe das hilft jemanden weiter. Wir haben bisher keine Information dazu finden können.

 

 

Liebe Grüße

Falk

 

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.