Exchange Server 2007 CCR Cluster – FSW Besonderheiten

Hallo Leutz,

Exchange Server 2007 CCR Cluster verwenden zwei Nodes und einen dritten Rechner (typischerweise einen HTS) als File Share Witness. Dieser FSW ist der Voter in dem CCR Cluster und regelt das Failoverhalten des Clusters und verhindert das sogenannte Split Brain Syndrom.

Der FSW ist nur auf einem HTS aktiv. Leider kann man den HTS nicht auf ein DFS setzen, so dass sich die Frage stellt, was bei dem Ausfall eines Datacenters in einem geographisch verteilten Cluster erfolgt, bzw. was bei einem Switch Ausfall passiert, wenn die HTS Server nicht redundant an verschiedene Switche angebunden sind.

Da der FSW der Voter ist, kann der passive Cluster Node nach einem Datacenter Ausfall die Cluster Gruppe und den CMS nicht mehr hochfahren. Der FSW ist also der SPOF. Der FSW muss manuell dem zweiten Knoten bekannt gemacht und aktiviert werden.

Wie der Passive Node zu aktivieren ist, steht hier:
http://msexchangeteam.com/archive/2007/04/25/438185.aspx
http://msexchangeteam.com/archive/2008/04/03/448615.aspx

Fuer eine CCR / HTS Anbindung in einem Datacenter gilt, die HTS Server mit NIC Teaming auf unterschiedlichen Switchen redundant anzubinden. Die beiden MBX Server brauchen kein NIC Teaming und ich habe schon gesehen, dass der EXBPA meckert, wenn NIC Teaming aktiv ist, bzw. der Failover Cluster Validation Test meckert (das bekommt man zwar weg, indem man dem NIC Team mit dem Hersteller Tool die richtige MAC setzt, muss aber nicht sein).

Wie die Einrichtung des FWS erfolgt, ist Exchange Versions spezifisch. Nachdem Exchange 2007 auf den Markt kam, war die Cluster Recommendation, den FSW in dem Datacenter zu betreiben, wo auch der Active Node liegt. Wenn dann das aktive Datacenter ausfaellt, muss das sekundaere Datacenter uebernehmen und der FSW manuell installiert, oder wenn schon installiert, manuell aktiviert werden. Siehe auch den MSEXCHANGETeam Artikel.

Eine gewisse Zeit war die Empfehlung einen CNAME Eintrag im DNS zu machen. Seit geraumer ist man davon abgegangen (wegen StrictNameChecking vom LANManServer) und empfiehlt, einfach nur den FQDN des FSW zu aendern.
In jedem Fall muss dem ehemals passiven Node, nun aktiven Node manuell beigebracht werden, wo der FSW liegt, was wie in dem Artikel beschrieben mit drei Befehlen geht.
Das Exchange Team ist davon ausgegangen, dass ein WAN Ausfall haeufiger vorkommt. Wenn dann doch das Datacenter ausfaellt, muss man halt einmal manuell umschwenken, was ja auch im Minutenbereich liegt.

Meiner Meinung nach ist das Thema SPOF bei FSW auch noch nicht hinreichend bekannt. Das Thema FSW ist eigentlich auch erst mit Windows 2008 Failover Cluster akut geworden, seitdem man mit 2008 Cluster die Nodes in unterschiedlichen Netzen betreiben kann.

Gruss Marc