Störung im deutschen Internet am Freitag Abend

Kurz nach 20 Uhr meldeten sich einige Kunden und teilten uns mit, dass ihre Webseiten nicht erreichbar sein. Wir haben das umgehend geprüft, aber unsere Server arbeiteten normal. Was war passiert?

Datenvolumen am DE-CIX Knotenpunkt in Frankfurt am 3. August 2012

Performance eines unserer Server am gleichen Tag, gemessen ebenfalls in Frankfurt

Verfügbarkeit dieses Servers bisher in diesem Jahr

Offensichtlich gab es ein Routing-Problem im deutschen Internet. In den Datenstatistiken des zentralen Internetknotens in Frankfurt (DE-CIX) war zwischen 20 und 21 Uhr ein deutlicher Einbruch im Datenvolumen. 

Eine offizielle Stellungnahmen über die Art der Störung liegt bisher nicht vor, es könnte sich zum Beispiel um ein Routing-Problem beim Weiterleiten von Datenpaketen handeln. 

Unser Monitoringsystem hat jedoch keinen Alarm geschlagen. Einerseits überwachen wir die Verfügbarkeit aller Dienste innerhalb des Rechenzentrums. Aber was passiert, wenn die Anbindung des Rechenzentrums an das Internet gestört ist? Probleme sind hier sehr unwahrscheinlich, da eine mehrfach redundante Anbindung an verschiedene Carrier vorhanden ist. 

Daher überprüfen wir durch den externen Anbieter Serverguard24 im Minutentakt die Verfügbarkeit der Server, der SSH-Zugänge, des Kundenmenüs sowie Übertragungsrate und Antwortzeiten. Die Überprüfung erfolgt von 6 verschiedenen Städten aus (Frankfurt, München, Nürnberg, Hamburg, Berlin, Strasbourg). 

Bei einem Ausfall oder dem Überschreiten bestimmter Grenzwerte erhalten wir eine Alarmierung per SMS und E-Mail.

Alle erfassten Daten werden archiviert, so dass wir auch im Nachhinein Auswertungen und Statistiken erzeugen können. Jeden Monat werden so bei uns über 1 Millionen Messwerte gespeichert.

Auch in unserern Statistiken können wir einen leichten Einbruch der Leistung nach 20 Uhr feststellen, dieser war jedoch unwesentlich. 

Wir nutzen das externe Monitoring auch, um die von uns gewährleistete Verfügbarkeit der Server von 99,9% im Jahresmittel zu überprüfen. Der im Beispiel gezeigte Server hatte in diesem Jahr bisher eine beeindruckende Verfügbarkeit von 99,99%. 

Eine 100%ige Verfügbarkeit ist in der Praxis kaum zu erzielen, denn es kann immer zum Ausfall einer Festplatte, eines Netzteils, der Hauptplatine, RAM-Speichers oder Lüfters kommen. 

Bei einer Verfügbarkeit von 99,9% liegt die Ausfallzeit jedoch bei maximal 8,5 Stunden pro Jahr. Gewährleistet ein Provider dagegen nur 99%, kann dies ein Ausfall von bis zu einer halben Woche bedeuten. Daher beim Vergleich von Hosting-Angeboten auch immer einen Blick auf die Verfügbarkeit und Reaktionszeiten (SLA, Service Level Agreement) werfen.