NetzwerkMonitoring und Alarmierungssystem  

Durch die Software Nagios (Network + Hagios), die früher NetSaint hieß, ist es möglich, komplexe IT-Strukturen zu überwachen.

Nagios bietet dazu eine Sammlung von Modulen zur Netzwerk-, Host- und speziell Serviceüberwachung sowie einem Webinterface zum Abfragen der gesammelten Daten. Nagios steht unter der GPL, ist also Freie Software, und läuft unter zahlreichen Unix-ähnlichen Betriebssystemen. Nagios und das Nagios-Logo sind eingetragene WarenNagioszeichen von Ethan Galstad.

Die zu kontrollierenden Hosts und Services werden mittels Konfigurationsdateien konfiguriert und Nagios bekannt gemacht. Die Überwachung kann aber erst erfolgen wenn dementsprechend Kommandos definiert wurden. Das Zusammenfassen in Gruppen für einzelne Hosts, Services und Kontakte ist ebenfalls möglich.

Nagios kann den Status verschiedener Dienste (z. B. SSH, FTP, HTTP) sowie den Festplattenplatz, Speicher- und CPU-Auslastung, Uptime usw. über diverse Module (Plug-ins) abfragen und auswerten. Da einige Testmethoden auf Protokollebene arbeiten (TCP, UDP, SNMP...), ist es möglich verschiedene Betriebssysteme zu überwachen. Für speziellere Aufgaben kommen weitere Programme zum Einsatz die ebenfalls frei verfügbar sind (NC_Net, NSClient). Es ist mit entsprechender Zusatzhardware sogar möglich Umweltbedingungen (z. B. Temperaturwerte, Luftfeuchtigkeit, Füllstände von Flüssigkeitstanks, ...) zu überwachen.

Sobald ein Dienst oder ein Host einen (teilweise einstellbaren) kritischen Wert erreicht oder gar nicht mehr verfügbar bzw. erreichbar ist, alarmiert Nagios die Kontaktpersonen über beliebige Kanäle (z. B. E-Mail, SMS, Pager, IM-Messages, Telefonanrufe ...). Dabei besteht auch die Möglichkeit, festzulegen, in welcher Reihenfolge Meldungen an weitere Kontaktpersonen erfolgen sollen, wenn eine Störung nach den ersten Meldungen nicht behoben wurde (Eskalationsmanagement). Ebenfalls können bei der Überwachung der Dienste untereinander bestehende Abhängigkeiten berücksichtigt werden. Wird etwa die Erreichbarkeit eines Rechners und ein auf ihm laufendes Programm überwacht, so wird bei einem Ausfall des gesamten Rechners die Meldung über das nicht mehr laufende Programm unterdrückt.Grafik

Um ein Nagios-System ausfallsicher, redundant und fehlalarmsicherer zu gestalten, gibt es die Möglichkeit des Distributed Monitoring- sowie des Redundant/Failover Monitoring Setups. Bei verteiltem Monitoring werden mehrere, dezentral installierte Nagios-Instanzen genutzt, die ihre Ergebnisse mittels NSCA an einen zentralen Nagios-Server senden, der sie als passive Check verarbeitet. Bei redundantem Monitoring arbeiten zwei Nagios-Instanzen parallel wie bei einem Clusternode und halten sich mit einem Heartbeat gegenseitig auf dem Laufenden.

Mithilfe des Nagios Remote Plugin Executor (nrpe) oder SSH ist es auch möglich, Plug-ins auf entfernten Rechnern auszuführen, die die Ergebnisse ihrer Untersuchung an den Nagios-Server melden. Eleganter allerdings ist die Überwachung via SNMP, wenn auch dessen Konfiguration schwieriger ist wenn man auch passiv überwachen möchte (SNMP-Traps).

 

Ruderboot