Overvåkning med Nagios Status Bruk - Muligheter
Nagios http://warning.uio.no/ http://www.nagios.org/ Overtatt for Palantír I full produksjon fra november-aktig Snart versjon 3.0 ble sluppet i april
Brukere BSD Alle servere ping, disk, prosesser, hardware, dhcp-pooler Diskarrayer, netapp-ene DBA Alertlogg-meldinger, manglende backup av baser MG Temperatur på maskinrommet GT/GAP Masse mail-ting WWW-interfaces, aksesstid Lokal IT Ser sine ting Hjemmevakten
Grunnkonsepter Hosts og Services Ping og Service-checks Null eller flere services per host Daglig bruk Webgrensesnitt Varsling pr. epost (eller videre til RT) Konfigurering Flate filer Manuelt og automatisk
Sjekker Aktive eller passive sjekker Aktive sjekkes fra Nagios Passive sendes inn til Nagios Passive kan f. eks. være egne scripts Vi har f. eks. laget opplegg for mottak av SNMPtraps
Aktiv sjekk Passiv sjekk
Sortere Host-kolonne Service-kolonne
Søkefelt Status-kolonne Grupper (hjemmelagde) Melding
Sjekken er passiv sendt inn Snakkeboble noen har notert noe om tjenesten eller maskinen ofte gammel informasjon Link ofte til tjenesten selv Pølse i brød -knappen ofte link til dokumentasjon eller Houdini
{autent,autor}isering to tilfeller Vi snakker her om webinterfacet Endel USIT-nett og maskiner gis full tilgang 202-nettet, en del 6-nett og andre driftsnett pluss Houston Da slipper man å logge inn kan gjøre alt Ellers må man logge inn Bruker https og LDAP Hva du da får se, avhenger av brukeren din Mapping mellom bruker-nettgrupper og site-admin-lister Eksempel: <postmaster-logs@usit.uio.no> ----- postmaster
Daglig bruk Ukevakter ++ http://warning.uio.no/ Løse problemer Fjerne alarmer som må fjernes manuelt Sette tjenester og maskiner i nede-modus ved behov schedule downtime Melde fra om problemer til meg eller Werner Legge merke til Multiple alarmer Alarmer som burde ha kommet
Varsling Man kan i prinsippet varsle med hvasomhelst Mail og SMS er i bruk Vi fokuserer på web-grensesnittet Lokal IT får mail jevnlig, slik som fra Palantìr Støtte for ulik varsling avhengig av bl. a. tid
Nedetid Alltid når server skal tas ned Alltid når service skal stoppes Klikk på maskin eller service Schedule downtime for this host Schedule downtime for this service
Brukernavnet ditt Kommentar (blir ikke liggende)
Lukking av alarmer Noen alarmer må lukkes manuelt Det er snakk om alarmer fra passive sjekker Slik gjør du det: 1) Klikk på servicen (service-navnet) 2) Submit passive check result Andre alarmer skal forsvinne over tid etter at feilen er utbedret Hvis ikke kan man gjøre likedan for å mase, men dette er sjelden noe poeng
Hvordan cleare en alarm
Hva om man jobber med en sak? Acknowledge eller det vi kalte Sleep Finnes også i Nagios Acknowledge this service problem Brukes når Du vet om en feil Feilen vil være der såpass lenge at den skjemmer konsollet Du flytter da alarmen til Ack-ede servicer Når feilen blir rettet og sjekken sier OK, vil servicen dukke opp i hoved-viewet neste gang noe galt skjer.
En slags sleep
BSDs ansvar Driften av selve Nagios Hjelpe andre med plugins og integrasjon Bruke Nagios til å overvåke maskiner, HW og maskin-nære tjenester
Ditt ansvar Selv om BSD drifter Nagios, må andre grupper selv ha ansvar for egen overvåkning Vi hjelper gjerne til, men kan ikke påregnes mer enn ca. 20% synskhet Gruppene må selv ta eierskapet, men gjerne komme med ønsker og innspill til løsningen Og alle må bidra til at Nagios ikke mottar falske alarmer alle alarmer skal måtte gjøres noe med
Konfigurasjons-filene warning:/site/etc/nagios montert på saruman under /usit/warning/site/etc/nagios/ warning:/site/etc/nagios/<enhet>/ warning:/site/etc/nagios/usit-autogenerated/ warning:/site/etc/nagios/usit-hosts/ Maskiner trekkes inn fra tjenesteregisteret Hostgroups populeres fra /local/sbin/getroles Konfigurasjonen bygges hver natt fulgt av en reload (i ukedagene)
Eksempler # NIS define service { use hostgroup_name service_description check_command } generic-service nis-server nis check_ypserv
Eksempler # FLEXlm define service { use usit-nrpe hosts fullmakt.uio.no service_description FLEXlm check_command check_nrpe!check_flexlm -a /local/lib/flexlm/fullmakt.lic }
Eksempler # Passive service from logsurfer on pythia.uio.no define service { use external-service hostgroups oracle-server servicegroups dba-alertlog service_description Oracle Error Create Archive }
Planer videre Versjon 3.0 Mer integrasjon med alt Bruke mer funksjonalitet Ta i bruk flere plugins Eskalering? Databasebackend? Bedre webgui? Tjenesteregister?