Kritiske hendelser - Oppsummering av status ved utgangen av juli En partner for helsetjenester i utvikling
Status nå
Ett eksempel på feilsituasjon: Alvorlig hendelse 9. juni
Alvorlig hendelse 9.juni Hva skjedde I forbindelse med planlagt nødvendig vedlikehold i datasenter SDS1, feilet det redundante nettverket. Dette til tross for at redundanstest var utført i forkant og endringen hadde vært oppe til godkjenning i to omganger. Vedlikehold av sentral teknisk komponent var nøye planlagt og vurdert, men programversjoner mellom noder kom i for stort sprik i forhold til hverandre Sykehuspartner iverksatte umiddelbart rollback ihht prosedyrer, noe som tok 45 minutter
Alvorlig hendelse 9.juni Tilgangen til tjenester i det ene datasenteret (SDS1) var utilgjengelig for omverdenen i 45 minutter. Konsekvens Alle HF ble berørt, men i ulik grad. AHUS og SIHF var lite berørt. Hendelsen medførte også utfall av Sykehuspartners interne tjenester, som Regional Brukerstøtte og Driftssenter er avhengig av, noe som gav en mangelfull oppfølgning av HFene i situasjonen
Alvorlig hendelse 9.juni Forbedringsområder Endringen ble utført som en del av rutinemessig vedlikehold. Sannsynlighet for feil og konsekvens ble derfor undervurdert av utførende enhet, og den interne/eksterne varslingen av planlagt arbeid samt beredskapsplanlegging ble mangelfull. Det samtidige utfallet av interne støtteverktøy hos Regional Brukerstøtte og Driftssenter medførte at ekstern varsling og kriseledelse ble mangelfull.
Alvorlig hendelse 9.juni Tiltak Sykehuspartner har igangsatt gjennomgang av rutiner knyttet til vedlikehold av kritiske, regionale komponenter Sikre gjennomføring av jevnlige beredskapsøvelser for utfall av kritiske regionale komponenter.
Tiltak Tiltak detaljert Gjennomgang av rutiner og prioritering ved bortfall av IKT systemer på driftssenteret. Major endringer på sentral regionalt komponenter skal ikke utføres før prosedyren er kvalitetssikret av leverandøren og skal varsles til alle HF. Innarbeide rutine for å gå igjennom worst case scenario i en risikovurdering av en Major change på sentral infrastruktur. Det skal gjøres en vurdering ift. behov for ekstra beredskap og tiltak på høytilgjengelige tjenester. Iverksette gjennomgang av tjenester som er høytilgjengelige og verifisere at redundansen fungerer i henhold til design, og sikre regelmessig testing. Gjennomføre regelmessige beredskapsøvelser med bortfall av sentrale regionale komponenter/tjenester og av IKT systemer på driftssenteret. Inkludere release, innsatsleder, regional brukerstøtte. Vurdere å sette opp redundante løsninger for driftssenteret på SDS 3
Status nå
Utvikling i rotårsakskategorier hittil i Aldrende infrastruktur Manglende Applikasjonsvedlikehold (HF/SP/Lev.) Eksterne forhold Innføring av prosjekter og tjenesteendringer Rutinesvikt og manuelle feil Stopp i dataflyt mellom systemer
Utvikling for alle foretakene (alle årsaker og foretaksspesifikke tjenester) hittil i. AHUS STHF OUS SVHF: Juni: 0 hendelser Juli: 0 hendelser SIHF SØHF SSHF VVHF
HF Berørte tjenester hittil i (alle årsaker) Jan. Feb. Mars Apr. Mai Juni Juli August Sept. Okt. Nov. Des. NB! HSØ, MHH og SUNHF er ikke tatt med pga lave tall Berørte tjenester hittil i (ikke sum av månedstall hvis samme tjeneste berørt i flere måneder) Andel av alle kritikalitet 1 og 2 tjenester som har vært berørt av kritiske hendelser (ref. forrige kolonne) Ahus 9 9 9 7 8 11 3 26 59% OUS 10 8 10 7 9 7 2 24 7% SIHF 2 2 2 1 3 2 2 8 10% SSHF 1 1 3 1 1 4 1 7 15% STHF 3 3 3 2 5 2 3 11 30% SVHF 2 2 5 1 4 0 0 8 8% SØHF 4 4 7 4 2 6 3 17 20% VVHF 4 5 3 5 4 4 2 17 18% Ahus har i fått hele 59% av kritikalitet 1 og 2 tjenestene berørt av hendelser. Dette underbygger at infrastrukturen på Ahus har gjennomgående aldringsutfordringer STHF har 30% av kritikalitet 1 og 2 tjenestene sine berørt. Etter oppgraderingen til DIPS 7.3.7 ble det uforutsette problemer mellom Biztalks ADT versjon og DIPS. Flere fagsystemer med integrasjoner har opplevd problemene som hendelser. Dette vil bli forbedret ved en oppgradering planlagt nå i august. Det eksisterer fortsatt noen gamle løsninger som gir hendelser. Det er fokus på å få disse prioritert innenfor SP rine rammer. OUS er i den andre enden av skalaen, kun 7% av tjenestene har vært berørt (gamle røntgenløsninger, nettverk som byttes ut og arbeidsflate på Aker).
AHUS taskforce Status og plan for stabiliseringsprosjekt
AHUS tiltaksplan Etablere målinger på bruker ytelse Nytt fillagringssystem Flytte databaser til nye virtuelle servere. Fase ut Veritas servere Flytte tjenester til nytt integrasjonsmiljø Vurdere ytelsen på arbeidsflate etter utskiftning for se på virkning og ytterligere tiltak SP prioriterer AHUS innenfor sine rammer for ytterligere forbedringer Regionen må prioritere modernisering av AHUS. Skifte Servere arbeidsflate Juni-aug Aug-des 2016-> Nettverksomlegging
Gjennomførte tiltak Tiltak Beskrivelse/ Avhengigheter Forventet effekt Tids estimat Kommentar / Plan for å lukke Brukere opplever tregheter ved innlogging og bruk av applikasjoner publisert ved hjelp av Citrix. Utøke kapasitet på Terminal Servere Utført Intern sone er økt med 10 servere Sikker sone er økt med 5 servere Filserver for sikkersone håndterer i dag kritiske filtjenester og applikasjoner. Maskinvaren er utdatert og bør byttes. Utbedre ytelse og sikre stabil drift Utført Sikker og Intern filserver er migrert over til nytt redundant filsystem. Gjennomgang av ACS konfigurasjon PC-er havner på Gjestenett sporadisk PC-er holder seg på riktig nett. Mindre belastning på ACS Utført Endring på portinstillinger er utført. Man ser en betydelig minskning av authentisering. (Minsket fra 20000 til 1000 i timen.) Man opplever at færre maskiner havner på gjestenett. Indeksering av DB Unngå tregheter og stopp av Veritas Cluster Stabil drift, og unngå kritiske hendelser. Utført Databasene i Veritas Clusterene på AHUS er gjennomgått for å sikre at databaser jobber mest mulig optimalt. Måling med prober Gir grunnlag for å feilsøke på rett sted, for videre analyse Lokalisere feilkilden til tregheter, og utbedre denne Utført Målinger er ferdigstilt og overlevert til linja Jobbes med å operasjonalisere og tune målinger. Brukere får feilmeldingen «launch fail» og tregheter ved oppstart av for eksempel DIPS, Cytodose og Elas. Basert på feilsøkingen anbefales det en gjennomgang av konfigurasjonen for distribusjon av applikasjoner. Herunder RES Workspacemanager, APP-V og Citrix terminalserver. APP-V er streaming av applikasjon til klient i en egen boble. Minimalt med feilmeldinger «Launch Fail» Utført Gjennomgått alle terminalservere og nullstilt cache. Brukerstøtte har ikke registrert «launch Fail» hendelser i etterkant av tiltaket.
Pågående tiltak Tiltak Beskrivelse/ Avhengigheter Forventet effekt Tids estimat Kommentar / Plan for å lukke Fortsette rot årsaksanalyser av dokumenterte feilsituasjoner hvor man kommer inn i andre brukeres Citrixsesjon. I noen tilfeller opplever brukere å komme inn i forrige påloggede brukers Citrix-sesjon. Unngå å få opp andres brukeres Citrix sesjon Pågår Klargjort for å rulle ut ny driver for buypass. Resterende tastatur som fortsatt har problemer må byttes ut av TS. Biztalk Applikasjonsdrift jobber aktivt med tiltak for å stabilisere dagens biztalk versjon etter hvert som feil oppstår. Flytte tjenester til nytt regionalt integrasjonsmiljø Biztalk kjører på servere som er 7år +, OS et og sql er uten support. Bedre ytelse og mer stabil plattform. Sikre at plattformen er på supporterte versjoner Pågår Det er etablert et nytt lokalt BizTalk miljø for AHUS i sentralt datarom i SIKT. Etter hendelser i juli vil integrasjoner flyttes til nytt miljø i Q3(august) Stabiliserende tiltak: Det er bestilt ekstra server for COMpacs integrasjonen og det planlegges å flytte COMpacs integrasjonen mot slutten av august. Veritas Cluster Flytte alle databaser som ligger på Veritas Cluster over på wmware? (Med ny installasjoner av SQL og oppdatert OS) Unngå en voldsom økning av kritiske hendelser. Pågår 3-6 mnd Jobber med databaser for migrering. 31 VC servere totalt, 8 utfaset, 4 under planlegging Sikker og stabil drift
Planlagte tiltak Tiltak Beskrivelse/ Avhengigheter Forventet effekt Tids estimat Kommentar / Plan for å lukke RES: Gjennomgang/reetablering av eksisterende RES løsning, som ikke har blitt løst etter kritisk hendelse i Oktober 2014 RES er en løsning for desktopstyring. Verifisert RES oppsett i «normal» status August Helsesjekk RES plattformen gjennomført i uke 27 og 28. Første tiltak etter helsesjekk implementeres i uke 33 og forventes å korte ned påloggings tid til Citrix i sikker sone med 10-20 sek. Utskifting av gamle servere Aldrende hardware i terminalserver -miljøet Bedre ytelse og mer stabil plattform. August Skript er ferdigstilt og klargjort for tanking av nye servere. Hostene oppgraderes til v5.5 i uke 33 og 34. Sql Det er ca 70 baser som ikke går på veritas cluster som har usupportert mssql Ny hardware som gir bedre stabilitet. Mindre hendelser, Stabil og sikker drift ved å etablere basene på nye og oppdaterte servere. Punktet lukkes når gamle blade servere er ferdig utfaset. +9 mnd Avventer videre arbeid da man prioriterer baser på Veritas cluster først.
Noen av de mest hendelsesrammede tjenestene i 2013/2014 status utgang juli. Tjeneste Hendelser i 2014 Hendelser hittil i Utførte tiltak Ahus-Imatis 25 7 Forbedret overvåking og rutinedokumentasjon, samt utført stabiliserende tiltak infrastruktur. Oppgradering av IMATIS planlagt Ahus-Analytix 7 3 Kjente feil er rettet i applikasjonen. Feil i primært knyttet til integrasjoner med andre løsninger. Integrasjoner flyttes til nytt integrasjonsmiljø i. Ahus-Delta 4 2 Ingen hendelser siden februar, da kjente feil i løsningen endelig ble løst av leverandør. Ahus-Ris/Pacs 8 2 Bedre overvåking etablert og mer proaktiv drift OUS-Nettverk 18 14 Nettverksomlegging pågår fortsatt. Svært omfattende prosjekt som har høy risiko for følgefeil pga kompleksitet fremdeles. OUS-Prosang 6 0 Etter omfattende feilretting i første halvdel av 2014, og ytterligere sikringstiltak sent i 2014 har det ikke vært kritiske hendelser hittil i.
Tjeneste Noen av de mest hendelsesrammede tjenestene i 2013/2014 status utgang juli. OUS- Sectra RIS/PACS Hendelser i 2014 Hendelser hittil i Utførte tiltak 25 7 Etter ferdigstilling utfasing av Agfa-RIS/PACS i april (med mange hendelser som følge av problemer i utfasingsprosjektet (serverkloning), har det ikke vært kritiske hendelser med Sectra-RIS/PACS. SIHF-Nettverk 5 3 Lite feil etter nettverksomlegging i slutten av 2013. 2 av hendelsene i skyldtes linjebrudd i Eidsivas nett. SIHF-RIS/PACS 6 1 Ingen hendelser siden januar, skyldes primært svært proaktiv drift, for løsningen er gammel og sårbar og skal erstattes av regionalt system. SIHF-Telefoni 7 2 Kun 2 hendelser i (juni og juli). Begge skyldtes sårbar hardware pga. alder. Utskifting avventer Telenors teknologiskifte. STHF-Flexlab 18 5 Etter oppgradering i mars, kun en hendelse som har berørt Flexlab STHF-RIS/PACS 10 4 Etter endring av driftsrutiner i slutten av 2014 har det vært reduksjon. De siste hendelsene (2 i mai) skyldtes endringer i DIPS-konfigurering, som skapte køer i utgående meldinger fra RIS/PACS til DIPS. SØHF-Nettverk 7 4 Forbedret overvåking av SØHF-nettverket er etablert. Alle 4 hendelsene i er knyttet til eksterne årsaker, som strømforsyning (3 stk) eller fiberbrudd hos ekstern leverandør (1 stk). Hendelsene rammet primært enkeltlokasjoner.
De mest berørte tjenester ift. kritiske hendelser danner grunnlag for prioritering av forbedringstiltak (status pr. juli ) Tjeneste Ant. 1A/2A Kommentar hendelser i Nettverk 19 NB! Dette dekker ulike foretaks nettverk og omfatter også eksterne årsaker (linjebrudd/strømbrudd/etc.) SØHF- Regional LIMS-Std AHUS- ComPACS- Std OUS-Hf Arbeidsflat e-øst 16 Kjent feil på printerløsning. Prosjekt og leverandør er på saken. Ressurskrevende workarounds for SP. Treghet i løsningen. Prosjekt leder taskforce. 16 Hyppige problemer med kommunikasjonen med DIPS og andre løsn. Årsaker ofte relatert til gammel integrasjonsplattform og gammelt Databasecluster 12 Lite ensartet feilbilde (Citrix på Aker, filområder, lokale nettverksdropp/kantnettproblemer) Tiltak De tilfellene som skyldes feil på gammelt nettverksutstyr rettes ved fortløpende utskifting. Det pågår et arbeid med konsolidering av software på nettverkskomponenter. Like viktig er «Kjernenett fase 2» som innebærer modernisering og robustifisering av flere lokasjoners tilknytning til kjernenettet (pågår hele og inn i 2016). Total nettverksomlegging pågår på OUS og har nettopp startet på Ahus, som de 2 siste foretakene i regionen. Pågående Task Force i regi av prosjektet for å løse feilene, der oppgavene i stor grad utføres av Sykehuspartner-ressurser. Pågår arbeid for å f lytte integrasjoner til ny integrasjonsplattform, samt oppgradere Compacs. Oppdatering av arbeidsflaten for alle OUS-brukere til Win 7 pågår, kapasitet i Aker Citrix er økt, nettverksomlegging pågår, filområdemigrering fullført.
Forts.. Tjeneste Ant. Kommentar 1A/2A hendelser i 11 NB! Dette dekker telefoni for flere foretak og omfatter også eksterne årsaker (linjebrudd/strømbrudd/etc.) HR-ERP 10 Ulike problemstillinger (rammer primært Ahus og SØHF). Hovedsakelig stopp i dataflyten i løsningen som er en utfordring. Felles- Telefoni- Standard OUS-Dipsstd SSHF-Dips- Std 10 Oppsamling av ulike problemer som gir utslag for DIPS brukere. Kan være integrasjoner, filområder, nettverk o.l Tiltak Kontinuerlig fokus på utskifting av defekt utstyr etter hvert som det svikter (hardwarefeil/gml. komponenter som er sårbare for strømbrudd). Utbedret dokumentasjon av alle aspekter ved dataflyten i løsningen pågår. Denne skal benyttes til å løse feil raskere, og forhindre feil. Justering av overvåking i løsningens administrasjonsverktøry Arena-tregheter avhjelpes med oppgraderinger av DIPS som pågår løpende. Flere av de andre årsakene adresseres gjennom tiltaken som er listet opp for nettverk, og OUS_Hf Arbeidsflate- Øst. 9 Som over. Eventuelle applikasjonsspesifikke feil avhjelpes med oppgraderinger av DIPS som pågår løpende. AHUS- Citrix Arbeidsflat e-øst M/office VVHF-Dips- Std 9 Lite ensartet feilbilde. Mangefasettert tjeneste som berører mange andre tjenester. Feil i tjenesten berører potensielt svært stor andel av tjenestene på Ahus. Har fokus i Ahus taskforce 8 Som over., Applikasjonsspesifikke feil avhjelpes med oppgraderinger av DIPS som pågår løpende.. AHUS- Metavision -Std 8 Kroniske feil knyttet til problemer med gammel databaseclusterløsning. Har fokus i Ahus Taskforce.
Omfattende modernisering er nødvendig (utover SPs rammer) Modernisering pågår gjennom IMP og DF Løsninger under stabilisering Driftsteam Problem-prosess Releasevinduer Årsplaner for oppgradering og proaktivt vedlikehold Effektiv bruk av begrensede investeringsmidler Ledelsesfokus og rapportering
Ledelsesmessige tiltak Assisterende direktør IKT Tjenester Produksjon fra 15.8. Merethe Austgulen Hovedfokus på ledelse av «produksjonsapparatet» Levere tjenester (drift og forvaltning i hht avtaler) Nye og endrede tjenester (leveranser) Forbedringer av prosesser i produksjonsapparatet Tre avdelingsledere Stig Nydal, Thor Lunde og Frode Steen går ut full tid i arbeid med eksternt partnerskap Fungerende avdelingslederne har full fokus på å levere tjenester Styrking av rapportering og oppfølging av produksjonen