SIKKERHETSBETRAKTNINGER RUNDT SELV-HELENDE DISTRIBUSJONSNETT Av Martin Gilje Jaatun, SINTEF Digital, Marie Elisabeth Gaup Moe, SINTEF Digital, Per Erik Nordbø, BKK Nett AS Sammendrag Mekanismer for feildeteksjon, isolasjon og gjenoppretting (Fault Location, Isolation and System Restoration FLISR) gjør det mulig å hurtig gjenopprette strømforsyning til abonnenter som ikke direkte er berørt av feil i distribusjonsnettet. Imidlertid vil det, avhengig av hvor logikken for slike selv-helingsmekanismer er plassert, kunne ha sikkerhetsmessige konsekvenser å implementere FLISR i distribusjonsnettet. Denne rapporten diskuterer alternative FLISR-plasseringer med hensyn på informasjonssikkerhet, og konkluderer at både sentraliserte og lokale løsninger kan ha livets rett under gitte forutsetninger. Arbeidet er utført i regi av NFR-prosjektet FLEXNETT. 1. INTRODUKSJON Økende forventinger til nettselskaper om å drive effektive distribusjonsnettverk, samt tiltagende nulltoleranse fra kunder for strømbrudd, gjør at automatiserte selv-helingsmekanismer 1 (Fault Location, Isolation and System Restoration FLISR) er attraktive i områder hvor lokale energilagre eller produksjon ikke er tilgjengelig eller hensiktsmessig å bruke. Dette betyr videre at FLISR-løsninger må bygges etter gjeldende praksis for cybersikkerhet og tilhørende prosedyrer for å hindre angripere fra å sette store deler av distribusjonsnettet ut av spill. Driftskontrollsystemer (Supervisory Control And Data Acquisition SCADA) i distribusjonsnett har tradisjonelt vært isolerte nett hvor cyber-angrep har vært om ikke umulige, så i hvert fall svært lite sannsynlige. Utviklingen i smartgrid-teknologi i de siste ti årene har imidlertid endret på dette, og man kan ikke lenger anta at det ikke finnes noen forbindelse til omverdenen, som illustrert i Figur 1. Admin-nettet dekker funksjoner som kundebehandling, nettverksplanlegging og feltar- 1 Strengt tatt så vil ikke selv-helingsmekanismer kunne "helbrede" segmenter/komponenter med feil, men ved å lokalisere og isolere feil kan man sørge for at en størst mulig del av det aktuelle distribusjonsnettet raskt kan få strømmen tilbake. Fysiske feil må fortsatt håndteres av montører, men FLISR-løsninger vil også bidra positivt til liv og helse, ved at segmenter med feil ikke er spenningssatt.
beid. Her er det spesielt interessant å se på den nåværende avhengigheten av Nettinformasjonssystemer (NIS) og Geografiske Informasjonssystemer (GIS), som har avgjørende informasjon om den fysiske topologien til distribusjonsnettet. NIS/GIS-løsninger leveres typisk fra tredjepartsleverandører, men må importeres til en nettselskap-spesifikk NIS-variant som er koblet til Distribution Management System (DMS). Dette innebærer at det er en forbindelse fra admin-nettet til DMS-nettet, som illustrert på høyre side av Figur 1. Figur 1: Sammenhengen mellom distribusjonsnettet, nettselskapets administrasjonsnett, og DMS/SCADA-nett for nettverksoperasjoner Smartgrid-nettverk står ovenfor mange sikkerhetsutfordringer [1], og økende sammenkobling vil bidra til å øke disse. SCADA-systemer med fjerntilgang kan kompromitteres og infiseres med skadevare, som demonstrert i angrepene mot kraftnettet i Ukraina [2]. I denne rapporten adresserer vi den spesifikke utfordringen representert ved hvordan automatikk og lokalisering av denne påvirker sårbarhet i SCADA og strømnettet. Vi diskuterer fordeler og ulemper ved tre ulike konfigurasjoner: Sentralisert selv-heling Desentralisert selv-heling Lokal selv-heling
2. BAKGRUNN Gangen i en FLISR-løsning er som følger: Steg 1: Basert på sensor-input, automatisk detekter feilstedet Steg 2: Automatisk isoler segmentet eller noden med feil ved bruk av brytere Steg 3: Maksimer tjenestegjenoppretting ved å spenningssette den nye nett-topologien. Et eksempel på en FLISR-løsning er illustrert i Figur 2 a), hvor distribusjonsnettet er organisert som en ring, med en fast deling implementert av en bryter. Det er et antall brytere distribuert langs ringen, og når en feil detekteres vil disse løses ut automatisk, som illustrert i Figur 2 b). Vi ser her at en større del av nettet enn nødvendig er uten strøm, illustrert med hvite sirkler i Figur 2 b). Figur 2: Eksempel på FLISR Ved å kommunisere med sensorer og brytere er det mulig å avgrense feilområdet og re-partisjonere nettverket som illustrert i Figur 2 c). I dette eksempelet ser vi at vi kan spenningssette to av de tre segmentene som mistet strømmen automatisk i Figur 2 b). Timing er avgjørende for en velfungerende FLISR, og det kreves at hele re-partisjoneringen kan fullføres innen 300ms etter at den første bryteren utløses. Dette er raskt nok til at de fleste forbrukere kun vil oppleve en kort "dipp" i spenning før de igjen har full strømforsyning.
Figur 3: Alternativ FLISR-konfigurasjon Ringnettet er pedagogisk for å forklare FLISR, men konseptet er like anvendelig på andre konfigurasjoner, som illustrert i Figur 3. I dette tilfellet vil bryteren i nettstasjon B utløses når en feil oppdages, som
vist i Figur 3 b); her vil alle abonnenter til denne nettstasjonen bli uten strøm. FLISR-løsningen vil deretter gjøre jobben på samme måte som i Figur 2 c), og sørge for at kun segmentet helt til høyre i Figur 3 er uten strøm. 3. PLASSERING AV SELV-HELINGSMEKANISMER Som nevnt i introduksjonen kan selv-helingslogikk plasseres i forskjellige deler av distribusjonsnettet. 3.1 Lokale autonome FLISR-løsninger De raskeste FLISR-løsningene opererer typisk lokalt på et forhåndsdefinert autonomt område av distribusjonsnettet, som illustrert i Figur 4. De lokale FLISR-kontrollerne er kollektivt ansvarlige for å utføre bryteroperasjoner til tjenesten er gjenopprettet. Kun bryterinnstillinger er rapportert tilbake til DMS, med beskrivelse av den nye topologien av det autonome området. Figur 4: Lokal selv-heling
Ettersom meldinger som skal sendes til SCADA-systemet i denne konfigurasjonen er statusmeldinger, kan SCADA-systemet beskytte seg selv ved å nekte å motta noe annet enn statusmeldinger. Dette innebærer at denne løsningen er mindre sårbar for cyber-angrep enn løsninger som krever at DMS er i stand til å endre bryterinnstillinger direkte. Hvis sensordata har blitt manipulert i en lokal FLISR-løsning, kan ondartede/feilaktige kommandoer sendes til brytere. Problemet vil imidlertid ikke kunne spre seg, ettersom den autonome regionen kun rapporterer status til det sentrale SCADA-systemet. I tilfeller med fysiske topologiendringer som påvirker FLISR-funksjonaliteten, vil lokale FLISR-løsninger kreve manuell rekonfigurering. Dette medfører at slike løsninger vil være mindre dynamiske enn sentraliserte løsninger som kan rekonfigureres automatisk. 3.2 Sentralisert selv-heling En sentralisert FLISR-løsning, hvor intelligensen befinner seg i DMS, forutsetter at DMS er i stand til å aktivt manipulere brytere i SCADAnettet. Dette er illustrert ved den doble hvite pilen oppe til høyre i Figur 5. Figur 5: Sentralisert løsning
Generelt kan det sies at sikkerhetsfordelene for lokal selv-heling gjelder med motsatt fortegn for en sentralisert løsning. Dette betyr at man er nødt til å stole på at DMS ikke kompromitteres. Dersom DMS likevel kompromitteres, vil dette kunne påvirke hele SCADA-nettet, ettersom DMS i en sentralisert løsning har mulighet til å manipulere alle brytere. Se for øvrig videre diskusjon i avsnitt 4. 3.3 Desentralisert selv-heling En desentralisert FLISR-løsning baserer seg på en sentral ressurs som befinner seg i DMS eller et dedikert system som assisterer logikken i et lokalt FLISR-domene for å gjennomføre alle stegene i FLISR. Hvis den sentrale ressursen befinner seg i DMS, vil den introdusere de samme sikkerhetsutfordringene som sentraliserte FLISR-løsninger; følgelig er det ingen forskjell mellom desentraliserte og sentraliserte løsninger fra et sikkerhetsperspektiv. En desentralisert løsning kan medføre at det er flere systemer som må vedlikeholdes, men dette er utenfor skopet for denne rapporten. 4. SIKKERHETSBETRAKTNINGER God praksis i norske nettselskaper sier pr. i dag at det ikke skal være mulig å kontrollere SCADA-nettet fra DMS. Dette er fordi, som illustrert i Figur 1, at DMS i praksis er koblet til internett (selv om koblingen går via en eller flere brannmurer), og følgelig er utsatt for å kunne bli kompromittert av en ekstern angriper. Dette medfører at de fleste nettselskaper i dag krever en manuell interaksjon når man skal utføre gjenopprettings-operasjoner, som illustrert i Figur 6.
Figur 6: Manuell interaksjon 4.1 Lærdom fra Ukraina Sårbarheter i driftskontrollsystemet kan utnyttes av en angriper som ønsker å få uautorisert tilgang for å forårsake et større strømbrudd; dette kan f.eks. oppnås ved: Å sende kommandoer direkte til SCADA-utstyret Fjerntilgang til Menneske-Maskin-grensesnittet (HMI) Å endre GIS/NIS databasen Menneske-i-midten-angrep på protokoller Forfalske sensor-input til FLISR I cyber-angrepet i Ukraina i desember 2015 [2], klarte inntrengere å få fjerntilgang til SCADA-sonen hvor de gav kommandoer for å åpne brytere som tok minst 27 nettstasjoner av nettet, noe som resulterte i strømbrudd for rundt 230 000 kunder. Samtidig var gjenopprettelse forsinket av at skadelig programvare var lastet opp til enhetene som oversatte
mellom seriell- og ethernet-kommunikasjon. Den skadelige programvaren forhindret operatørenes arbeidsstasjoner fra å utstede fjernkommandoer for å vekke nettstasjonene til live. For å få uautorisert tilgang, hadde angriperne først kompromittert det administrative nettet ved bruk av målrettete phishing-eposter med skadevare. Skadevaren samlet så inn brukernavn og passord som gjorde angriperne i stand til å få til tilgang til SCADA-systemer gjennom eksisterende fjerntilgangsløsninger via VPN. Bryterstillingene ble manipulert via SCADA HMI på arbeidsstasjonene, hvor operatørene kunne observere angrepet ved å se en "spøkelsesmus" klikke rundt på skjermen. I Ukraina-hendelsen misbrukte angriperne legitime kommandoer på samme måten som en innsider kunne ha gjort. I forbindelse med slike trusler kunne autonom FLISR og andre automatiske trygghetsmekanismer faktisk også fungere som en sikkerhetsmekanisme som kan forhindre åpning av for mange brytere. Dette forutsetter imidlertid at det ikke er enkelt for en intern angriper å manuelt overstyre funksjonene. Et annet sikkerhets- og trygghetsaspekt ved introduksjon av FLISR og andre automasjonsverktøy i smartgrid, er hvordan avhengighet av automatisk kontroll påvirker gjenopprettingstid i tilfeller av strømbrudd. I tilfellet i Ukraina var man nødt til å erstatte Remote Terminal Units (RTUer) som var satt ut av spill, og i mellomtiden var det avgjørende at operatøren var i stand til å få nettverket på fote igjen ved å gå over til manuell kontroll. SCADA-protokoller har tradisjonelt hatt dårlig sikkerhet [3]. Selv der hvor sikrere alternativer er tilgjengelige, medfører den lave oppdaterings- og erstatningstakten i bransjen at SCADA-systemer forblir sårbare. Den fremherskende sikkerhetsløsningen til driftskontrollsystemer har følgelig vært å plassere en brannmur som et "hardt skall rundt et mykt senter" [4]. Problemet med en brannmur er at i de fleste tilfeller er man nødt til å lage hull i den for å få arbeidet gjort. 4.2 Kommunikasjon mellom SCADA og DMS I dagens situasjon har man typisk en enveisforbindelse opprettet fra SCADA-nettet til DMS som brukes til å jevnlig oppdatere informasjon om bryterstillinger. Ettersom en DMS-basert FLISR utfører analyse basert på en oppdatert GIS/NIS-database som representerer distribusjons-
nettet, blir GIS/NIS-databasen vanligvis vedlikeholdt og brukt i en lavere sikkerhetssone. Dette medfører en utfordring rundt hvordan man skal få gjort en daglig import av oppdatert topologi som man kan ha tillit til. Hvis man skulle komme til å importere en manipulert NIS/GIS database i DMS, kan det ha dramatisk påvirkning på feilaktige bryteroperasjoner og strømbrudd hvis manipulasjonen ikke detekteres, og endringer utføres i SCADA-systemet. Manipulering kunne avdekkes av operatør ved inspeksjon av den daglige utviklingen av topologiske endringer, som illustrert i Figur 6. Automatisk deteksjon av manipulering er også en mulighet, for eksempel vha. inntrengingsdeteksjonssystemer basert på maskinlæringsalgoritmer. Import av manipulerte data kan også forhindres automatisk ved hvitelisting eller ved å begrense antall tillatte endringer per døgn. Bryter- og sensordata for FLISR-analyse vil normalt mottas av SCADA og videresendes til DMS/FLISR. Selv om ende-til-ende-sikkerhet, signaturer og sertifikater kan beskytte mot menneske-i-midten-angrep [3], kan man fortsatt ofte ikke detektere lokale fysiske endringer og manipulering av analoge linjer til RTUer. Sikkerhet må følgelig baseres på at skikkelig fysisk skallsikring er på plass. DMS er en sannsynlig kandidat for aggregering av nye typer data som spenningskvalitet, miljøsensorer, og andre sensorer fra smarte målere og nettverkskomponenter. Ved å integrere mer og mer data i DMS blir det åpenbart at det er avgjørende å sikre integriteten til dataene som importeres. Denne type DMS-integrasjon står også i kontrast til en sikkerhetspolicy som sier at ingen data får flyte inn i DMS-/SCADA sikkerhetssonen. En måte å organisere DMS på er å opprette en DMS med redusert funksjonalitet som en proxy mellom den lavere sikkerhetssonen og DMS/SCADA-sonen. Proxy DMSen vil da strippes for FLISR-operasjoner. En annen måte vil være å kjøre to versjoner av DMS; en med FLISR-funksjonalitet og toveis kommunikasjon med SCADA, og den andre strippet for FLISR og kun import av bryterstatus fra SCADA gjennom en kanal som kun tillater lesing, ikke skriving. SCADA vil forbinde de to DMSene "DMS FLISR" og "DMS proxy". 4.3 Organisasjonsmessige aspekter Det er allment akseptert at det ikke er mulig å oppnå 100% sikkerhet fra et teknisk perspektiv, og det er derfor nødvendig å sørge for at nettselskapet er i stand til å håndtere cybersikkerhetshendelser når (ikke
hvis) de inntreffer [6]. Det er viktig at forskjellige kategorier ansatte får tilstrekkelig opplæring gjennom øvelser, og at man unngår organisasjonsmessige siloer cybersikkerhet burde være alles ansvar! 5. KONKLUSJON Lokal og sentralisert FLISR adresserer samme type problemer, men avviker i kapasitet, fleksibilitet og ytelse. Man kan forvente å se mer av begge typer i drift av distribusjonsnett. Sentraliserte FLISR-løsninger som er avhengige av daglig import av NIS-data introduserer en kritisk sårbarhet mht. integritet av data. Objekt-filter-mekanismer burde plasseres mellom DMS og SCADA for å filtrere hvilke brytere skal kunne opereres fra FLISR/DMS. Alternativt burde man beskytte kritiske SCADA-brytere i HV-nettet med aksesslister for å forhindre DMS i å operere på brytere utenfor det definerte FLISR-domenet, typisk MV-nettet. Det er mindre sannsynlig at cyberangrep på lokale FLISR-løsninger vil være i stand til å spre seg til hele SCADA-domenet, ettersom SCADA kun mottar tilstandsinformasjon fra det lokale FLISR-domenet. Alle FLISR-løsninger må ha på plass strenge valideringsrutiner utført av SCADA kvalitetssikringspersonell for å spore endringer i NIS og validere disse før de aktiveres i DMS/SCADA. Det finnes følgelig et argument for både lokal og sentraliserte FLISRløsninger, avhengig av konteksten. For samfunnskritiske situasjoner hvor hastighet er avgjørende, og hvor cybersikkerhetshendelser kan få vidtrekkende konsekvenser, er det fortsatt å anbefale å holde seg til en lokal, autonom FLISR-løsning. I mer vidt distribuerte systemer kan den økte fleksibiliteten av en sentralisert FLISR-løsning veie opp for eventuelle sikkerhetsbekymringer. Uansett hvilken løsning man velger, må den tekniske infrastrukturen suppleres og styrkes av organisasjonsmessige prosedyrer og god praksis for å være i stand til å håndtere cybersikkerhetshendelser når de inntreffer. 6. REFERANSER [1] Line, M.B., Tøndel, I.A. og Jaatun, M.G. (2011), "Cyber Security Challenges in Smart Grids", in Innovative Smart Grid Technolo-
gies (ISGT Europe), 2011 2nd IEEE PES International Conference and Exhibition on, 5-7 Dec. [2] Conway, T., Lee, R. M. og Assante, M. J. (2016), Analysis of the Cyber Attack on the Ukrainian Power Grid, Defense Use Case, SANS ICS and E-ISAC white paper. https://ics.sans.org/media/e- ISAC_SANS_Ukraine_DUC_5.pdf [3] Nordbø, P.E. (2013), Cyber security in Smart Grid stations", in 22nd International Conference and Exhibition on Electricity Distribution (CIRED 2013), Stockholm, 1-4 [4] Cheswick, B. (1990), The Design of a Secure Internet gateway, in USENIX Summer Conference Proceedings. [5] U.S. Department of Energy (2014), Fault Location, Isolation, and Service Restoration Technologies Reduce outage Impact and Duration, https://www.smartgrid.gov/document/fault_location_isolation_and_service_restoration_technologies_reduce_outage_impact_and.html [6] Jaatun, M.G., Bartnes, M. og Tøndel, I.A. (2016), Zebras and Lions: Better Incident Handling Through Improved Cooperation, Communications in Computer and Information Science vol. 648, 129-139, http://jaatun.no/papers/2016/i4cs.pdf