Grafisk revisjon av nøkkeltallene i KOSTRA

Like dokumenter
Anne Vedø og Dina Rafat. Redigering av husholdningsfilen fra Kvalitetsundersøkelsen. 2003/60 Notater re vi

Notater. Anne Vedø og Dina Rafat. Redigering av husholdningsfilen fra Kvalitetsundersøkelsen. 2003/60 Notater 2003

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

Et lite notat om og rundt normalfordelingen.

Benchmark-modellen. Modellen produserer diagrammer og rapport fra nivå 2 og nivå 3 i kostra for de variabler som er valgt.

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Et lite notat om og rundt normalfordelingen.

Tema: Deskriptiv statistikk for kontinuerlige data. Av Kathrine Frey Frøslie,

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Manual til Excel. For ungdomstrinnet ELEKTRONISK UNDERVISNINGSFORLAG AS

Notater. Samuel Abonyo og Thomas Hagen. Tidsbruksundersøkelse - hvor lang tid bruker oppgavegiver på rapportering til kvartalsvis lønnsstatistikk

Dataøvelse 3 Histogram og normalplott

Eksempel på data: Karakterer i «Stat class» Introduksjon

Innbyggere. 7,1 mrd. Brutto driftsutgifter totalt i Overordnet tjenesteanalyse, kilder: Kostra/SSB og kommunenes egen informasjon.

use "C:\Users\eirik\OneDrive\Master\stata\kostra oppdelt\forsøk på merge\ferdig datasett alle kommuner - med tonivå.dta"

s I S Boligprisindeksen Datagrunnlag og beregningsmetode Thor Herman Christensen NB Rana Depotbiblioteket

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial ) Oppgave 1

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Sannsynlighetsregning og Statistikk.

ST0202 Statistikk for samfunnsvitere

Komme i gang med programmet Norgeshelsa

KOSTRA NØKKELTALL 2010 VEDLEGG TIL ÅRSMELDING 2010 FOR RENNESØY KOMMUNE

Hvordan lage kontrolldiagrammer legge inn tall i Epidata. Eksempel I-diagram

Kommentarer til boka Regneark for barnetrinnet 1

Kapittel 1: Data og fordelinger

UNIVERSITETET I OSLO

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

PC-AXIS Brukerveiledning for tabelluttak og bearbeiding av data

Testmodulen med «Resultater»

Eksamen våren 2016 Løsninger

Databehandlingen for de ovennevnte EKV programmene blir utført på samme dataprogram, og utseendet av rapportene blir derfor tilnærmet likt.

Folkemengde i alt Andel 0 åringer

ENDELIG ANALYSE PRESENTASJON. nr.398. Fauske. nr.410 uten justering for inntektsnivå

KOSTRA NØKKELTALL 2009 VEDLEGG TIL ÅRSMELDING 2009 FOR RENNESØY KOMMUNE

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

Bruksanvisning for GSI database. for tillitsvalgte i Utdanningsforbundet

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

Saksfremlegg. 1. Sammenstilt ressursbruk personal ved Alta skoler Skolers driftsbudsjett - oversikt

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

KOSTRA NØKKELTALL 2011 VEDLEGG TIL ÅRSMELDING 2011 FOR RENNESØY KOMMUNE

KOSTRA NØKKELTALL 2016

KOSTRA NØKKELTALL 2015

Manual til Excel. For mellomtrinnet. Inger Nygjelten Bakke ELEKTRONISK UNDERVISNINGSFORLAG AS

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 12. februar 2019

TMA Statistikk Øving 1

Pleie og omsorg. Færre bor på institusjon - flere mottar hjelp hjemme. Kommunene og norsk økonomi Nøkkeltallsrapport 2014

Mål på beliggenhet (2.6) Beregning av kvartilene Q 1, Q 2, Q 3. 5-tallssammendrag. ST0202 Statistikk for samfunnsvitere

ØVINGER 2017 Løsninger til oppgaver. Øving 1

KOSTRA NØKKELTALL 2014

2P, Statistikk Quiz. Test, 2 Statistikk

GeoGebra-opplæring i 2P-Y

Statistisk behandling av kalibreringsresultatene Del 1. v/ Rune Øverland, Trainor Elsikkerhet AS

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 26. april 2018

2P kapittel 3 Statistikk Løsninger til innlæringsoppgavene

Kom i gang med Stata for Windows på UiO - hurtigstart for begynnere

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Basisoppgaver til 2P kap. 3 Statistikk

GeoGebra-opplæring i Matematikk 2P

Statistikk. Forkurs 2017

KOSTRA NØKKELTALL 2012 VEDLEGG TIL ÅRSMELDING 2012 FOR RENNESØY KOMMUNE

Oppgåve: Åpne filen eksempel.prn som ligg på den utdelte disketten. Figur 1 Eit EXCEL rekneark.

Sted Gj.snitt Median St.avvik Varians Trondheim Værnes Oppdal

Deskriptiv statistikk., Introduksjon til dataanalyse

Samuel Abonyo og Thomas Hagen

HØGSKOLEN I SØR-TRØNDELAG Avdeling for informatikk og e-læring - AITeL

KOSTRA NØKKELTALL 2013

Deskriptiv statistikk., Introduksjon til dataanalyse

Sentralmål og spredningsmål

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial )

UNIVERSITETET I OSLO

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

Statistikk. Forkurs 2018

Til bruk i metodeundervisningen ved Høyskolen i Oslo

2P-Y eksamen våren 2018 løsningsforslag

Tabell 1: Beskrivende statistikker for dataene

Hurtigstart. Hva er GeoGebra? Noen fakta

Når du har arbeidet deg gjennom dette kapittelet, er målet at du skal kunne

Løsningsforslag til obligatorisk oppgave i ECON 2130

«MIDTRE AGDER» TJENESTEKVALITET JFR KOMMUNEBAROMETERET

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Utvalgsfordelinger; utvalg, populasjon, grafiske metoder, X, S 2, t-fordeling, χ 2 -fordeling

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Introduksjon. Viktige begreper for å beskrive data: Enheter som er objektene i datasettet. «label» som av og til brukes for å skille enhetene

Introduksjon til statistikk og dataanalyse

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Trude Lappegard og Torkil Løwe

Statistikk for språk- og musikkvitere 1

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

2005/29 Notater Anne Vedø. Notater. Analyse av revisjon Lønn i bygge- og anleggsvirksomhet. Seksjon for statistiske metoder og standarder

FORORD. Trondheim, 2. november 1998 Lars-Erik Borge og Ivar Pettersen

FISKERIDIREKTORATETS STATISTIKKBANK

Seksjon 1.3 Tetthetskurver og normalfordelingen

Seksjon 1.3 Tetthetskurver og normalfordelingen

Snøtetthet. Institutt for matematiske fag, NTNU 15. august Notat for TMA4240/TMA4245 Statistikk

Hva kan en ny regjering bety for kommunenes økonomi?

DATAUTFORSKNING I EG, EG 7.1 OG EGENDEFINERTE FUNKSJONER SAS FANS I STAVANGER 4. MARS 2014, MARIT FISKAAEN

ST0202 Statistikk for samfunnsvitere

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Transkript:

2003/75 Notater 2003 o z Mu 1 vi Aslaug Hurlen Foss Grafisk revisjon av nøkkeltallene i KOSTRA ro 2 IA +5 ro Seksjon for statistiske metoder og standarder Emnegruppe: 00.90

Innhold 1. Hvaer grafisk revisjon oghvorfor bruke grafisk revisjon? 3 2. IT-løsninger 3. Nøkkeltallstatistikk 3 4 4. Grafisk revisjon 4 Stolpediagram- Histogram 4 Punktdiagram 5 Boksplot 6 Grafisk revisjon av flere nøkkeltall samtidig 5. Hvaer en ekstremverdi? 9 12 6. Tips til SAS-insight 13 1

1. Hva er grafisk revisjon og hvorfor bruke grafisk revisjon? Grafisk revisjon er å bruke grafikk til å oppdage awikende verdier i datasettet. Den mest brukte grafikken er stolpediagram, punktdiagram og boksplot. Ved grafisk revisjon er det mulig å oppdage feil, som ville vært vanskelig uten grafikk. Ved å plotte variabler sammen, kan grafen vise skjevheter i datasettet, som ikke ville blitt oppdaget uten grafikk. Med bruk av grafikk, er det lett å få et overblikk over fordelingen av variablene og hvilke verdier som er ekstreme. Det er også mulig å studere flere variabler på en gang. Da kan man se hvordan variasjonen mellom variabler er. Når man studerer grafer kan man med fordel bruke farger og symboler for å marker forskjeller. Den visuelle grafikken taler sterkere til oss enn hva tall eller tekst gjør. Dette notat beskriver hvordan grafisk revisjon kan benyttes i revisjon av nøkkeltallene i KOSTRA. Nøkkeltallene i KOSTRA består hovedsakelig av forholdstall enten mellom tjenester og befolkning eller mellom tjenester og regnskapstall. 2. IT-løsninger Valg av variabler blir gjort fra web-side som innholder nøkkeltallene. Deretter er det lagt opp til bruk av SAS og SAS-insight. En testversjon er laget. Datasettet vil i tillegg til nøkkeltallene, inneholde kommunenummer og navn, fylke og KOSTRA gruppe. Praktiske tips: PC-SAS må være installert Gå inn på internettsiden fra hvor man kan lage SAS-datasett av nøkkeltallene (foreløpig Hgger dette på siden: http://www.utv.ssb. no/trf/revkos/?faktaark=95254370311646) Merk hvilke nøkkeltall du vil studere og deretter trykk på knappen <hent SAS-datasett> SAS blir da startet og det er laget ferdig et program. Kjør SAS-programmet som kommer opp. Datasettet blir laget, det blir laget en enkel statistikk på nøkkeltallene og det starter opp SAS-insight. Dette programmet kan endres etter ønske før det blir kjørt. Navnene på nøkkeltallene har blitt varl, var_2 osv., med labler som har blitt kuttet på 60 tegn (som er det lengste SAS har mulighet til nå). Det er mulig seiv å endre navnene etter ønske i programmet Eksempel på hvordan programmet ser ut: DATA CLASS; INPUT kommune_nr var 3; $ kommune navn $ fylke_nr $ kostra_gruppe $var 1 var 2 LABEL var_l =='Netto driftsutgifter grunnskoleopplæring i prosent av samle var_2 ='Netto driftsutgifter til grunnskole og SFO i prosent av sam var_3 ='Netto driftsutgifter til grunnskole, i prosent av samlede n 101 Halden 01 K13 27.3296046458363 26.63952 6550274 26.13135126748 22.Cdi:36390167495 4.1177122507333 3

3. Nøkkeltallstatistikk Det er ofte fint å få en oversikt over nøkkeltallene lager statistikk over de nøkkeltallene som er valgt, Programmet beregner: Antall observasjoner som det er verdier på Antall observasjoner som er missing Minimumsverdi Maksimumverdi Gjennomsnitt Standardavvik Derfor er det laget et program som automatisk Programmet kan lett bli endret til web-format eller til et format som kan lett bli tatt inn i Regneark. PROC TABULATE DATA=work.class FC=' ' F=B,l MISSING; VAR var_l var_2 var_3 var_4 var 5 var 6 var 7 ; TABLES var_l var_2 var_3 var_4 var_s var_6 var 7, N='Antall'*F=B. NMlSS='Mangler verdi'*f=b. MlN='Minimum' MAX='Maksimum' MEAN='Gjennomsnitt STD='Standard-avvik'/ROW=FLOAT; RUN; Eksempel på utskrift: Mangler Gjennom- Standard Antall verdi Minimum Maksimum snitt avvik Netto driftsutgifter pr. innbygger i kroner, kommunehelsetj 424 12 595.8 5971.1 1619.2 698.7 Netto driftsutgifter i prosent av samlede netto driftsutgif 424 12 2.6 11.1 5.0 1.2 Netto driftsutg til forebygging, skoleog helsestasjonstj 424 12 0.0 968.1 288.0 114.6 Netto driftsutg til forebygging, skole og helsestasjonstj p 424 12 0.0 9936.8 3330.5 1400.8 Netto driftsutg til forebygging, skole og helsestasjonstj p 424 12 0.0 4020.9 1284.0 527.8 Netto driftsutgifter til forebyggende arbeid, helse pr. inn 424 12-255.6 840.8 124.7 111 4 Brutto i nvesteri ngsutgifter pr. innbygger < 424 < 12 < -24.1 < 4878.3 < 47.4 < 270.8 4. Grafisk revisjon Stolpediagram - Histogram Ved bruk av stolpediagram oppdages lett de mest åpenbare ekstreme verdiene som kan skyldes feil. I tillegg viser stolpediagrammet hvordan fordelingen til nøkkeltallet er. Av figur 1 ser vi at 22 4

kommuner har negative verdier på 'netto driftsutgifter til skolefritidsordningen'. Dette kan være feil og bør derfor undersøkes nærmere. SAS-insight: Analyze > Histogram > (variabelnavn) > y (output -» labels) Figur 1. Histogram over netto driftsutgifter Programkode: PROC INSIGHT data=work.class ; BAR var_l; RUN; Punktdiagram I punktdiagram blir to nøkkeltall (variabler) plottet mot hverandre. Ved et slik diagram oppdages lett åpenbare avvik som kan skyldes feil og skjevheter. I tillegg blir forholdet mellom to nøkkeltall visualisert. I figur 2 ser vi de to nøkkeltallene 'korrigerte brutto driftsutgifter i kroner per barn i kommunale barnhager' plottet mot 'Korrigerte oppholdstimer per årsverk i kommunale barnehager'. Av dette plottet ser vi at nøkkeltallene sprer seg fint ut i en ellipse og viser at det ikke er noe klar sammenheng mellom disse nøkkeltallene. Det er en kommune som har oppgitt 0 på begge 5

nøkkeltallene, mens Træna har en svært høy verdi på nøkkeltallet 'Korrigerte oppholdstimer per årsverk i kommunale barnehager'. Hvis det var en sammenheng mellom to nøkkeltall ville det vist seg ved at plottet lagde et mønster. SAS-insight: Analyze > Scatter plot» (variabelnavn 1) > y > (variabelnavn 2)» x Figur 2. Punktdiagram av to nøkkeltall Korrigerte brutto driftsutgifter i kroner per barn i korrrrun Programkode: PROC INSIGHT data=work.class SCATTER VAR_6 * VAR 7/ LABEL=kommune RUN; navn; Boksplot Boksplot er en figur som viser spredningen og ekstremverdier i datasettet. Boksplot kan bli brukt til å bestemme grenseverdiene til hva som er ekstremverdier. 6

Boksplot forklaring 1. kvartil er verdien til den observasjonen som har 25 prosent av observasjonene lavere enn seg og 75 prosent av observasjonene høyere enn seg. Median er den verdien som har både 50 prosent av observasjonene under og over seg. 3. kvartil er verdien til den observasjonen som har 75 prosent av observasjonene lavere enn seg og 25 prosent av observasjonene høyere enn seg. Kvartilene og medianene blir funnet ved å ordne datasettet etter størrelse og deretter å plukke ut de observasjonene som deler datasettet i 25, 50 og 75 prosent. Eksempel: Medianen av tallene: 1, 2, 3, 4, 5, 6, 7, 8, 9 er 5 siden tallet 5 har 4 observasjoner både under og over seg. 7

SAS-insight: Analyze > Box Plot» (variabelnavn)» y Figur 3. Boksplot av nøkkeltall I figur 3 er det laget et boksplot av nøkkeltallet 'Netto driftsutgifter pr. innbygger i kroner, kommunehelsetjenesten. Av dette plottet ser vi at det er en del kommuner som skiller seg ut for dette nøkkeltallet. Det kan være at disse ikke er ekstremverdier, men at de hører til en gruppe med høye netto driftsutgifter. For å kontrollere dette kan vi for eksempel lage et boksplot for hver KOSTRA gruppe. KOSTRA-grupper er en inndeling av kommuner etter befolkningsstørrelse, frie disponible inntekter og bundne kostnader. Boksplot i KOSTRA-gruppene De fleste av de kommunene som så ut til å være ekstremverdi i figur 3 tilhører KOSTRA-gruppe 16, som er de 10 kommunene med høyeste frie disponible inntekter per innbygger. Siden denne gruppen har høye disponible inntekter blir det stor variasjon i hvor mye de bruker på drift av skoler. Kostra gruppens 1, 4, 7 og 10 har lave frie disponible inntekter. Dette ser vi på figur 4 gir seg utslag i lave tall. med liten variasjon. Kostra-gruppene 2,5,8 og 11 har middels frie disponible inntekter. For disse gruppene ser vi at det er større utgifter og spredningen i tallene er større. Kostra-gruppene 3, 6, 9 og 12 har høye frie disponible midler. Disse gruppene har høyere utgifter og større spredning enn de andre kostra-gruppene med middels og lave fri disponible midler. (Gruppe 15 er Oslo, mens gruppe 14 er de andre storbyene Bergen, Trondheim og Stavanger. Og gruppe 13 er de andre store kommunene) SAS-insight: Analyze -> Box Plot -> (variabelnavn) -> y -> (kostra-gruppe) -» x 8 [

:edokmargorp ugifr 4. Boksplot av nøkeltal eter KOSTRA-gruper ORPCINSIGHT DATA=work.clas; OBK varl * kostragrupe / LABEL=komune navn; ;NUR sifargk revisjon av flere nøkeltal samtidig edt kan være hensiktsmesig å plote flere nøkeltal samtidig. Enten for å få en oversikt over flere atlekønlsamtidig eler for muligheten for å se på variasjonen melom nøkeltalene. Det kan itreldimidvære begrensende hvor mange plot det er plas til på en side før grafene blir uoversiktlige -19 nøkeltal går ofte greit i same figur. Fordelen med plot av flere nøkeltal i same graf, er at edt da er mulig å studere hvordan en komune eler en grupe fordeler seg i forskjelige nøkeltal. tedekan i SAS-insight bli gjort ved å markere verdier på en av grafene og da blir dise nenojsavresboeogså markert for de andre nøkeltalene som er plotet. argotsihm med flere nøkeltal :thgisni-sas zylanae -» Histogram -> var_l var_2 var_3 var_4 -» y 9

Figur 5. Stolpediagram av 4 nøkkeltall samtidig Programkode: PROC INSIGHT data=work.class ; BAR VAR_I VAR_2 VAR_3 3 VAR_4 4 RUN; I figur 6 er den en søyle i det første histogrammet markert og fordelingen av disse observasjonene blir da vist i det andre diagrammet. Figur 6. Stoplediagram av to nøkkeltall samtidig med en søyle markert i den første grafen 182 500 2000 3500 5000-2 2 6 10 14 18 22 26 30 34 38 42 46 Netto driftsutgifter pr. i nnbygge i Legeårsverk pr 10 000 innbyggere, i 10

Boksplot Ved boksplot av flere nøkkeltall samtidig får vi en oversikt over spredningen av verdiene. For at figuren skal bli tolkbar bør bare 'like' nøkkeltall lages i samme figur. Det vil si lage separate figurer for prosent og andeler. Når flere nøkkeltall plottes i samme figur kommer bare variabelnavnene fram og ikke labelene. For å få en mer forstålig bilde bør variablene ha et annet navn, dette kan endres i innlesningsprogrammet. I figur 7 er nøkkeltallene netto driftsutgifter i prosent av samlede netto driftsutgifter for henholdsvis: grunnskoleopplæring, grunnskole og SFO, grunnskole, og grunnskoleundervisning plottet. Kommunen Fjell, som er markert i plottet, skiller seg ut for alle disse nøkkeltallene. SAS-insight: Analyze > Box Plot» varl var_2 var_3 var_4» y Figur 7. Boksplot av 4 nøkkeltall fra samtidig Programmeringskode: PROC INSIGHT data=work.class ; BOK VAR_I VAR_2 VAR_3 VAR_4 RUN; 11

5. Hva er en ekstremverdi? Ekstremverdi er de nøkkeltall (observasjonene) som ligger langt fra de andre. Men hva er langt? Et mål som kan brukes er; de observasjoner som ikke ligger 2 kvartillengder fra medianen. Det vil si: (1) Median +/- 2*(3. kvartil- 1. kvartil) Dette tilsvarer de observasjoner som er markert som prikker i boksplottet. Dette er et robust mål på hva som er ekstremverdier. Formelen 1 ligner på det kjente 95 prosent konfidensintervallet som er gitt ved: (2) Gjennomsnitt +/- 2*Standardavvik Forskjellen mellom disse formlene er at konfidensintervallet (2) vil bruke ekstremverdier til å beregne grensen til det som skal settet for ekstremverdier. Dette kan føre til at ekstremverdier ikke blir funnet. I tillegg er det antatt at dataene er normalfordelte, noe de ofte ikke er. Eksempel: Medianen av tallene: 1, 2, 3, 4, 5, 6, 7, 8, 9 er 5 siden tallet 5 har 4 observasjoner både under og over seg. Gjennomsnittet er også 5. Hvis tallene 8 og 9 hadde ved en feil blitt registrert som henholdsvis 18 ogl9, da er fortsatt medianen 5, mens gjennomsnittet har blitt 7.2. Gjennomsnittet har blitt påvirket av feilen, mens medianen ikke har det. Formelen for å finne ekstremverdier som bygger på medianer og kvartiler ville ha funnet disse to som ekstremverdier, mens formelen som bygger på gjennomsnitt ikke ville ha gjort det. SAS-program for å finne kvartiler og medianer PROC TABULATE DATA=work.class FC=' -- -' F=B.l MISSING; VAR var_l var_2 var 3 var 4 var 5; TABLES var_l var_2 var_3 var 4 var 5, MlN='Minimum' MAX='Maksimum' median='median' ql='l. kvartil, 25%' q3='3 kvartil, 75%' qrange='avstanden 3.-1. kvartil' /ROW=FLOAT RUN; Eksempel på utskrift: 1. 3. Avstandkvartil, kvartil, en 3.-1. Minimum Maksimum Median 25% 75% kvartil Korrigerte oppholdstimer per årsverk i kommunale barnehager 0.0 18531.6 10482.8 9610.1 11246.2 1636.2 Korrigerte brutto driftsutgifter til kommunale barnehager 0.0 129.5 35.9 33.0 39.9 6.9 < < < ( < < ( I enkelte tilfeller kan det være stor forskjell mellom KOSTRA-gruppene, i slike tilfeller kan det være fornuftig å sette en grense i hver KOSTRA-gruppe for hva som er ekstremverdi. I tillegg til dette er viktig å bruke erfaring og kunnskap fra fagfeltet for å sette fornuftige grenser for hva som er ekstremverdier. Ekstremverdier bør undersøkes om de er feil. Det vil alltid kunne finnes observasjoner som er ekstreme, men korrekte. 12

Hvis man vil ha verdiene på en fil bruk prosedyren 'proc univariat1 i SAS. Det er mulig å prøve å finne ekstremverdier på flere nøkkeltall samtidig. Hvis metoden skal være robust, krever dette ganske avanserte metoder, men de finnes. F.eks. MYE eller MCD prosedyren i PROC IML. Disse prosedyrene minimerer enten ellipser eller kovariansen og finner de observasjonene som ligger langt fra de andre (Rousseeuw and Leroy: Robust regression and outlier detection.l9b7). Med denne prosedyren finner vi altså de kommunene med de mest awikende nøkkeltallene i forhold til de fleste andre kommunene. Problemet med disse prosedyrene er at de ikke er særlig brukervennlige. 6. Tips til SAS-insight 1. Start av SAS-insight: Solution/analysis/Interactive data analysis 2. For åfå kommunenavn istedenfor kommunenummer i plotene trykk på 'output' i valgmenyen og merk av at du vil 'label'. 3. For åse programkode i loggen for figurene som blir laget: File/save/statsments 4. For generelle tips se i notatet 2000/1: SAS/insight 5. Endring av størrelse på graf: Det er mulig å fa en større graf ved å markere rammen på figuren og så dra den ut. Det er også mulig å angi størrelsen ien SAS-setning i proc insight: window x y lengde bredde x,y angir hvor figuren skal starte. Øverste til venstre er da 0, 0. Lengde og bredden angis i prosenter. 6. Ending av skala og stolpebredde, tics Dette kan gjøres ved å endre verdiene til tics i grafen. Verdiene som kan endres er første verdi (first tics), siste verdi (last tics), bredden (tics increment), minste verdi (minor tics), akse minimum (axis minimum), akse maksimum (axis maximum). I programkoden kan dette gjøres ved å skrive yaxis og de 6 verdiene som beskrevet over bak. 7. Bruk av farger : Det kan ofte ha en sterk effekt å legge farge på de observasjonene som antakelig er feil eller ekstremverdier. For å gjøre dette i SAS-insight er det nødvendig å lage et nytt datasett, hvor det blir lagt på 'farger' på datasettet. I eksemplet under legger vi fager på de kommunene som nøkkeltall 1 (variabel 1) som har prosent som ikke er mellom 0 og 100. DATA test; SET work.class ; IF o=<var_l=<loo THEN farge='o' ; ELSE farge='l'; IF farge='l' THEN obstat ='1110165535 0 0'; IF farge='of THEN _obstat_='ollol 0 065535'; RUN; Forklaring til _obstat obstat_ består av 20 karakter hvor alle punktene betyr noe. Karakter 1: Markerer om observasjonen er markert eller ikke. Karakter 2: Lager om observasjonen er vist eller gjemt i grafen. '1' er at observasjonen er vist. 13

Karakter 3: Lager om observasjonen er inkludert eller ekskludert i beregningene. T er inkludert i beregningene. Karakter 4: Lager om observasjonen skal ha et merke (Label) eller ikke. T For at merke er vist. Karakter 5: Lager hvordan observasjonen er markert: 1 firkant 2 pluss 3 sirkel 4 diamant 5x 6 treangel vendt opp 7 treangel vendt ned 8 stjerne Karakter 6-20 farger rød, grønn og blå på hver 5 karakterer. Verdi fra 0-65535. Programkode PRoc insight data=test; window 0 0 100 100; bar VAR_I /other=o yaxis=-1.5 1.7 0.1 0-2 2; RUN; Figur 8 Stolpediagram med markering av ugyldige verdier 14

De sist utgitte publikasjonene i serien Notater 2003/44 L. Østby: Innvandring fra nye EU- land; fortid, nåtid og mulig framtid. 445. 2003/45 T. Dale, H. Høie og A-KJohnsen: Evaluering av "Naturressurser og miljø" 30s. 2003/60 A. Vedø og D. Rafat: Redigering av husholdningsfilen fra Kvalitetsundersøkelsen. 13s. 2003/61 M. Mogstad: Analyse av fattigdom basert på register- og folketellingsdata. 755. 2003/46 L. Solheim: Foreløpige landstall i KOSTRA. Prinsipper, metoder, produksjon og eksemper. 76s 2003/47 A. Hurlen Foss: kvaliteten i boligdelen av Folke- og boligtellingen. 325. 2003/62 T. Eika og J.A. Jørgensen: Makroøkonomiske virkninger av høye strømpriser i 2003. En analyse med den makroøkonometriske modellen KVARTS. 16s 2003/48 2003/63 B. Mathisen: Flyktninger og E. Siig Meen og O. Rognstad: arbeidsmarkedet 4. kvartal 2001. 325. Jordbrukstelling 1999- dokumentasjon. 105s. 2003/64 E. Røed Larsen og D.E. Sommervoll: Til himmls eller utfor stupet? En 2003/49 L.Rogstad: Statistiske temakart og X-Map. 325. katalogisering av forklaringer på stigende boligpriser. 3ls. 2003/50 E. Holmøy: Velferdsregnskap - et mulig teoretisk rammeverk.3ss. 2003/51 C. Wiecek: Undersøkelse om fremtidsplaner, familie og samliv. Dokumentasjonsrapport. 595. 2003/52 KOSTRA: Arbeidsgrupperapporter 2003. 1535. 2003/65 P.E. Tønjum: Tilbakemelding/ dokumenta sjon av prosjektet: Avstemming av KNR mot nye årstall ifølge tallrevisjonen.43s. 2003/66 B.A. Holth: Arbeids- og bedriftsundersøkelsen 2003. Dokumentasjon. 675. 2003/67 H. Tønseth: Kommuneale helseforskjeller -de finnes, men kan de måles? 15s. 2003/53 A. Haglund: Rapport fra arbeidsgruppa om forslag til arbeidsdeling mellom Brønnøysundregistrene (BR) og Statistisk sentralbyrå (SSB). 40s. 2003/68 T.M. Normann: Omnibusundersøkelsen mai/juni 2003. Dokumentasjonsrapport. 50s. 2003/69 KOSTRA (Kommune- Stat- Rapportering) Rutinebeskrivelse og dokumentasjon. 60s. 2003/54 E. Eng Eibak: Forventningsindikator - konsumprisene. Mai - november 2003. 19s. 2003/70 E. Holmøy og B. Strøm: Fordeling av tjenesteproduksjon mellom offentlig og 2003/55 G. Daugstad: Levekår for ungdom i større byer. 80s. 2003/56 A. Vedø og D. Rafat: Sammenligning av utvalgsplaner i AKU. 17s. privat sektor i MSG-6. 255. 2003/71 J.K. Dagsvik: Hvordan skal arbeidstilbudseffekter tallfestes? en oversikt over den mikrobaserte arbeidstilbudsforskningen i Statistisk 2003/57 L. Belsby: Fråfall og vekter i sentralbyrå. 675. Tidsbruksundersøkelsen 2000-2001. 20s. 2003/72 A. Steinkellner: Inntektsstatistikk for 2003/58 L.Belsby: Vekter i personer og familier 1999-2001. Forbruksundersøkelsen. 28s. 2003/59 M. Mogstad og L.C. Zhang: På veien fra familie- til husholdningsregister. En metode for prediksjon av samboere uten barn.53s Dokumentasjon av datagrunnlag og produksjonsprosess. 435. 15

Notater * E Depotbiblioteket ni 03sd 25 856 Statistisk sentralbyrå Oslo: Postboks 8131 Dep. 0033 Oslo Telefon: 21 09 00 00 Telefaks: 21 09 49 73 Kongsvinger: 2225 Kongsvinger Telefon: 62 88 50 00 Telefaks: 62 88 50 30 ISSN 0806-3745 Statistisk sentralbyrå Statistics Norway