Innsamling og modellering av data for analyse av militære operasjoner

Like dokumenter
LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Mer om utvalgsundersøkelser

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

Kapittel 8: Estimering

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

Hypotesetesting, del 5

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Metoder for politiske meningsmålinger

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

Kapittel 7: Noen viktige sannsynlighetsfordelinger

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

Estimering 1 -Punktestimering

TMA4245 Statistikk Eksamen mai 2017

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Estimering 1 -Punktestimering

Noen vanlige. Indikatorfordeling: 1, dersom suksess. I mange situasjoner kan fenomenet vi ser på. 0, dersom ikke suksess

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

TMA4240 Statistikk Høst 2016

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

ECON240 Statistikk og økonometri

Statistikk og økonomi, våren 2017

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

Kapittel 7: Noen viktige sannsynlighetsfordelinger

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2015

Påliteligheten til en stikkprøve

TMA4240 Statistikk Høst 2016

Oversikt over konfidensintervall i Econ 2130

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

Oversikt over konfidensintervall i Econ 2130

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

Emnenavn: Eksamenstid: 4 timer. Faglærer: Hans Kristian Bekkevard

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kp. 5 Estimering. Målemodellen.

Oversikt over konfidensintervall i Econ 2130

MOT310 Statistiske metoder 1, høsten 2011

UNIVERSITETET I OSLO

Econ 2130 Forelesning uke 11 (HG)

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

MOT310 Statistiske metoder 1, høsten 2012

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

betegne begivenheten at det trekkes et billedkort i trekning j (for j=1,2,3), og komplementet til

STK1100 våren 2017 Estimering

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Oversikt over konfidensintervall i Econ 2130

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Oppsummering

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

Deskriptiv statistikk for sentrum og spredning i fordelingen. Gjennomsnitt og standardavvik. eller

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

Oppgaven består av 9 delspørsmål, A,B,C,., som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<.. >>.

TMA4240 Statistikk Høst 2009

Populasjon, utvalg og estimering

Oppgaver fra boka: X 2 X n 1

TMA4245 Statistikk. Øving nummer b5. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Emnenavn: Metode 1, statistikk deleksamen. Eksamenstid: 4 timer. Faglærer: Bjørnar Karlsen Kivedal

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 20. mai 2008

TMA4245 Statistikk Eksamen 9. desember 2013

Forelesning Moment og Momentgenererende funksjoner

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

8 (inkludert forsiden og formelsamling) Tegne- og skrivesaker, kalkulator, formelsamling (se vedlagt).

TMA4240 Statistikk Høst 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2011

TMA4245 Statistikk Vår 2015

TMA4240 Statistikk Eksamen desember 2015

Løsningsforslag Oppgave 1

Kap. 9: Inferens om én populasjon

11,7 12,4 12,8 12,9 13,3.

TMA4245 Statistikk Eksamen august 2015

Kap. 9: Inferens om én populasjon

Rep.: generelle begrep og definisjoner Kp. 10.1, 10.2 og 10.3

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

TMA4240 Statistikk Høst 2015

Løsningsforslag til eksamen i STK desember 2010

Der oppgaveteksten ikke sier noe annet, kan du fritt velge framgangsmåte.

n 2 +1) hvis n er et partall.

TMA4240/4245 Statistikk 11. august 2012

Estimering 2. -Konfidensintervall

Transkript:

FFI-rapport 008/059 Isamlig og modellerig av data for aalyse av militære operasjoer Håko Ljøgodt Forsvarets forskigsistitutt (FFI) 9. august 008

FFI-rapport 008/059 068 P: ISBN 978-8-464-447-8 E: ISBN 978-8-464-448-5 Emeord Dataisamlig Modellerig Meigsmåliger Bayesiaske metoder Bootstrapmetode Godkjet av Stei Malerud Espe Skjellad Ja Erik Torp Prosjektleder Forskigssjef Avdeligssjef FFI-rapport 008/059

Sammedrag Dee rapporte er skrevet som e del av prosjekt 068: Metoder og modeller for aalyse av freds- og lavitesitetsoperasjoer. Hesikte med rapporte er å gi e oversikt over metoder for isamlig og modellerig av data i forbidelse med aalyse av militære operasjoer, ikludert freds- og lavitesitetsoperasjoer. Beskrivelse av metodee er kortfattet, me det hevises til aktuelle lærebøker for dem som har behov for å gå dypere i i de ulike emee. Det første emet som omtales er dataisamlig med vekt på meigsmåliger side dette er e viktig metode for å kartlegge utviklige i kofliktområder. Deretter gjeomgås de tradisjoelle metodee for å represetere data ved hjelp av statistiske fordeliger blir. Setralt her er stegee: Valg av fordeligsklasse basert på tidligere erfarig og grafisk framstillig av dataee. Estimerig av parametree i de valgte sasylighetsfordelige på grulag av dataee. Testig av de estimerte sasylighetsfordeliges eve til å represetere dataee. Disse stegee må om ødvedig gjetas flere gager. Bayesiaske metoder omtales som e metode for kosistet sammestillig av subjektiv iformasjo og faktiske måleresultater. Til slutt følger e beskrivelse av Bootstrapmetode. Dette er e datamaskibasert metode som blat aet eger seg for beregig av kofidesitervall der dette er vaskelig med klassiske metoder. FFI-rapport 008/059 3

Eglish summary This report has bee writte as a part of project 068:`Methods ad models for the aalysis of peace ad low itesity operatios`. The purpose of this report is to give a itroductio to methods for collectig ad modellig data related to military operatios, icludig peace ad low itesity operatios. The descriptio of the methods is brief, but there are refereces to textbooks for those who eed more iformatio about the actual subjects. The first topic metioed is data collectio with emphasis o opiio polls sice this is a importat tool for assessig the desired progress i coflict areas. The more traditioal methods for represetig data by meas of probability distributios are briefly described. Three steps are emphasised: Selectio of probability distributio based o experiece ad graphical display of the data. Estimatio of the parameters of the selected probability distributio based o the data. Goodess-of-fit testig to see whether the selected probability distributio is satisfactorily represetig the data. If ecessary, these steps have to be repeated. Bayesia methods are metioed as a tool for cosistet fusio of subjective iformatio ad actual measuremets. Fially, there is a descriptio of the Bootstrap method. This is a computer itesive method well suited for estimatio of cofidece itervals i cases where this is difficult with classic methods. 4 FFI-rapport 008/059

Ihold Iledig 7 Isamlig av data 8. Meigsmåliger 9.. Isamligsmetoder 0.. Utformig av spørsmål og spørreskjema..3 Målig av utviklig over tid 3 Aktuelle fordeligsklasser 3. Kotiuerlige fordeliger 5 3. Diskrete fordeliger 7 4 Parameterestimerig i aktuelle fordeligsklasser 7 5 Tester for å udersøke om e valgt fordelig represeterer dataee godt ok 8 5. Quatile-Quatile plot 8 5. Kjikvadratføyigsteste 9 6 Metoder år det er få observasjoer 0 6. Bayesiaske metoder 0 6.. Bayes formel avedt til å vurdere godhete av klassifiserigsregler 6. Bootstrapmetode 7 Oppsummerig 4 Referaser 6 FFI-rapport 008/059 5

6 FFI-rapport 008/059

Iledig Dee rapporte er skrevet som e del av prosjekt 068: Metoder og modeller for aalyse av freds- og lavitesitetsoperasjoer. Hesikte med dee rapporte er å gi e oversikt over metoder for isamlig og modellerig av data i forbidelse med aalyse av militære operasjoer, ikludert freds- og lavitesitetsoperasjoer. Aalyse av militære operasjoer ved FFI har tradisjoelt foregått ved bruk av aturviteskapelige metoder. Ved aalyse av freds- og lavitesitetsoperasjoer vil det ormalt ikke være tilstrekkelig med disse metodee alee. I tillegg til de tradisjoelle metodee vil det derfor bli gitt e beskrivelse av bayesiask aalyse og meigsmåliger som er kvatitative metoder for behadlig av subjektiv iformasjo. Ved modellerig er det ofte behov for å represetere isamlede data ved hjelp av sasylighetsfordeliger. Disse sasylighetsfordeligee ka så brukes til å geerere iput for stokastiske simulerigsmodeller eller til å berege sasylighetee for begiveheter kyttet til de aktuelle stokastiske variablee. Dee rapporte er relevat for e del tri i OA-arbeidsprosesse. Dette er illustrert i Figur - ved at de tri som rapporte ikke behadler er skyggelagt. Problemformulerig Arbeidsmetode og -orgaiserig Geererig av alterativer Dataihetig Modellutviklig Aalyse Sytese Abefalig og implemeterig Figur - De deler av OA-arbeidsprosesse som omtales i dee rapporte er fremhevet I dee rapporte beskrives e del metoder og tekikker for å fremskaffe sasylighetsfordeliger som ka represetere dataee. Dee prosesse vil ofte bestå av fire steg: Isamlig av data. Dette ka være isamlig av allerede eksisterede data eller det ka være hele prosesse med forsøksplaleggig, gjeomførig av forsøk og avsluttede bearbeidig av data. FFI-rapport 008/059 7

Valg av fordeligsklasse til å beskrive data. Ved blat aet å fremstille dataee i et histogram får ma et itrykk av hvilke fordeligsklasser som er aktuelle. Estimerig av parametree i de valgte fordeligsklasse. I lærebøker i statistikk vil ma fie forslag til estimatorer for parametree i de aktuelle fordeligsklassee. Programpakkee i statistikk vil ofte foreta estimerige år ma aveder e Fitfuksjo. Testig av hvor godt de estimerte fordelige represeterer dataee. Her er det valig med e visuell ispeksjo av forskjellige typer plot. Det fis også mer formelle testobservatorer som ka bereges. Dee stadardprosesse som er skissert ovefor forutsetter tilgag på e viss megde data. Hvis det er vaskelig å få tak i data, ka Subject Matter Experts (SME) diskutere seg fram til e fordelig. De videre modellerige blir da ie ramme av bayesiask statistikk. Det vil også bli omtalt e metode basert på frekvetistisk (ikke-bayesiask) statistikk for parameterestimerig og usikkerhetsagivelse år ma bare forutsetter idetisk fordelte og uavhegige observasjoer. Dee metode kalles Bootstrap-metode. Meigsmåliger er et spesialtilfelle av utvalgsudersøkelser. Ma øsker å estimere adele av idivider i e populasjo som har e viss egeskap, ute å måtte udersøke alle idividee i populasjoe. I e utvalgsudersøkelse ka ma f. eks. udersøke et utvalg av trær i e skog for å estimere adele av trær som er agrepet av barkbiller. I e meigsmålig ka ma f. eks. spørre et utvalg av persoer om de har tillit til politiet hvis ma øsker å estimere hvilke tillit politiet har i befolkige. Isamlig av data Dataisamlige utgjør ofte e vesetlig del av arbeidet med å løse et virkelig problem. Likevel er dataisamlige det steget i iputmodellerige som får mist omtale i lærebøker og som det er vaskeligst å gi e geerell beskrivelse av. E viktig årsak til dette er at det i forbidelse med dataisamlig ofte dukker opp praktiske spørsmål som det ka være vaskelig å forutse. Ett momet er imidlertid felles for all dataisamlig. Før dataisamlige starter må ma teke øye gjeom hvilke data som tregs for å besvare de spørsmålee ma har. Ma ka f. eks. ha et krav om at bredde til et kofidesitervall for e parameter ma øsker å estimere ikke må overstige e viss verdi. Ved å aalysere beregige av kofidesitervall vil e fie at dette krever at atall observasjoer må overstige et visst miimum. Side dataisamlig ikke er gratis, må ma vurdere om det opprielige kravet til bredde av kofidesitervallet gjør at dataisamlige blir for dyr. Utformige av e dataisamligspla er derfor e iterativ prosess hvor e vurderer isamligskostader mot øyaktighetskrav. Ma bør også ta e siste gjeomgag av dataisamligsplae for å kotrollere at de data som skal samles i faktisk er av betydig for å kue besvare de aktuelle spørsmålee. 8 FFI-rapport 008/059

I forbidelse med dataisamlig ka det ofte være yttig å skille mellom kotrollerte eksperimet og passiv registrerig av data fra et system som utvikler seg ute påvirkig av aalytikere. Dette ka illustreres med to eksempler.. Kotrollerte eksperimet Ved valg av f. eks. hådvåpe ka e gjeomføre kotrollerte eksperimet for å se hvilket våpe som eger seg best. Ma ka la et atall forsøkspersoer prøve alle de tre aktuelle hådvåpee V, V, V 3 mot fire aktuelle mål M, M, M 3, M 4. For at lærigseffekte ikke systematisk skal påvirke resultatet, ka ma for hver forsøksperso trekke rekkefølge for skytige med de tolv kombiasjoee av hådvåpe og mål, f. eks.: V M 3, V M 3,..., V M 4. Motgomery [] gir e iførig i forsøksplaleggig.. Passiv registrerig av data Registrerig av hevedelser til et legekotor illustrerer e situasjo som utvikler seg ute styrig av aalytikere. I dette eksempelet er det ormalt é perso som tar imot ikommede samtaler, me det er kommet flere klager på lag vetetid. Det vurderes å ha to persoer til å ta imot telefoer i ekelte perioder. For å vurdere år det er behov for to persoer bestemmer ma seg for å registrere tidspukt for hevedelse og varighet av samtale. I de forbidelse fremkommer det e rekke spørsmål. Er det ok å registrere hevedelsee over e dag eller er det stor forskjell på ukedagee? Er det stor forskjell på atall hevedelser i f. eks. uke 4 og 4? Hvor mage må settes til å betjee telefoe i prøveperiode for å sikre at ige avbryter hevedelse på gru av lag vetetid? Hva gjør ma hvis ma går glipp av to timer plalagt registrerig? Gjør ma e y registrerig på tilsvarede tid i påfølgede uke? E slik dataregistrerig er kostbar. E må derfor vurdere hvorvidt et mer omfattede observasjosmateriale er verdt de ekstra registrerigskostadee. I tillegg til drøftig av kotrollerte eksperimeter ieholder Alberts [] også e del stoff som er relevat for passiv registrerig av data. Hvis ma har et sett med levetidsdata er det viktig å udersøke om de er sesurerte. E observasjo t i av e variabel sies å være vestresesurert hvis ma bare vet at t i < L og høyresesurert hvis ma bare vet at t i >R der L og R er kostater. Hvis ma er iteressert i hvor mage kjøretimer e stridsvogmotor tåler før de er utslitt, vil ma på et gitt tidspukt kue sitte med et høyresesurert datasett. For e motor som ikke er utslitt, vil ma bare vite at levetide t i er større e atall kjøretimer t i0 på isamligstidspuktet..3 Meigsmåliger Side ma ved utvalgsudersøkelser bare udersøker e del av populasjoe, vil estimatet ma bereger være beheftet med usikkerhet. Hvis ma øsker å estimere adele av trær som er agrepet av barkbiller i e skog, vil dette være det eeste bidraget til usikkerhete side det er rimelig å forutsette at ma ut fra e gitt defiisjo ka avgjøre om et tre er agrepet av barkbiller. Ved meigsmåliger kommer adre typer usikkerheter/feilkilder i tillegg. Vedkommede som er trukket ut for itervju, ka være utilgjegelig, ka ekte å svare, ka svare slik ha tror det forvetes eller ha ka misforstå spørsmålet. FFI-rapport 008/059 9

Før de spesielle utfordrigee ved meigsmåliger drøftes ærmere, ka det være aturlig å si litt om de variase som skyldes at ma bare udersøker e del av populasjoe. Ata for ekelhets skyld at ma øsker å estimere adele p i e populasjo som har e viss egeskap. La populasjoe bestå av N idivider hvorav a av disse har dee egeskape. Ma øsker å a estimere adele p = der a er ukjet. Dette gjøres ved å trekke et tilfeldig utvalg på N idivider fra populasjoe på N idivider. Ata at ma blat de uttruke idividee fier at x x idivider har de aktuelle egeskape. Adele p estimeres da ved pˆ =. I lærebøker om utvalgsudersøkelser vil e fie at et kofidesitervall for p med kofidesgrad tilærmet lik - ε ka uttrykkes ved ˆ( ˆ) ˆ( ˆ) ( ˆ p p, ˆ p p z p ε p+ z ε ) ε der z ε er ( ) -fraktile i ormalfordelige med forvetig lik 0 og varias lik. E N forutsetig for at dee tilærmige skal være god er at ikke er for lite og at N er tilærmet lik. Velges ε = 0,05 fier ma z 0,975 =,96. Dermed blir bredde på ˆ( ˆ) kofidesitervallet i dette tilfellet lik 4 p p. Isettig av oe tall vil illustrere bredde på dette kofidesitervallet. Hvis ˆp = 0,5 og = 000 blir kofidesitervallet lik (0,468, 0,53) og bredde lik 0,064. Hvis ˆp = 0,05 og = 000 blir kofidesitervallet lik (0,036, 0,064) og bredde lik 0,08. I [3] er det beskrevet alterativer til ret tilfeldig utvelgig som klygeutvelgig og stratumdelt tilfeldig utvelgig. Uder visse forutsetiger vil disse utvalgsmåtee gi midre varias for ˆp e ret tilfeldig utvelgig..3. Isamligsmetoder Et viktig momet er valg av metode for meigsmålige. De mest kjete metodee er itervju asikt til asikt, itervju over telefo, utfyllig av spørreskjema sedt over iterett og utfyllig av spørreskjema sedt via post. Egethete av disse metodee må vurderes blat aet opp mot kostader, tidsbruk, svarproset og skjevheter på gru av at ma ikke får svar fra ekelte deler av populasjoe. Det er åpebart dyrere med e itervjuer e med egeutfylt spørreskjema. Bruk av spørreskjema utsedt og besvart over iterett gir kortest gjeomførigstid for udersøkelse. Svarprosete vil ofte være høyest ved telefoitervju. Ma må velge metode på bakgru av de populasjo ma vil hete iformasjo om. Øsker ma å kartlegge folks erfariger med IP-telefoi, ka det være greit å sede ut spørreskjema over iterett. Øsker ma å kartlegge ordmes holdiger til orsk EU-medlemskap er det problematisk bare å sede ut spørreskjema via iterett. Dette ka imidlertid forsvares hvis tidligere udersøkelser har vist at holdige til EU-medlemskap er de samme i gruppee Har iterettilgag hjemme og Har ikke iterettilgag hjemme. 0 FFI-rapport 008/059

.3. Utformig av spørsmål og spørreskjema Dette er omfattede tema hvor det er vaskelig å gi oe fullstedig oppskrift. Det fis imidlertid e rekke mometer som det vil være yttig å teke gjeom i forbidelse med dee utformige. I dette avsittet vil det bli gitt eksempler på slike mometer. For e relativ fyldig fremstillig av temaet vises det til [3]. Det er viktig at oppdragsgiver og de som skal gjeomføre udersøkelse sakker grudig samme for å få avklart hva ma øsker å få svar på og hva det er mulig å få svar på. Etter at ma er blitt eig om et utkast til spørreskjema, bør dette prøves ut på e gruppe som har mest mulig til felles med populasjoe. E slik prøve vil kue avsløre uheldige formuleriger som fører til misforståelser eller motvilje hos dem som blir itervjuet. Spørsmålee bør selvfølgelig være klare og etydige. Hva er di itekt? er ikke oe godt spørsmål. Hva er di årlige bruttoitekt? er e bedre formulerig hvis det er dette ma øsker svar på. Ordet bruttoitekt bør kaskje erstattes med itekt før skatt er betalt. Ordvalget må tilpasses de populasjoe e øsker å udersøke. Syes du besi- og bilavgiftee i Norge er for høye / passe / for lave? er heller ikke oe godt spørsmål. Hva skal ma svare hvis ma meer besiavgifte er for lav, registrerigsavgifte for høy og det totale avgiftsivået på bilhold passe? Spørsmålee bør ikke være ledede, me dette øsket er det ikke alltid lett å oppfylle. Følgede eksempel illustrerer dette. Syes du Norge gir for mye / passe / for lite i u-hjelp? er et greit spørsmål. Det blir imidlertid et problem hvis de itervjuede før ha svarer øsker å vite hvor mye Norge gir. Ma ka oppgi beløpet på flere ekvivalete måter som prosetadel av BNP, totalbeløpet i milliarder kroer eller i kroer per ordma. Måte ma oppgir beløpet på vil ha ivirkig på svarfordelige selv om måtee er ekvivalete. Ma bør i de fleste tilfellee spesifisere svaralterativee til et spørsmål. Dette gir esartede svar som gjør de videre behadlig av dataee eklere. Det gjør det også mulig for de itervjuede å vurdere svaralterativ ha ellers ikke ville ha kommet på i farte. Ved mage svaralterativ ka det være behov for e samlepost Aet, veligst spesifiser. De oppførte svaralterativee bør være de ma reger med vil få flest svar. Maksimalt atall svaralterativ bør ligge rudt 0. E ulempe med spesifiserte svaralterativ er at de itervjuede i oe tilfeller ikke fier svaralterativ som passer til has oppfatig. Når det gjelder utformige av spørreskjemaet, bør følsomme spørsmål plasseres til slutt i tilfelle de itervjuede da velger å avbryte itervjuet. Ved et avbrudd har ma sikret seg svar på de mer øytrale spørsmålee. Beslektede spørsmål bør grupperes samme. Atall spørsmål på et skjema ka variere, me det er viktig at det ikke tar for lag tid å besvare skjemaet. Jo leger tid det tar å besvare skjemaet, desto lavere vil motivasjoe for å gjøre det være. Det atydes at itervju over telefo eller iterett ikke bør ta mer e et kvarter. FFI-rapport 008/059

.3.3 Målig av utviklig over tid Hvis ma øsker å se hvorda oppfatiger edrer seg over tid, ka det være gustig å itervjue det samme utvalget med jeve mellomrom, f. eks. hvert år. Ma må i alle fall være forsiktig med å edre formulerige av spørsmålee. Med edrig i formulerige blir det vaskelig å skille reelle edriger i oppfatig fra de edrigee som skyldes y formulerig. Når ma studerer utviklig over tid, er det viktig å ta hesy til sesogvariasjoer. Hvis ma f. eks. spør folk i Afghaista om de har merket talibaaktivitet i ærområdet de siste uke, bør ma ikke sammelige resultatee fra et itervju i ovember 007 med resultatee fra et itervju i mai 008. E økig i rapportert aktivitet i itervjuet i mai 008 betyr ikke ødvedigvis at Taliba har styrket seg. Det hadde gitt et riktigere bilde å sammelige situasjoe i mai 008 med situasjoe i mai 007. 3 Aktuelle fordeligsklasser Dette kapitlet beskriver kort prosesse med å bestemme aktuelle fordeligsklasser for å represetere dataee. Deretter følger oe eksempler som illustrere variasjosmulighetee blat de kotiuerlige og diskrete fordeligee. På bakgru av tidligere erfariger med ligede data vil ma i mage tilfeller ha e oppfatig av hvilke fordeligsklasser som represeterer dataee på e god måte. Hvis dataee f. eks. agir tidee mellom akomster av kuder, vil legde av disse tidsitervallee være ekspoetielt fordelt forutsatt kostat akomstitesitet og uavhegighet mellom begiveheter i ikke overlappede tidsitervaller. Fra setralgreseteoremet følger det at hvis e variabel fremkommer som e sum av mage uavhegige bidrag med edelig forvetig og varias, så vil fordelige til dee summe være tilærmet ormalfordelt. Lærebøker ie de forskjellige fagfeltee (køteori, pålitelighetsteori, epidemiologi,.. ) vil ofte drøfte de mest aktuelle fordeligee ie sie områder. Law og Kelto [4] bruker ca. 00 sider på å drøfte valg av iputfordeliger. 3. Ispeksjo av datasettet Før ma begyer å bestemme aktuelle fordeliger vil det være yttig å fremstille dataee i et histogram. Ma vil da kue få et godt itrykk av forme på fordelige. Svaree på følgede spørsmål vil i oe grad bidra til å redusere atall aktuelle fordeliger. Er fordelige symmetrisk eller skjev? Har de lage haler? Har de tuge haler? Ved fremstillig av data i et histogram må ma bestemme seg for hvor mage itervallgrupper ma vil ha i histogrammet. Det er ikke oe absolutt svar på dette spørsmålet, me e tommelfigerregel sier at hvis ma har observasjoer bør atall itervall, k, velges ut fra formele k. FFI-rapport 008/059

N(4,) Atall observasjoer 0 8 6 4 0,6,8 4 5, 6,4 Midtpukt itervall N(4,) Figur 3- Histogram av 30 observasjoer trukket fra e ormalfordelig med forvetig lik 4 og varias lik Atall itervall i histogrammet ovefor er valgt lik 5 side 30 = 5,5. Selv om observasjoee er trukket fra e ormalfordelig, ser ikke histogrammet helt symmetrisk ut. Det visuelle itrykket hadde vært klart mer symmetrisk hvis bare e av observasjoee i,8-itervallet i stedet hadde falt i,6-itervallet. Fordelige av et sett observasjoer ka også visualiseres ved et såkalt boxplot. Figur 3- viser et boxplot av de samme data som er fremstilt i Figur 3-. I boxplottet markeres fem karakteristiske verdier for datasettet: miimumsverdi, første kvartil, media, tredje kvartil og maksimumsverdi. E ekstremverdi blir lett sylig i et boxplot. Når e slik ekstremverdi er påvist, er det gru til å kotrollere om det har forekommet feil i forbidelse med målige og registrerige av dee observerte verdie. Etter å ha laget histogram og boxplot på grulag av dataee, vil ma som regel ha redusert atall fordeliger som ka ege seg til å represetere dataee. FFI-rapport 008/059 3

Figur 3- Boxplot av 30 observasjoer trukket fra e ormalfordelig med forvetig lik 4 og varias lik Sasylighetsfordeliger ka grupperes på mage måter. Hovedidelige er gjere i kotiuerlige og diskrete fordeliger. I kapittel 3. og 3.3 vil det bli vist oe eksempler på slike fordeliger. Figuree i disse eksemplee er hetet fra Wikipedia [5] som omtaler og illustrerer et stort atall fordeliger. Ellers grupperes fordeligee på grulag av verdimegde til de stokastiske variabele. Verdimegde ka være et begreset itervall, et itervall som er ubegreset i de ee ede, f. eks. [0, ), eller verdimegde ka være hele tallije. Mage programpakker tilbyr e Fit -fuksjo for bestemmelse av e fordelig for represetasjo av dataee. Ma bør være litt varsom med å bruke e slik Fit -fuksjo hvis ma ikke vet øyaktig hva de gjør. Valg av fordeligsfuksjo og estimerig av parametree i de bør foregå i to tri. 4 FFI-rapport 008/059

3. Kotiuerlige fordeliger Blat de mest kjete kotiuerlige fordeligee er ormalfordelige, de uiforme fordelige og ekspoetialfordelige. Som e illustrasjo av variasjoe blat de kotiuerlige fordeligee, vil e her vise oe få som ikke tilhører de mest kjete. Dette er likevel fordeliger med yttige avedelser. I Figur 3-3 vises sasylighetstetthete til betafordelige for fem ulike valg av parametree. Figur 3-3 Sasylighetstettheter fra betafordelige for forskjellige valg av parametree α og β E ser at det er mulig å få fram vidt forskjellige former av tetthetsfuksjoe ved å variere valget av parametre. Betafordelige har itervallet [0,] som verdimegde. Eksempler på avedelse av betafordelige er iefor prosjektstyrigsmetode PERT og som apriorifordelig for parametere i e biomisk fordelig ie bayesiask statistikk. Ved avedelse ie prosjektstyrig brukes betafordelige til å modellere varighete av forskjellige arbeidsoppgaver. For dee avedelse vil det som regel være ødvedig med e forskyvig og skalerig av sasylighetstetthete. Betafordelige med parametre α og β har sasylighetstetthet α β x ( x) f( x; αβ, ) = for 0 x B( αβ, ) der betafuksjoe B( α, β ) er defiert ved α β ( α, β) = ( ) B y y 0 dy for reelle tall α>0 og β>0. Forvetig og varias for betafordelige er gitt ved FFI-rapport 008/059 5

EX ( ) α = α + β αβ og Var( X ) = ( α + β) ( α + β + ) Figur 3-4 Sasylighetstettheter fra Weibullfordelige for forskjellige valg av parametree λ og k I Figur 3-4 vises sasylighetstetthete til Weibullfordelige for fire ulike valg av parametree. Weibullfordelige har itervallet [0, ) som verdimegde. Weibullfordelige brukes mest til modellerig av overlevelsesdata. De avedes også til å modellere de tid det tar å utføre e arbeidsoppgave. Weibullfordelige er uder visse kovergesbetigelser også gresefordelige for miimum av e megde med uavhegige og idetisk fordelte variable. Weibullfordelige med parametre λ og k har sasylighetstetthet k k ( x) f(; x λ, k) = λk( λk) e λ for 0 x<, λ>0, k>0 For k= reduseres Weibullfordelige til ekspoetialfordelige. Forvetig og varias for Weibullfordelige er gitt ved E( X) = Γ ( + ) k og Var( X ) = ( ) ( ( )) λ Γ + Γ + k k λ der gammafuksjoe er defiert ved ( x ) t x t e d Γ ( ) = t. Spesielt er Γ( ) =. Følgede rekursjosformel gjelder: 0 Γ ( x) = ( x ) Γ( x ). Dette iebærer at for heltallige så er Г()=(-)!. 6 FFI-rapport 008/059

3.3 Diskrete fordeliger Blat de mest kjete diskrete fordeligee er de biomiske, de geometriske, de hypergeometriske og Poissofordelige. Her vil Poissofordelige bli ærmere omtalt. I Figur 3-5 vises puktsasylighete til Poissofordelige for tre forskjellige valg av parametere λ. Atall hedelser som itreffer i et tidsitervall vil være Poissofordelt hvis begivehetee itreffer med e kostat rate. Atall telefoopprigiger i e viss periode vil derfor kue modelleres med e Poissofordelig. Poissofordelige fremkommer også som e gresefordelig for de biomiske fordelige år produktet av suksessasylighete og atall observasjoer holdes kostat mes ma lar atall observasjoer gå mot uedelig. Poissofordelige med parameter λ har puktsasylighet x e λ λ f( x) = P( X = x) = for λ>0 og x = 0,,,......... x! Forvetig og varias er begge lik λ. Figur 3-5 Puktsasyligheter for tre Poissofordeliger med parametre heholdsvis lik, 4 og 0 4 Parameterestimerig i aktuelle fordeligsklasser Når ma har bestemt seg for hvilke fordeligsklasse ma meer represeterer dataee, må ma estimere parametree i de valgte fordeligsklasse. Sasylighetsmaksimerigsmetode er de mest avedte estimerigsmetode. Adre valige estimerigsmetoder er miste kvadraters metode og mometmetode. Estimatoree for parametree i de valige fordeligsklassee fies i mage lærebøker, se f. eks. Baks [6]. FFI-rapport 008/059 7

I mage tilfeller fis det eksplisitte formler for estimatoree slik at estimatee ka bereges ved å sette de observerte verdiee i i formlee. Weibullfordelige er et eksempel på e fordelig hvor sasylighetsmaksimerigsmetode ikke gir oe eksplisitt formel for estimatoree. I dette tilfellet må ma ty til umerisk løsig av e ikke-lieær ligig for å fie estimatee for parametree. Som et eksempel på estimerige, vil e å se på ormalfordelige. La X, X, X 3,...., X være uavhegige og idetisk fordelte stokastiske variable med forvetig μ og varias σ =τ. Da er sasylighetsmaksimerigsestimatoree ˆμ og ˆ τ gitt ved: ˆ μ = X = X i og ˆ τ = ( X i X ) i= i= ˆμ er forvetigsrett, mes ˆ τ treger e lite justerig for å bli det. τ = ( X i X ) er e forvetigsrett estimator for τ=σ. i= 5 Tester for å udersøke om e valgt fordelig represeterer dataee godt ok Etter at parametree i de valgte fordeligsklasse er estimert, bør ma udersøke hvor godt de kokrete fordelige represeterer dataee. E vil her omtale to metoder for å udersøke grade av tilpasig. De ee metode er e grafisk metode som kalles Q-Q-plot (Quatile-Quatile). De adre metode er kjikvadratføyigsteste som represeterer e formalisert sammeligig mellom histogrammet og sasylighetstetthete/puktsasylighete. Kolmogorov-Smirovteste er e metode som har høyere teststyrke e kjikvadratføyigsteste i de tilfellee de ka avedes. Ved testig av tilpasig for diskrete fordeliger med Kolmogorov-Smirov-teste, er det komplisert å berege fraktilee i fordelige til de aktuelle testobservatore. Alle disse metodee er ærmere beskrevet i Law og Kelto [4]. 5. Quatile-Quatile-plot La F være e kumulativ fordeligsfuksjo (CDF på egelsk). Spørsmålet er om F beskriver fordelige til de stokastiske variabele X. F vil i dee sammeheg være de fordelige som ma beskrev estimerige av i kapittel 4. La x, x, x 3,...., x være observasjoer av X. La videre y, y, y 3,....., y betege de ordede x i - ee, dvs. y y y 3... y. Hvis å x, x, x 3,...., x stammer fra X med fordelig F vil F ( j ) være ær yj for j=,, 3,...,. Plottet av y j mot ( j F ) vil tilærmet ligge på e rett lije. 8 FFI-rapport 008/059

Q-Q-plot 7,00 6,00 5,00 F-ivers 4,00 3,00 Serie,00,00 0,00 0,00,00 4,00 6,00 8,00 Y-ee Figur 5- Q-Q-plot av 30 observasjoer fra e ormalfordelig med forvetig lik 4 og stadardavvik lik Figur 5- viser et Q-Q-plot av de samme dataee som tidligere er vist i Figur 3- og Figur 3-. Side ma her vet hvilke fordelig som geererte observasjoee er fordelige F i Q-Q-plottet e ormalfordelig med forvetig lik 4 og stadardavvik lik. Hadde ma fulgt estimerigsmåte som er beskrevet i kapittel 4, ville fordelige F i Q-Q-plottet vært e ormalfordelig med forvetig lik 3,87 og stadardavvik lik,. Forme på et slikt plott ville ikke ha avveket meget fra det som er vist i Figur 5-. Q-Q-plottet i Figur 5- illustrerer at puktee i et Q-Q-plot må avvike e del fra e rett lije før ma må forkaste de avedte fordelige. Ma ka faktisk få et avvik som i Figur 5- selv om ma aveder de sae fordelige F. Avvik fra e rett lije på midte av figure er e sterkere idikasjo på dårlig tilpasset fordelig e avvik på katee. 5. Kjikvadratføyigsteste Kjikvadratføyigsteste sammeliger overesstemmelse mellom histogrammet over observasjoee og de estimerte sasylighetstetthete eller puktsasylighete. Kjikvadratføyigsteste gjeomføres på følgede måte. Variasjosområdet for observasjoee deles i i k itervaller [c 0,c ), [c,c ),..., [c k-,c k ). La N j være atall observasjoer i itervallet [c j-,c j ), j=,,..., k. La ˆf betege de estimerte sasylighetstetthete for det kotiuerlige tilfellet og de estimerte puktsasylighete for det diskrete tilfellet. Bereg p j = c j c j fˆ( xdx ) cj xj cj pˆ( x ) i for e kotiuerlig fordelig for e diskret fordelig La være det totale atall observasjoer. Testobservatore blir da: FFI-rapport 008/059 9

k ( Nj p ) χ = p j= j j Valget av fordelig forkastes år χ er større e øvre ε-fraktil i kjikvadratfordelige med k-r- frihetsgrader. Her beteger r atall parametre som er estimert i de aktuelle fordelige. Det foreligger oe retigslijer for hvorda ma deler i variasjosområdet for observasjoee i k itervaller. Itervallee og k bør velges slik at p j 5 for alle j. Itervallee behøver ikke være like lage, me størrelse på p j bør ikke variere for mye med j. Det advares mot å bruke kjikvadratføyigsteste hvis det er færre e 0 observasjoer. Med så få observasjoer skal de valgte fordelige være svært ueget for at de skal bli forkastet. Med et stort atall observasjoer er heller ikke teste særlig eget da este alle valg av fordelig vil bli forkastet. Atall observasjoer som må til for at dette itreffer, vil variere. Med oe hudre observasjoer er det ekelte som abefaler å bruke de empiriske fordelige i det videre arbeidet og dermed sløyfe hele prosesse med å represetere datasettet med e kjet fordelig. 6 Metoder år det er få observasjoer I oe tilfeller har ma for få observasjoer til at ma ka trekke slutiger ved hjelp av tradisjoelle metoder. I det følgede beskrives derfor bayesiask statistikk og Bootstrapmetode. Disse metodee er ikke primært metoder for tilfeller med få observasjoer, me de ka være til ytte i slike situasjoer. Bayesiask statistikk kombierer a priori iformasjo om problemet med de iformasjoe som fis i de observerte data. Aprioriiformasjoe uttrykkes som regel ved apriorifordeliger som eksperter på det aktuelle området utarbeider. Hovedavedelse av Bootstrapmetode syes å være estimerig av varias for estimatorer som det er vaskelig å fie fordelige til. Disse estimerte variasee ka brukes til å fie kofidesitervall for de parametree som estimeres. 6. Bayesiaske metoder Bayesiaske metoder har sitt av etter Thomas Bayes (70-76) som var de første til å beskrive teoremet som har fått has av. E ekel form av Bayes teorem uttrykt ved betigede sasyligheter er som følger. La B, B,..., B være disjukte begiveheter som utfyller utfallsrommet. La P(A B j ) betege de betigede sasylighete for begivehete A gitt at begivehete B j har itruffet. Bayes teorem gir de betigede sasylighetee for B j -ee gitt at A har itruffet ved formele PA ( / Bj) PB ( j) PB ( j / A) =. PA ( / B) PB ( ) j= j j Her kalles P(B j )-ee for apriorisasyligheter mes P(B j A)-ee kalles aposteriorisasyligheter. Teoremet sier altså at aposteriorisasylighete er proporsjoal med apriorisasylighete og P(A B j ). 0 FFI-rapport 008/059

Bayesiask statistikk skiller seg fra tradisjoell frekvetistisk statistikk ved at parametere atas å ha e sasylighetsfordelig. Hvis ma atar at både parametere og observasjoee er kotiuerlige, ka Bayes teorem i dee kotekste formuleres som Lx (, x,..., x / θ ) g( θ ) f( θ / x, x,..., x ) = Lx (, x,..., x / θ ) g( θ) dθ Her er g(θ) aprioritetthete til parametere θ. De gir uttrykk for hvor sasylig ma oppfatter ulike verdier av θ å være før ma har gjort oe observasjoer. L(x, x,..., x θ) er likelihoodfuksjoe for de observerte verdiee x, x,..., x år parametere er lik θ. Aposteriorifordelige f(θ x, x,..., x ) gir uttrykk for hvor sasylig ma oppfatter ulike verdier av θ å være etter at ma har observert verdiee x, x,..., x. Disse observerte verdiee x, x,..., x gjør at ma edrer si oppfatig av fordelige av θ fra g(θ) til f(θ x, x,..., x ). Bayes teorem formaliserer altså hvorda e subjektiv oppfatig om θ uttrykt ved g(θ) edres i lys av observasjoee. Styrke ved de bayesiaske tilærmigsmåte er at de muliggjør e kosistet sammestillig av subjektiv iformasjo og faktiske måleresultater. For de fleste valg av apriorifordelig er det ikke mulig å berege oe eksplisitt matematisk form på aposteriorifordelige. Dette gjorde at Bayes teorem lege hadde begreset praktisk avedelse. Tilgag på stadig mer regekraft gjorde at det fra 990-tallet ble praktisk mulig å berege aposteriorifordeligee. Simulerigsmetoder som MCMC (Markov Chai Mote Carlo) har vist seg spesielt yttige. Bolstad [7] gir e iførig i bayesiask statistikk. Dahl [8] beskriver hvorda bayesiaske metoder med MCMC er brukt til å estimere driftskostadsvekst i Forsvaret. 6.. Bayes formel avedt til å vurdere godhete av klassifiserigsregler I det følgede brukes et fiktivt eksempel fra Afghaista for å illustrere avedelse av Bayes formel. De orske styrkee i Faryab har over tid erfart at sasylighete for at e tilfeldig valgt ma er talibatilheger er 0,0. Deres erfarig tilsier videre at sasylighete for at e tilfeldig valgt ma er passiv talibatilheger er 0,6 og at sasylighete for at ha er talibamotstader er 0,73. For å kue plukke ut talibatilhegere for kotroll og våpebeslag, har de merket seg e del kjeeteg som forekommer hyppigere hos talibatilhegere e hos de adre gruppee. La A = Mae er pashtu med lagt skjegg og har mobiltelefo.. B = Mae er talbatilheger. B = Mae er passiv talibatilheger. B 3 = Mae er talibamotstader. Erfariger fra tidligere kotroller tilsier at P(A /B ) = 0,6, P(A /B ) = 0, og P(A /B 3 ) = 0,0. Ma er å iteressert i å få vite om det er stor sjase for å treffe på e talibatilheger hvis ma plukker ut e perso med kjeeteget A. Bayes formel gir å PA ( / B)* PB ( ) PB ( / A) = PA ( / B)* PB ( ) + PA ( / B)* PB ( ) + PA ( / B)* PB ( 3) 3 Ved isettig får ma: 0,6*0,0 PB ( / A= ) = 0,3 0,6*0,0+ 0,*0,6 + 0,0*0,73 Tilsvarede blir P(B /A) = 0,56 og P(B 3 /A) = 0,3. FFI-rapport 008/059

E ser at sasylighete for å plukke ut e talibatilheger er 3 gager større år ma plukker ut e ma me kjeeteg A e år ma plukker ut e tilfeldig ma. Dee sasylighete på 0,3 er likevel lav sammeliget med sasylighete for å plukke ut e talibamotstader (0,3) eller sasylighete for å plukke ut e passiv talibatilheger (0,56). Selv om sasylighete for kjeeteget A er betydelig midre i gruppe talibamotstadere e i gruppe talibatilhegere, vil det at motstadergruppe er så mye større gjøre at det er flere motstadere med kjeeteget A e det er tilhegere med kjeeteget A. Resultatee fra Bayes formel ka her hjelpe e beslutigstager med å vurdere ytte av e foreslått klassifiserigsregel. 6. Bootstrapmetode Dee omtale av Bootstrapmetode er i hovedsak basert på Cherick [9]. Bootstrapmetode er e ikke-parametrisk metode og forutsetter bare at observasjoee kommer fra idetisk fordelte og uavhegige variable. Det er ige krav om at variablee f. eks. skal være symmetriske eller ormalfordelte. Bootstrapmetode tilhører e klasse av metoder som baserer seg på gjetatte utvalg (resamplig) fra de opprielige data. Metode omtales ofte som beregigstug (computeritesive). Artikkele som represeterer begyelse for Bootstrapmetode, ble publisert av Bradley Efro i 979. E av de store suksessee for metode er avedelse på the two-class discrimiatio problem. Klassifiserige av et objekt som mål eller arremål er et typisk eksempel på et slikt problem. Nedefor følger e kort beskrivelse av Bootstrapmetode med beregig av kofidesitervall som et eksempel på avedelse. Utgagspuktet for metode er et utvalg på uavhegige og idetisk fordelte stokastiske variabler eller vektorer X, X,..., X. Ma estimerer e parameter θ med ˆ θ = g( X, X,..., X ). Ma øsker å estimere variase for ˆ θ og fie et kofidesitervall for θ. Blat de observerte verdiee x, x,..., x trekkes det et tilfeldig utvalg på med tilbakeleggig. La resultatet være x, x,..., x. Det er valig med e utvalgsstørrelse på, me det er ikke oe krav. Ma bereger så estimatet θ ved θ = g( x, x,..., x ). Stegee trekig av observasjoer med tilbakeleggig og beregig av tilhørede estimat gjetas k gager. Typiske verdier for k er 500, 000, 5000. Ma får da k estimater for θ: θ, θ,..., k θk. La θ = θ j k j= Da ka variase til ˆ k θ estimeres ved ( θ j θ ) k j= Hvis ma forutsetter at θ j -ee er tilærmet ormalfordelte, vil et kofidesitervall for θ med kofidesgrad på ca 95 % være gitt ved k θ ± ( θ j θ ) k j= FFI-rapport 008/059

Ma vil oppå et mer robust kofidesitervall for θ med kofidesgrad tilærmet lik 95 % ved å orde estimatee θ, θ,..., θk i stigede rekkefølge og velge,5 % persetile som edre grese for kofidesitervallet og 97,5 % persetile som øvre grese. Dette kofidesitervallet treger ikke være symmetrisk om θ. De agitte kofidesgrade gjelder asymptotisk, dvs. at avviket mellom de faktiske og de agitte kofidesgrade går mot ull år atall observasjoer går mot uedelig. For å gi e ekel illustrasjo av Bootstrapmetode ble det trukket 7 observasjoer fra e ormalfordelig med forvetig lik og varias lik. Resultatet agitt med to desimaler ble:,4,,88,,55, -0,,,4,,6,,99. Målet er å bestemme et kofidesitervall for forvetige. Side observasjoee er ormalfordelte, vil ma i lærebøker i statistikk fie at kofidesitervallet med eksakt kofidesgrad 0,95 er gitt ved: s s ( x t0,05,, x + t0,975, ) der er atall observasjoer, t agir fraktiler i Studet t- fordelig med - frihetsgrader og s er gitt ved s = ( xi x). Setter ma i i= observasjoee ovefor får ma kofidesitervallet (,65,45 *0,38,,65 +,45*0,38) som utreget blir (0,7,,58). Dette kofidesitervallet har e bredde på,86. Ved bruk av Bootstrapmetode vil ma på gru av de tilfeldige trekigee få litt forskjellige itervall ved gjetatte avedelser på de samme observasjoee. For observasjoee ovefor ble det foretatt tre beregiger av kofidesitervall hvor hver beregig var basert på k = 000 trekiger av observasjosvektore. De beregede gjeomsittee av elemetee i de utruke vektoree ble ordet i stigede rekkefølge og edre grese for kofidesitervallet ble satt lik gjeomsitt ummer 5 mes øvre grese ble satt lik gjeomsitt ummer 975. Resultatet er vist i Tabell 6. Nedre grese Øvre grese Midtpukt Bredde 0,96,3,64,35 0,9,3,6,39 0,94,34,64,40 Tabell 6 Tre kofidesitervall med kofidesgrad tilærmet lik 95 % bereget med Bootstrapmetode på et felles observasjossett E ser at midtpuktee for disse itervallee er litt midre e gjeomsittet av observasjoee som er,65. Bredde av itervallee varierer litt. E større variasjo i midtpukt og bredde vil være e idikasjo på at atall estimater, k, for forvetige er valgt for lite. Bredde på disse itervallee er bare ca 75 % av bredde på kofidesitervallet basert på forutsetige om ormalfordelig. Det tilsier at kofidesgrade for Bootstrapitervallee i dette eksempelet er oe midre e 95 %. FFI-rapport 008/059 3

7 Oppsummerig I Figur - ble det vist hvilke deler av OA-arbeidsprosse som behadles i dee rapporte. Figur 7- gir e utdypet beskrivelse av disse delee av OA-arbeidsprosesse. Rapporte tar sikte på å gi e oversikt over metoder for isamlig og modellerig av data, supplert med hevisiger til kilder hvor ma vil fie e grudigere behadlig av de forskjellige temaee. Rapporte uderstreker at ma bør teke grudig gjeom hele prosesse fra fastsettelse av datakravee til gjeomførig av aalyse før ma setter i gag med dataisamlig. Som vist i Figur 7- er dette e iterativ prosess. Fastsette krav til dataihetig Totalkostader dataihetig Dataihetig Valg av fordeligsklasse Estimerig av parametre Testig Aalyse Figur 7- Figure utdyper de deler av OA-arbeidsprosesse som behadles i dee rapporte. Prosjekt 068 fokuserer på freds- og lavitesitetsoperasjoer. Ved slike operasjoer har det stor iteresse å kartlegge edriger i folks holdiger. For eksempel vil økt tillit til mydighetee hos befolkige idikere at de tiltakee som er iverksatt har hatt e øsket virkig. Kartleggig av folks holdiger foregår som regel ved hjelp av meigsmåliger. Rapporte omtaler derfor e del viktige mometer ma må ta stillig til i forbidelse med meigsmåliger. De tradisjoelle metodee for å represetere data ved hjelp av statistiske fordeliger blir kort gjeomgått. Setralt her er stegee: Valg av fordeligsklasse basert på tidligere erfarig og grafisk framstillig av dataee. Estimerig av parametree i de valgte sasylighetsfordelige på grulag av dataee. Testig av de estimerte sasylighetsfordeliges eve til å represetere dataee. Disse stegee er vist i Figur 7- som deler av e iterativ prosess. 4 FFI-rapport 008/059

Rapporte omtaler også bayesiaske metoder fordi de gjør det mulig å sammestille subjektiv iformasjo og faktiske måleresultater på e kosistet måte. Videre er Bootstrapmetode tatt med som e beregigstug metode som eger seg for beregig av kofidesitervaller der dette er vaskelig med klassiske metoder. 7. Videre arbeid FFIs aalyser av militære operasjoer iebærer som regel isamlig og modellerig av data. Disse prosessee er i varierede grad dokumetert. Ved å utytte kuskap fra slike prosesser i e mer helhetlig tilærmig til dataihetig, ka effektivitete og kvalitete i FFIs aalysearbeid styrkes ytterligere. E aturlig videreførig av dette arbeidet vil derfor være å itegrere erfariger med isamlig og modellerig av data i dette helhetlige og teoretisk baserte perspektivet. FFI-rapport 008/059 5

Referaser [] D. C. Motgomery, Desig ad Aalysis of Experimets Joh Wiley & Sos, Ic., 00. [] D. Alberts ad R. Hayes, "Code of Best Practice for Experimetatio," DoD Commad ad Cotrol Research Program, 00. [3] L. M. Rea ad R. A. Parker, Desigig ad coductig survey research: a comprehesive guide Jossey-Bass, 005. [4] A. M. Law ad W. D. Kelto, Simulatio Modellig ad Aalysis - 3rd ed. McGraw-Hill, 000. [5] Wikipedia, "http://e.wikipedia.org/wiki/statistical_distributios,". [6] J. Baks, J. S. Carso II, B. L. Nelso, ad D. M. Nicol, Discrete-Evet System Simulatio Pearso Pretice Hall, 005. [7] W. M. Bolstad, Itroductio to Bayesia Statistics Joh Wiley & Sos, Ic., Hoboke, New Jersey, 007. [8] F. A. Dahl, "Driftskostadsvekst estimert med Bayesiaske metoder," Forsvarets forskigsistitutt, FFI rapport 005/0676, 005. [9] M. R. Cherick, Bootstrap Methods Joh Wiley & Sos, Ic., Hoboke, New Jersey, 008. 6 FFI-rapport 008/059