Er neste datapar ved kalibrering en ekstremverdi som skal forkastes?



Like dokumenter
«Best Fit»-linje med usikkerhetsintervall (CI)

«Uncertainty of the Uncertainty» Del 4 av 6

Mer om utvalgsundersøkelser

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4245 STATISTIKK 6.august 2004

Lineær regresjonsanalyse (13.4)

«Uncertainty of the Uncertainty» Del 5 av 6

ECON240 Statistikk og økonometri

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

Oppgave 1 a) Minste kvadraters metode tilpasser en linje til punktene ved å velge den linja som minimerer kvadratsummen. x i (y i α βx i ) = 0, SSE =

TMA4245 Statistikk. Øving nummer b5. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

TMA4240 Statistikk Høst 2016

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010 Kp. 6, del 5

11,7 12,4 12,8 12,9 13,3.

Hypotesetesting, del 5

5 y y! e 5 = = y=0 P (Y < 5) = P (Y 4) = 0.44,

LØSNINGSFORSLAG TILEKSAMEN I FAG TMA4240/TMA4245 STATISTIKK 10. august 2005

Forkunnskaper i matematikk for fysikkstudenter. Derivasjon.

Signifikante sifre = alle sikre pluss ett siffer til

Løsningsforslag til eksamen i STK desember 2010

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

TMA4245 Statistikk Eksamen mai 2017

TMA4245 Statistikk Vår 2015

TMA4240 Statistikk Høst 2016

Kapittel 8: Estimering

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK 5.august 2004

Kalibreringskurver; på jakt etter statistisk signifikante datapar

Løsningsforslag for andre obligatoriske oppgave i STK1100 Våren 2007 Av Ingunn Fride Tvete og Ørnulf Borgan

TMA4240 Statistikk Høst 2015

KLMED8004 Medisinsk statistikk. Del I, høst Estimering. Tidligere sett på. Eksempel hypertensjon

Oppgaver fra boka: X 2 X n 1

Eksamen REA3028 S2, Våren 2011

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Konfidensintervall. Notat til STK1110. Ørnulf Borgan, Ingrid K. Glad og Anders Rygh Swensen Matematisk institutt, Universitetet i Oslo.

Kommentarer til oppgaver;

211.7% 2.2% 53.0% 160.5% 30.8% 46.8% 17.2% 11.3% 38.7% 0.8%

Econ 2130 uke 15 (HG) Poissonfordelingen og innføring i estimering

Estimering og hypotesetesting. Estimering og hypotesetesting. Estimering og hypotesetesting. Kapittel 10. Ett- og toutvalgs hypotesetesting

TMA4240 Statistikk Eksamen desember 2015

8 (inkludert forsiden og formelsamling) Tegne- og skrivesaker, kalkulator, formelsamling (se vedlagt).

Forelesning Moment og Momentgenererende funksjoner

Løsningsforslag ST1101/ST6101 kontinuasjonseksamen 2018

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Statistikk og økonomi, våren 2017

3MX 2007/8 - Kapittel 5: 8. januar 5. februar 2008

Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og Repetisjon; 9.1, 9.2, 9.3, 9.4, 9.5, og 9.10

LØSNING: Eksamen 28. mai 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007

Oppgave 1 Hardheten til en bestemt legering er undersøkt med åtte målinger og resultatene ble (i kg/mm 2 ) som i tabellen til høyre.

OM TAYLOR POLYNOMER. f x K f a x K a. f ' a = lim x/ a. f ' a z

MOT310 Statistiske metoder 1, høsten 2011

2T kapittel 3 Modellering og bevis Utvalgte løsninger oppgavesamlingen

TMA4240 Statistikk Høst 2016

Løsning eksamen R1 våren 2010

n 2 +1) hvis n er et partall.

EKSAMEN. Oppgavesettet består av 5 oppgaver, hvor vekten til hver oppgave er angitt i prosent i oppgaveteksten. Alle oppgavene skal besvares.

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Sannsynlighetsregning med statistikk. Kp. 5 Estimering.

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 4. Hypotesetesting, del 4

Ukeoppgaver i BtG207 Statistikk, uke 4 : Binomisk fordeling. 1

ÅMA110 Sannsynlighetsregning med statistikk, våren 2007 Kp. 6, del 5. Hypotesetesting, del 5

UNIVERSITETET I OSLO

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

X = 1 5. X i, i=1. som vil være normalfordelt med forventningsverdi E( X) = µ og varians Var( X) = σ 2 /5. En rimelig estimator for variansen er

Løsningsforslag ST2301 øving 3

ÅMA110 Sannsynlighetsregning med statistikk, våren 2006 Kp. 6, del 5

Forventningsverdi. MAT0100V Sannsynlighetsregning og kombinatorikk

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Metoder for politiske meningsmålinger

ÅMA110 Sannsynlighetsregning med statistikk, våren Kontinuerlige tilfeldige variable, intro. Kontinuerlige tilfeldige variable, intro.

Forelesning 4 og 5 Transformasjon, Weibull-, lognormal, beta-, kji-kvadrat -, t-, F- fordeling

H 1 : µ 1 µ 2 > 0. t = ( x 1 x 2 ) (µ 1 µ 2 ) s p. s 2 p = s2 1 (n 1 1) + s 2 2 (n 2 1) n 1 + n 2 2

ÅMA110 Sannsynlighetsregning med statistikk, våren Estimering. Målemodellen. Konfidensintervall, innledning. Kp. 5 Estimering.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Oppgave 1. (i) Hva er sannsynligheten for at det øverste kortet i bunken er et JA-kort?

Kap. 9: Inferens om én populasjon

Kapittel 7: Noen viktige sannsynlighetsfordelinger

Løsningsforslag til prøveeksamen i MAT1110, våren 2012

Totalt Antall kandidater oppmeldt 1513 Antall møtt til eksamen 1421 Antall bestått 1128 Antall stryk 247 Antall avbrutt 46 % stryk og avbrutt 21%

Løsningsforsalg til første sett med obligatoriske oppgaver i STK1110 høsten 2018

Påliteligheten til en stikkprøve

HØGSKOLEN I SØR-TRØNDELAG Avdeling for teknologi

TMA4240 Statistikk Høst 2009

OPPGAVE 4 LØSNINGSFORSLAG OPPGAVE 5 LØSNINGSFORSLAG UTVIKLING AV REKURSIV FORMEL FOR FIGURTALL SOM GIR ANDREGRADSFUNKSJONER

Kort repetisjon fra kapittel 4. Oppsummering kapittel ST0202 Statistikk for samfunnsvitere. Betinget sannsynlighet og trediagram

Høgskolen i Telemark Avdeling for estetiske fag, folkekultur og lærerutdanning BOKMÅL 12. desember 2008

TMA4240 Statistikk Høst 2015

Kap. 9: Inferens om én populasjon. Egenskaper ved t-fordelingen. ST0202 Statistikk for samfunnsvitere. I Kapittel 8 brukte vi observatoren

Introduksjon. Hypotesetesting / inferens (kap 3) Populasjon og utvalg. Populasjon og utvalg. Populasjonsvarians

AVDELING FOR INGENIØRUTDANNING EKSAMENSOPPGAVE

UNIVERSITETET I OSLO

x n = 1 + x + x 2 + x 3 + x x n + = 1 1 x

TMA4245 Statistikk Eksamen august 2015

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008 Kp. 6, del 5

Econ 2130 Forelesning uke 11 (HG)

TMA4245 Statistikk Eksamen 9. desember 2013

Løsningsforslag Oppgave 1

) = P(Z > 0.555) = > ) = P(Z > 2.22) = 0.013

Eksamen REA3028 S2, Våren 2012

Oversikt over konfidensintervall i Econ 2130

LØSNING, EKSAMEN I STATISTIKK, TMA4240, DESEMBER Anta at sann porøsitet er r. Måling med utstyret gir da X n(x; r, 0,03).

Transkript:

Er este datapar ved kalibrerig e ekstremverdi som skal forkastes? v/rue Øverlad, Traior Elsikkerhet AS 1. Iledig Dee artikkele utleder formel for usikkerhetsitervallet PI (Predictio Iterval) som omslutter e «Best Fit»-lije. PI = Estimert Y ± [ usikkerhetsitervall ] [1] Vi bruker dette verktøyet til å etablere et usikkerhetsitervall (for eksempel ved 9 %). Formålet er å vurdere om det este datapuktet vi iheter ved kalibrerig ligger iefor eller utefor dette usikkerhetsitervallet. Ligger datapuktet utefor usikkerhetsitervallet, kaller vi datapuktet for e ekstremverdi eller «uteligger», og skal forkastes. Usikkerhetsitervallet etableres slik at det er 9 proset sasylig at det este dataparet ligger iefor usikkerhetsitervallet. Vi skal vise at de komplette formele vil se slik ut: PI = [bx + a ] ± [ T (α/,v) (y i y i ) ( ) 1 + 1 + (x X ) (x i X ) ] [] Uttrykket for PI er temmelig likt uttrykket for CI som jeg utledet i forrige artikkel. Forskjelle er at det har blitt lagt til 1 uder kvadratrotteget. Hvor: x Vi øsker å bestemme usikkerhetsgreser for dee x-verdi. Dette ka for eksempel være kalibrerigstrykket eller kalibrerigstemperature. x er de uavhegige variabele. b b forteller om stigigstallet til de rette regresjoslije (y =bx+a). a a forteller om skjærigspuktet til de rette regresjoslije i Y-akse (år x = 0) T α/,v Studet t-verdie avheger atall datapar som igår i regresjosaalyse og det usikkerhetsitervallet (for eksempel 9%) vi er på jakt etter. α α forteller om usikkerhetsitervallet: 100(1- α) proset. Normalt er α = 0,0 det vil si at kofidesitervallet er 9 proset. / I Studet t-fuksjoe skal vi ha -sidig usikkerhetsgrese; det vil si, % i hver ede. v Dette er «Degrees of Freedom». I vårt tilfelle har vi to variabler (x og y) og derav er v = - er atall datapar som igår i regresjosaalyse. Summasjosteg. Vi repeterer summasjoe atall gager. y i y i X x i Tabell 1: Symboldefiisjoer Side 1 Dette er de avleste respose (y-verdie) i dataparet. Dette ka for eksempel være sesorspeig eller istrumetsigal. y er de avhegige variabele (avheger av x-variabele). Dette er de beregede, forvetede resposverdie basert på regresjoslikige og x-verdie vi har valgt (y =bx+a). Dette er aritmetisk setralverdi (gjeomsittsverdi) av alle x-verdier ifra dataparee våre. Dette er e idividuell x-verdi i dataparet.

Y (avlest verdi [Volt]) «Best Fit»-lije y =bx+a er basert på et sett med datapar. Lije har et rotasjospukt i (X, Y ). Lije har koeffisietee b (stigigstall) og a (a er y-verdi år x = 0). Koeffisiete a har e slik verdi at regresjoslije går gjeom regresjoslijes rotasjospuktet (X, Y ). 7 x og estimert Y ("Best Fit"-lije) 6 Best Fit-lije: Y = 0,187x + 1,11 4 3 Best Fit-lije PI edre PI Øvre Måleserie (X, Y ) 1 0 0,0,0 10,0 1,0 0,0,0 X (Påtrykt [Barg]) Figur 1: Grafisk presetasjo av usikkerhetsitervallee (øvre og edre PI) fra Microsoft Excel. «Best Fit»-lije har et rotasjospukt i (X, Y ). I vårt eksempel er e trykksesor kalibrert i fem pukter i området 0 til 0 Barg. Sesore er kalibrert for x 1 = 0 Barg, x = Barg, x 3 = 10 Barg, x 4 = 1 Barg, og x = 0 Barg. x kalles for de uavhegige variabele. For hvert kalibrerigspukt har vi gjort e avlesig (y) av sesorspeige. y kalles de avhegige variabele. Observasjoee fra kalibrerige er lagt i i tabell, og grafisk presetert i figur 1. X Y Datapar (Barg) (Volt) 0,0 1,0 (x 1,y 1),0, (x,y ) 10,0 3,1 (x 3,y 3) 1,0 3,7 (x 4,y 4) 0,0,0 (x,y ) Tabell : Resposverdier (Y) fra verdier (x). Side

. Populasjo av datasett (Sub-populasjoer) For trykksesore har vi etablert e database for tidligere kalibreriger. Det er etablert subpopulasjoer Y a, Y b, Y c, Y d, og Y e med datasett. Y a (0 Barg, Y 1) Dette er datasett hvor det er påtrykt 0 Barg, med avleste sesorverdier Y 1. Y b ( Barg, Y ) Dette er datasett hvor det er påtrykt Barg, med avleste sesorverdier Y. Y c (10 Barg, Y 3) Dette er datasett hvor det er påtrykt 10 Barg, med avleste sesorverdier Y 3. Y d (1 Barg, Y 4) Dette er datasett hvor det er påtrykt 1 Barg, med avleste sesorverdier Y 4. Y e (0 Barg, Y ) Dette er datasett hvor det er påtrykt 0 Barg, med avleste sesorverdier Y. Figur : Vi teker oss e populasjo (rødt område som vi for eksempel ka avgi Y). I dette eksemplet har vi fordelt dataparees y-verdier (elemetee) i i sub-populasjoer/utvalg (orasje områder. Sub-populasjoee kaller vi Y a, Y b, Y c, Y d, og Y e. For hver sub-populasjo ka vi berege de aritmetiske setralverdie for respose. For eksempel for subpopulasjo Y a. U = y a(1)+ y a() +... + y a(n) a N = N y a(i) N Vi summerer alle resposverdier (y a(i) ) i e sub-populasjo og dividerer med atall elemeter (N) i sub-populasjoe for å bestemme de aritmetiske setralverdie i sub-populasjoe (U ). a [3] De aritmetiske setralverdie i sub-populasjoe (U ) a er vurdert til å være de ekeltverdi som best represeterer e gruppe av verdier. Vi er i et dilemma. For e sub-populasjo skal vi ha uedelig mage (N ) med datapar. I praksis er dette umulig. Sub-populasjoe består kaskje av et par hudre eller tuse datapar. I praksis ka vi derfor ikke med 100 proset sikkerhet si at de kalkulerte setralverdie vi har fuet, er setralverdie for sub-populasjoe, me heller er setralverdie for utvalget. Estimert aritmetisk setralverdi for sub-populasjo Y a: E(U ) a = y 1+ y +...+ y = y i Uasett, vi plotter setralverdier for våre setralverdier (ete de er beregede (U ) a eller estimerte (E(U )) a i i et diagram (figur 3). Vi trekker e rett lije gjeom setralverdiee. I figur 3 ka vi teoretisk omtale dette som e Populasjoskarakteristikk. Me, i praksis burde vi sakke om e Utvalgskarakteristikk. [4] Side 3

3. «Kosmisk støy» Vår trykksesor har korrelasjo mellom trykk (kalt x-verdi) og sigalrespos (kalt y-verdi). Sekudært har istrumetet flere midre korrelasjoer som vi ikke har kotroll på. Dette ka være i hvilke grad sesorrespose er temperaturavhegig, i hvilke grad sesorrespose er avhegig av stabilitete på krafttilførsel, i hvilke grad istrumetet reagerer på elektromagetisk iterferes (EMC/EMI), i hvilke grad istrumetet reagerer på vibrasjoer og så videre. Så selv om vi holder kalibrerigstrykket stabilt, for eksempel 10,0 Barg, så vil vi likevel over tid observere e sigalrespos som varierer oe. I de videre diskusjo kaller jeg dee variasjoe for «kosmisk støy». s ε 0 «Kosmisk støy» s ε Figur 3: «Kosmisk støy» som gjør at istrumetrespose Y varierer til tross for at de påtrykte verdie (x) er kostat. Vi atar at dee variasjoe er ormaltfordelt (Gauss-kurve). De har variase Var( ). Vi ka beskrive et usikkerhetsitervall s ε for de «kosmiske» støye. Variasjoe er symmetrisk rudt de lokale 0-verdie. «Kosmisk støy» er ormalfordelt, med setralverdi = 0 ε = 0 [] Variase for de «kosmiske» støye er: Var ( ) = ( 1 ε ) + ( ε ) +...+ ( ε ) [6] Stadardavviket for de «kosmiske støye» er kvadratrote av variasuttrykket: s ε = Var ( ) = ( i ) ( ) [7] NB (se figur 4): Det er viktig å legge merke til at for e gitt x i-verdi, er variasjoe i respose y i (Var (y i)) lik variasjoe for de «kosmiske støye» Var ( ). Side 4

Y (avlest verdi [Volt]) x i og estimert y i ("Best Fit"-lije) 6 Best Fit-lije: y = 0,187x + 1,11 4 3 1 De «kosmiske» støye ( ) er uavhegig av x-verdie (se figur 3), og vil igå i resposkarakteristikke. Populasjoskarakteristikk Best Fit-lije Måleserie Setralverdi for subpopulasjo 0 0,0,0 10,0 1,0 0,0,0 X (Påtrykt [Barg]) Figur 4: Populasjoskarakteristikk (rød stiplet strek) og «Best Fit»-lije (basert på et tilfeldig uttrekk av datapar som i vist i tabell (sorte prikker) fra hver av de fem sub-populasjoee (med si lokale setralverdi; røde prikker). 4. Populasjoes hypotetiske likig Vi forutsetter i de videre diskusjo at populasjoe har e lieær karakteristikk som ka beskrives slik: U Y x =βx+α [8] Populasjoskarakteristikke er e rett lije med stigigstallet β, hvor lije skjærer y-akse i α. Dee har jeg teget i i figur 3 som e stiplet rød strek. Det bemerkes at dette er e hypotetisk tekt lije. Vi ka aldri vite med sikkerhet hvor dee ligger, me vi vet at dee lije fis. U Y x =βx+α + [9] -parametere er/har ikke é fast verdi. De varierer i størrelse for hver gag vi avleser et datapar [x i,(y i+ )]. Variasjoe i figur 3 og 4, her det orasje området, ka tilsvarede assosieres som variasjo i områdee Y a, Y b, Y c, Y d, og Y e i figur. Side

. Lieær regresjo I figur 3 er det teget i é lieær regresjoslije (grø heltrukke strek). Dee er bereget ut i fra et tilfeldig tallsett fra de fem sub-populasjoee. I dette tilfellet har vi fem følgede datapar (se tabell ). Dataparee er teget i som sorte prikker i figur 1 og 4. Me, hva hvis vi hadde trukket ut/avlest adre Y-verdier år vi gjorde kalibrerige av istrumetet? Jo, da ville vi selvfølgelig kalkulert e regresjoslije med adre koeffisieter b og a. Eksempel 1 Eksempel Eksempel 3 Eksempel 4 Eksempel x (Barg) y (volt) y (volt) y (volt) y (volt) y (volt) 0 1,0 1,1 1,1 1,3 0,8,,,3 1, 1, 10 3,1 3,1 3,1 3, 3, 1 3,7 3,7 3,9 4,3 4,3 0,0 4,9 4,9,0, y =bx+a b = 0,184 a = 1, b = 0,176 a = 1,30 b = 0,184 a = 1, b = 0,04 a = 1,0 b = 0,44 a = 0,6 Tabell 3: Eksempler på ulike resposer (y-verdier) på gru av «kosmisk støy». Dette gir oe forskjellige estimater på koeffisietee b og a. Alle eksemplee har det samme rotasjospuktet (X, Y ) X = 10,0 og Y = 3,06. I og med «kosmisk støy» ( ), må vi tilsvarede kostruere et usikkerhetsitervall (PI Predictio Iterval). Dette itervallet skal fortelle oss at vi med 9 proset sikkerhet forveter å det este datapuktet. Det este datapuktet har to usikkerheter kyttet til seg (se figur og figur 6) Forklarlig avvik basert på regresjosmodelle De første usikkerhete er hvor regresjoslije befier seg (figur ). De resposverdi (y-verdi) som best represeterer datasettet er setralverdie for datasettet (Y ). Basert på regresjosmodelle [bx + a ], for e gitt este x-verdi, forveter vi at de este resposverdie skal ha verdie (y i = Y + Y i ). Y i kalles ofte for det forklarlige avviket. Koeffisietee b og a har et usikkerhetsitervall kyttet til seg. I dee artikkele skal jeg å vise uttrykket for disse. Oppsummert: Vi skal bestemme et variasjosuttrykk Var(y ). i [10] Uforklarlig avvik basert på regresjosmodelle Kikk på figur 6. Kosmisk støy ka ikke forklares direkte av regresjosmodelle, og kalles derfor de uforklarlige bidraget. Oppsummert: Vi skal bestemme et variasjosuttrykk Var( ). [11] Side 6

Y (respos) x i og estimert y i ("Best Fit"-lije) 6 4 3 1 a y Y (X, Y ) b (x i, y ) i (X i = x i X ) (Y i = y i Y ) Best Fit-lije 0 X x i 0,0,0 10,0 1,0 0,0,0 x Figur : Grafisk fremstillig av rotasjospuktet (X, Y ), og koeffisietee b og a for de rette regresjoslije ŷ =bx+a. [1] Vi skal seere i dee artikkele vise at regresjoslije har et rotasjospukt i (X, Y ). Vi har tidligere sakt at de ekeltverdi for best represeterer e gruppe er de aritmetiske setralverdie. I vårt tilfelle ka vi aturlig forklare hvorfor resposverdie for (x i ) var y i og ikke Y. De ekle årsake er sesorkarakteristikke mellom de uavhegige variabele x og de avhegige variabele y. Vi sakker om det forklarlige residual. Avviket mellom y i og Y har e aturlig forklarig gruet istrumetkarakteristikke, og ka bereges. For e tilfeldig x-verdi (x i ) ka vi berege de forvetede resposverdie (y ). Et utgagpukt for å berege de forvetede y i er å bruke regresjoslikige. Ulempe er at eå ikke kjeer a- verdie. Me, dee gage tar vi utgagspukt i rotasjospuktet for lije. Vi har å alterativ måte å berege de forvetede resposverdie (for det orasje puktet): y i = Y + b(x i - X ) [13] Fordele med dee likige [11] i stedet for y =bx+a, er at å har vi «kvittet oss med» a- koeffisiete i likige. Vi har å ku é variabel utfordrig; b. Vi forutsetter at våre påtrykte trykkverdier (x-verdier) er øyaktige (x-verdie er ikke beheftet med varias). Side 7

Y (respos). Variasjo i avlest resposverdi (Y i ) og forvet resposverdi (y i) 6 x i og estimert y i ("Best Fit"-lije) y i 4 3 y Y R i = Residual = (y i y ) i (X, Y ) b (x i, y i ) (x i, y ) i Best Fit-lije 1 a 0 0,0,0 10,0 X x i 1,0 0,0,0 x Figur 6: For på påtrykte x-verdie (x i ) har vi her et avvik mellom de forvetede resposverdie (y i) og de faktiske avleste resposverdie (y i). Avviket mellom de observerte respose og regresjospuktet [y i y i] er e av de viktigste størrelsee i dee artikkele! Me, vår observasjo (y i ) lå ikke på de forvetede respose (y i). Dette skyldes «kosmisk støy». Ja, vi har e aturlig forklarig på avviket mellom (y i ) og (y i), me vi har ige muligheter for å berege dee på forhåd. Vi vet at de avleste verdie (y i ) har e fordelig som vist i figur 3. Vi bereger det uforklarlige Residual for våre fem datapar fra tabell (x 1, y 1 ), (x, y ), (x 3, y 3 ), (x 4, y 4 ), og (x, y ). Matematisk uttrykker vi variase for de uforklarlige Residual slik for våre datapar: S = (Residual i ) = (y i y i) [14] Vi erstatter y i med [Y + b(x i - X )], og får S = (y i [Y + b(x i X ]) [1] Vi rydder litt i likige, og får S = ([y i Y] + b[x i X ]) [16] Vi setter y i Y = Y i x i X = X i Y i er total residual for et pukt. Avvik mellom observasjo (y i ) og setralverdie (Y ). X i er edrige som gjøres fra påvirkigspuktet (x i ) og setralverdie (X ). [17] [18] Y i = Total Residual = Forklarlig Residual + Uforklarlig Residual = (y i Y ) + (y i y i) = y i Y [19] Side 8

Vi skal å beskrive variasutrykket slik: S = ([y i Y] b[x i X ]) S = (Y i bx i ) [0] [1] Vi øsker å bestemme e «Best Fit»-lije med de miste verdi på S, det vil si med mist variasjo. Dette fier vi å derivere fuksjoe S og sette det deriverte uttrykket lik 0. 6. Bestemme Var( ). Bestemme uttrykket Var( ) er gaske ekelt. Kikk på figur 3! Variasjo av det uforklarlige er variasjoe av kosmisk støy. Var( ) = (σ ) [] 7. Bestemme utrykk for Var(y i ). Vi har e flertrisvei på gå for å bestemme Var(y ). i Først må vi bestemme verdie på koeffisiete b som igår i regresjoslikige. Dette gjøres i pukt 7a. Deretter må vi bestemme et usikkerhetsitervall for dee koeffisiete. Dette gjøres i pukt 7b. Til slutt bestemmer vi Var(y ). i Dette gjøres i pukt 7c. a. Bestemme utrykk koeffisiete b For å lettere komme frem til det deriverte uttrykket av S, bruker vi kjereregele. ds = ds dk db dk db [3] Vi defierer kjereuttrykket: K = Y i bx i [4] Vi ka å skrive variasjosuttrykket [19] slik: S = (K) [] Kjereregele sier at vi skal derivere fuksjoe med hesy til kjere ( ds ), og multipliserer dette med de deriverte av kjere ( dk db ). Vi gjør altså derivasjoe av S i to etapper. Vi deriverer fuksjoe med hesy til kjere: dk ds = dk (K) 1 = (K) 1 = K Vi deriverer kjere med hesy til b: [6] Side 9

dk = d(y i bx i ) = 0-1X db db i b 1 1 = X i b 0 = X i 1 = X i [7] Når vi gjør partiell derivasjo med hesy til b, er X i og Y i å betrakte som kostater. Og, deres deriverte er derfor 0. Vi setter samme uttrykkee, slik at vi ka bestemme de deriverte av S med hesy på b, slik ds = ds dk = [ K db dk db ] [ X i ] = (Y i bx i ) [ X i ] = ( X i Y i + bx i ) Vi er iteressert å bestemme de b-verdi som gjør det deriverte uttrykket lik 0. ds db = 0 ( X i Y i + bx i ) = 0 Vi dividerer vestre og høyre side med. ( X i Y i +bx i ) = 0 ( X i Y i + bx i ) = 0 [8] [9] [30] [31] [3] Vi løser opp paretese, og får: ( X i Y i ) + b (X i ) = 0 Vi rydder litt til, og løser dette med hesy til b, og får b (X i ) = (X i Y i ) Vi dividerer med (X i ) på vestre og høyre side, og får: b= (X iy i ) (X i ) = Kovarias (X,Y) Varias(X) [33] [34] [3] Stigigstallet b for de lieære regresjoslije forholdet mellom fuksjoe Kovarias for dataparee og variase av de påtrykte verdie. Figur 7: Skjermdump fra Microsoft Excel Side 10

I Microsoft Excel ka vi bruke fuksjoe =KOVARIANS.S(A6:B10) for våre datapar (celle A11). Og, tilsvarede =VARIANS.S(A6:A10) for å bestemme variase (celle B11). b. Bestemme usikkerhetsitervall (stadard avvik) for uttrykket b Side b= (X iy i ) (X i ) ka vi kalkulere variase av b slik: Var (b) = Var ( (X iy i ) ) (X i ) Side vi atar at alle x-verdier ikke er beheftet med variasjoer, ka vi derfor uttrykke disse som kostater. Vi ka derfor omskrive utrykket over til å bli slik: Var (b) = Var ( (X iy i ) )= 1 (X i ) ( (X i )) (X i Y i ) Og husk at fuksjoe Var er å ta kvadratet av uttrykket, så år vi trekker ut kostater ( (X i ) fra uttrykket, skal uttrykket ( X i ) kvadreres! Videre, vi har at uttrykket Var ( (X i Y i )) ka skrives slik: Var ( (X i Y i )) = Var (X 1 Y 1 + X Y +....+ X Y ) Igje betrakter vi x-verdier som kostater og ka trekkes ut av paretese. Og husk at fuksjoe Var er å ta kvadratet av uttrykket, så år vi trekker ut kostater ut av uttrykket, skal disse kvadreres! Var ( (X i Y i )) = Var (X 1 Y 1 + X Y +....+ X Y ) = X 1 Var(Y 1 ) + X Var(Y ) +... +X Var(Y ) [36] [37] [38] [39] Fra figur 4, som tok for seg «Kosmisk støy», sa vi at variasjosområdet for gjelder for alle x-verdier. I dette tilfellet ka vi derfor sette: Var(Y 1 ) = Var(Y ) =... = Var(Y ) = Variasjo av «kosmisk støy» = (σ ) = (σ Residual ) [40] Vi har med adre ord é felles varias for residual y, og vi erstatter det oveevte uttrykket med (σ ) = (σ Residual ). Var ( (X i Y i )) = X 1 Var(Y 1 ) + X Var(Y ) +... +X Var(Y ) = (X 1 + X...+ X ) (σ ) Var ( (X i Y i )) = ( X i ) (σ ) Vi går tilbake til utrykket for Var(b), og får Var (b) = Var ( (X iy i ) X i ) = Var (b) = ( X i ) (σ ( X i ) ) = 1 ( (X i )) (σ ) X i Var ( (X i Y i ) ) = 1 ( (X i )) ( X i ) (σ ) Fra tidligere hadde vi X i = [x i X ]. Alterativ måte i beskrive variase til b på er slik: [41] [4] [43] [44] [4] Side 11

Var (b) = (σ ) X i = (σ ) (x i X ) Estimatet for stadardavviket for stigigskoeffisiete b (s b ) i e lieær regresjo er kvadratrote av variasuttrykket: s b = Var(b) = (σ ) (x i X ) = (σ ) (x i X ) = s (x i X ) = Stadardusikkerhet for Residual (x i X ) [46] Vi treger med adre ord å berege stadard usikkerhet for residual, og dividere med kvadratrote av summe av de kvadrerte x-differase. c. Bestemme Var(y i ). Usikkerhetsitervallet for estimert gjeomsitt ka å bereges. Usikkerhete ka bereges med Var(y ). Vi vet at estimert y ved x-verdie ka uttrykkes slik: y = Y + b(x - X ) [47] Vi brukes samme varias-teorem som tidligere. Var (y ) = Var (Y + b(x - X )) [48] Vi betrakter (x - X ) som e kostat. Vi løser opp Var-paretese Var (y ) = Var (Y ) + [(x X ) Var(b)] [49] Det første deluttrykket i Var (y ) er Var (Y ). Vi har at setralverdie av y er summe av alle y i delt på atall y-verdier. Y = Vi har å yi Var (Y ) = Var ( Fra før har vi at: Var (b) = y i (σ ) (x i X ) ) = 1 Var ( y i) = 1 ( (σ ) ) = (σ ) [0] [1] [] Nå har vi: Var (y ) = Var (Y ) + [(x X ) Var(b)] = (σ ) + [(x X ) (σ ) (x i X ) ] [3] Vi rydder i ligige: Var (y ) = (σ ) ( 1 + (x X ) (x i X ) ) [4] Side 1

8. PI (Predictio Iterval) a. Stadard usikkert Variasjositervallet for de este y, Var(y p), er: Total forvetet variasjo = Forvetet uforklarlig variasjo + forvetet forklarlig variasjo Var(y p) = Var( ) + Var(y ) i Var(y p) = (σ ) + (σ ) ( 1 + (x X ) Var(y p) = (σ ) (1 + 1 + (x X ) (x i X ) (x i X ) ) ) [] [6] [7] Stadard usikkerhet for Var(y p) er: S e = Var(y p ) = (σ ) (1 + 1 + (x X ) (x i X ) ) = σ 1 + 1 + (x X ) (x i X ) ) [8] b. Utvidet stadard usikkerhet Ved forsøk som ikluderer 30 eller færre datapar, bør vi bruke Studet t-faktor for å ta hesyet til små sub-populasjoer. I vårt tilfelle har vi fem sub-populasjoer. T-verdie ka vi fie i tabeller, eller la Excel berege dee for oss. T (α/,v) [9] Kofidesitervallet er 100(1- α). α har verdie (0,0) = proset, i og med vi er på jakt etter usikkerhetsitervallet 9 %. Usikkerhete % skal fordeles på to sider (/ «tail»). Parametere v er «Degrees of Freedom). v = [60] Vi har = datapar, og subtraherer med verdie i og med vi har variabler (x- og y-parametere). Excel-fuksjo: =T.INV.T(0,0;3) [61] c. Øvre og edre greseverdi for «Predictio»-itervall Setter vi det hele samme PI = [«Best Fit»-lije] ± [ usikkerhetsitervall ] PI = [bx + a ] ± [ T (α/,v) (y i y i ) ( ) 1 + 1 + (x X ) (x i x ) ] [6] [63] Side 13

I Microsoft Excel ka det se slik ut for å berege PI edre og PI øvre. Figur 8: Skjermdump fra Microsoft Excel Vi ka la Excel tege opp verdiee for oss (figur 8). Side 14

Y (avlest verdi [Volt]) x og estimert Y ("Best Fit"-lije) 7 6 Best Fit-lije: Y = 0,187x + 1,11 4 3 1 Best Fit-lije PI edre PI Øvre Måleserie (X, Y ) 0 0,0,0 10,0 1,0 0,0,0 X (Påtrykt [Barg]) Figur 8: Grafisk presetasjo fra Microsoft Excel på datapar, «Best Fit» -lije med usikkerhetsitervall for det este dataparet. Neste datapukt skal med 9 proset sasylighet ligge iefor det evte «Predictio» itervallet. Det er proset sjase for at det este datapuktet vil ligge utefor «Predictio» itervallet. Da det er lite sasylighet for at det este datapuktet skal ligge utefor «Predictio» itervallet, og vi bør være varsom med å godkjee/ta i bruk et slikt datapukt. Iallfall må vi øye udersøke hvorfor vårt este datapar havet på utside av «Predictio» itervallet. Det ka være at dataparet har e eller flere av feil kyttet til seg, oe som gjør dataparet til e ekstremverdi/»uteligger». Med velig hilse Traior Elsikkerhet AS Rue Øverlad Seiorigeiør Tøsberg april 01 Side 1