Kalibreringskurver; på jakt etter statistisk signifikante datapar



Like dokumenter
Statistisk behandling av kalibreringsresultatene Del 3. v/ Rune Øverland, Trainor Elsikkerhet AS

Statistisk behandling av kalibreringsresultatene Del 2. v/ Rune Øverland, Trainor Elsikkerhet AS

Sentralverdi av dataverdi i et utvalg Vi tenker oss et utvalg med datapar. I vårt eksempel har vi 5 datapar.

Statistisk behandling av kalibreringsresultatene Del 1. v/ Rune Øverland, Trainor Elsikkerhet AS

Uncertainty of the Uncertainty? Del 3 av 6

Gasskromatografi og repeterbarhetskrav

Repeterbarhetskrav vs antall Trails V/ Rune Øverland, Trainor Automation AS

2.1 Regnerekkefølge. 3.4 Rette linjer med digitale verktøy 2(3 + 1) (6+ 2):4+ 42

10.1 Enkel lineær regresjon Multippel regresjon

Befolkning og velferd ECON 1730, H2016. Regresjonsanalyse

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Regresjon med GeoGebra

Kort overblikk over kurset sålangt

Repeterbarhetskrav vs antall Trails

Sigbjørn Hals, Cappelen Damm Undervisning. Sinus 1P. Digitale løsninger av oppgaver og eksempler med noen utvalgte matematikkverktøy

MOT310 Statistiske metoder 1, høsten 2006 Løsninger til regneøving nr. 8 (s. 1) Oppgaver fra boka:

Øgrim Bakken Pettersen Skrindo Thorstensen Thorstensen. Digitalt verktøy for Sigma 1P. Microsoft Excel

ST0202 Statistikk for samfunnsvitere

EKSAMEN. EMNEANSVARLIG: Terje Bokalrud og Hans Petter Hornæs. TILLATTE HJELPEMIDLER: Kalkulator og alle trykte og skrevne hjelpemidler.

2.1 Regnerekkefølge. 2.4 Brøkregning. 3.6 Rette linjer 2(3 + 1) (6+ 2):4+ 42

Bruk av Google Regneark

Repeterbarhetskrav vs antall Trails

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

ST0202 Statistikk for samfunnsvitere Kapittel 13: Lineær regresjon og korrelasjon

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

1 10-2: Korrelasjon : Regresjon

Kp. 11 Enkel lineær regresjon (og korrelasjon) Kp. 11 Regresjonsanalyse; oversikt

Lær å bruke GeoGebra 4.0

Casio. Et oppdatert Casio Manual som tar av seg litt av faget MA-155. En basis guide for bruk av Casio. Denne manualen er skrevet av «EFN»

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Bruk SUMMER-funksjonen i formelen i G9. Oppgave 14. H. Aschehoug & Co Side 1

OPPGAVESETTET BESTÅR AV 3 OPPGAVER PÅ 6 SIDER MERKNADER: Alle deloppgaver vektlegges likt.

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

Høgskolen i Gjøviks notatserie, 2001 nr 5

Skoleeksamen i SOS Kvantitativ metode

GeoGebra 4.2 for Sinus 1P. av Sigbjørn Hals

Løsningsforslag ECON 2130 Obligatorisk semesteroppgave 2017 vår

Hypotesetesting. Hvorfor og hvordan? Gardermoen 21. april 2016 Ørnulf Borgan. H. Aschehoug & Co Sehesteds gate 3, 0102 Oslo Tlf:

Løsningsforslag AA6516 Matematikk 2MX Privatister 10. desember eksamensoppgaver.org

Oppgave 1. T = 9 Hypotesetest for å teste om kolesterolnivået har endret seg etter dietten: T observert =

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Microsoft Excel

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Ordinær lineær regresjon (OLR) Deming, uvektet og vektet

Etter å ha gjennomgått dette «kurset», bør du ha fått et innblikk i hva et regneark er, og

GeoGebra i 1T. Grafer. Å tegne grafen til en funksjon. GeoGebra tegner grafen til f(x) = 0,5x 2 for 0 x 10.

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

1 Section 7-2: Estimere populasjonsandelen. 2 Section 7-4: Estimere µ når σ er ukjent

MOT 310 Statistiske metoder 1 Løsningsforslag til eksamen høst 2006, s. 1. Oppgave 1

Sensorveiledning: skoleeksamen i SOS Kvantitativ metode

FORELESING KVELD 9. IT For medisinsk sekretær Fredrikstad

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Manual til Excel. For ungdomstrinnet ELEKTRONISK UNDERVISNINGSFORLAG AS

2.2 Korrelasjon. Våre øyne ikke gode til å bedømme hvor sterk en sammenheng er Trenger kvantitativt mål på sammenheng Korrelasjon et slikt mål

UNIVERSITETET I OSLO

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

HØGSKOLEN I STAVANGER

Statistikk og dataanalyse

Regelverkskrav til gasskromatograf (komposisjonsanalyse) v/ Rune Øverland, Trainor Elsikkerhet AS

+ S2 Y ) 2. = (avrundet nedover til nærmeste heltall) n Y 1

TMA4245 Statistikk Eksamen desember 2016

Løsningsforslag ST2301 Øving 10

Kapittel 2. Utforske og beskrive data. Sammenhenger mellom variable Kap. 2.1 om assosiasjon og kryssplott forrige uke. Kap. 2.2, 2.3, 2.

Radene har løpenummer nedover og kolonner navnes alfabetisk. Dermed får hver celle (rute) et eget "navn", eksempelvis A1, B7, D3 osv.

Excel Dan S. Lagergren

wxmaxima Brukermanual for Matematikk 1T Bjørn Ove Thue

Kurs. Kapittel 2. Bokmål

Supplement til power-point presentasjonen i medisinsk statistikk, forelesning 7 januar Skrevet av Stian Lydersen 16 januar 2013

Deskriptiv statistikk., Introduksjon til dataanalyse

Eksamensoppgave i SØK Statistikk for økonomer

Deskriptiv statistikk., Introduksjon til dataanalyse

Oppgave 1. Det oppgis at dersom y ij er observasjon nummer j fra laboratorium i så er SSA = (y ij ȳ i ) 2 =

Kapittel 3: Studieopplegg

Sigbjørn Hals, Cappelen Damm Undervisning. Sinus 2P. Digitale løsninger av oppgaver og eksempler med noen utvalgte matematikkverktøy

Formelsamling i medisinsk statistikk

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO

Forelesning 13 Regresjonsanalyse

Sandvold Øgrim Bakken Pettersen Skrindo Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Geogebra

GeoGebra. brukt på eksamensoppgaver i 10. kl. Sigbjørn Hals

Lær å bruke Microsoft Mathematics, Matematikk-tillegget i Word og WordMat. Av Sigbjørn Hals

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial )

ST0202 Statistikk for samfunnsvitere

«Best Fit»-linje med usikkerhetsintervall (CI)

Øgrim Bakken Pettersen Skrindo Thorstensen Thorstensen. Digitalt verktøy for Sigma 1P. Casio fx 9860

Er det enklere å anslå timelønna hvis vi vet utdanningslengden? Forelesning 14 Regresjonsanalyse

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

Tid: 29. mai (3.5 timer) Ved alle hypotesetester skal både nullhypotese og alternativ hypotese skrives ned.

Øgrim Bakken Pettersen Skrindo Thorstensen Thorstensen. Digitalt verktøy for Sigma 1T. Casio fx 9860

Kandidatene 4507, 4542, 4545 og 4569 har meget gode besvarelser supert!

SPIQ. Bruk av enkle statistiske metoder i prosessforbedring. Software Process Improvement for better Quality

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Det matematisk-naturvitenskapelige fakultet

Oppgave 1. Vi må forutsette at dataene kommer fra uavhengige og normalfordelte tilfeldige variable,

Eksamen i : STA-1002 Statistikk og. Eksamensdato : 26. september Sted : Administrasjonsbygget. Tillatte hjelpemidler : - Godkjent kalkulator

UNIVERSITETET I OSLO

SIGBJØRN HALS TORE OLDERVOLL. GeoGebra 6 for Sinus 2P

Øgrim Bakken Pettersen Skrindo Dypbukt Mustaparta Thorstensen Thorstensen. Digitalt verktøy for Sigma 2P. Casio fx-9860

Eksamen 1T høsten 2015

Transkript:

Kalibreringskurver; på jakt etter statistisk signifikante datapar v/rune Øverland, Trainor Elsikkerhet A/S Den siste artikkelen om kalibrering og statistikk tar for seg praktisk bruk av Microsoft Excel for å: Legge inn rå-verdier fra kalibreringen Estimere en»best Fit»-linje basert på rå-verdiene ved hjelp av lineær regresjon Estimere et usikkerhetsintervall for kalibreringslinjen (Best Fit-linjen»), også omtalt som «Confidence Interval» - CI Estimere et usikkerhetsintervall for kalibreringspunktene (dataparene), også omtalt som «Prediction Interval» - PI Denne artikkel må sees i sammenheng med Microsoft Excel boka som jeg har laget: Kalibreringskurve og usikkerhetsintervall CI og PI.xlsx Jeg kommer ikke til å vurdere kalibreringsresultatet opp mot Oljedirektoratets usikkerhetsgrenser (Måleforskriftens 8). Det får jeg heller gjøre ved en senere anledning. 1. Legge inn kalibreringsverdier Jeg tenker meg kalibrering av en trykksensor. Den skal kalibreres i området 0 til 20 barg. Og, sensoren gir ut et spenningssignal. Trykket kaller jeg for x-verdi, og den avleste sensorspenningen for Y. Dataparene fra kalibreringen har jeg lagt inn i radene 6 til og med 14 i kolonnene A og B i regnearket (Figur 1). «Best Fit»-linje 2. Estimere = bx + a Neste oppgave er å estimere koeffisientene a og b som inngår i en rett linje: = bx + a Figur 1: Datapar fra kalibrering av trykksensor Linjen skal være av typen «Best Fit». Dette er en linje som best passer til dataparene. Jeg bruker Excel-funksjonen RETTLINJE. Funksjonen vil returnere verdiene på koeffisientene a og b. Side 1

Y (avlest verdi [Volt]) x og estimert ("Best Fit"-linje) 6 5 Best Fit-linje: = 0,1827x + 1,2511 4 3 2 Best Fit-linje Måleserie 1 0 0,0 5,0 10,0 15,0 20,0 25,0 X (Påtrykt [Barg]) Figur 2: Grafisk presentasjon av Excel-resultatene. Her presenteres dataparene (x,y) som sorte prikker, og den estimerte rette linjen fra regrasjonsanalysen ( = 0,1827x + 1,2511). De sorte prikkene er dataparene (fra området A6:B14). Den grønne linjen er «Best-Fit»-linjen. Dette er det beste estimatet for en rett linje som passer til dataparene. Excel har beregnet at «Best Fit»-linjen har koeffisientene b= 0,1827 og a = 1,2511. Den elektriske sensorspenningen endres med 0,1827 volt per bar jeg endrer trykket. Naturlig nok er kvalitetsparameteren R 2 = 1 for «Best Fit»-linjen. Hvordan Excel kom frem til verdiene på koeffisientene a og b vises i punktene nedenfor. 3. Usikkerhetsintervall for koeffisienten b Verdien på b, som jeg estimerer basert på dataparene, er omgitt av et usikkerhetsintervall. Forenklet kan jeg si at b uttrykker gjennomsnitt av stigningstallet på. Men, ut i fra tankegangen om at dataparene er hentet fra en populasjon, må jeg ta hensyn til at en x-verdi og y-verdi er beheftet med naturlige variasjoner. Dette gjør at stigningskoeffisienten b kan innta både lavere og høyere verdi enn b. Jeg skal bestemme et intervall hvor det er 100*(1-α) % = 95 % sannsynlig å finne b-verdien. Side 2

4. Lineær regresjon I celle B16 bruker jeg Excel-funksjonen RETTLINJE for å bestemme verdier for «Best Fit»-linjen. =RETTLINJE(B6:B14;A6:A14;SANN;SANN) Området B6:B14 peker på y-verdiene, og området A6:A14 peker på x-verdiene. Den første SANN tilhører konfigurasjonen konst. SANN innebærer at jeg ønsker at funksjonen RETTLINJE skal beregnes på normal måte. Hadde jeg valgt USANN, hadde jeg tvunget «Best Fit»- linjen til å gå gjennom dataparet (0:0). Den andre SANN tilfører konfigurasjonen statistikk. Jeg ønsker at Excel skal beregne tilleggsverdier. Resultatet fra Excel vises i celle B16. Imidlertid, verdiene for tilleggsverdier vises ikke. For å få frem disse, gjøres følgende: Her; avmerk området B16:C20. Klikk på funksjonsknappen F2 på tastaturet. Trykk deretter ned disse tre knappene samtidig: CTRL + SHIFT + ENTER. Slik ser det ut etter at det ovennevnte er gjort: Figur 3: Resultater for beregning og presentasjon av tilleggsverdier fra celle B16. Excel viser alle tilleggsverdier fra regresjonsberegningen av RETTLINJE. Utenfor cellene B16:B20 og C16:C20 har jeg skrevet en liten forklaringer på tilleggsinformasjon. Ellers henviser jeg til Excel for nærmere forklaring. Side 3

5. Estimert verdi av («Best Fit») I området C6:C14 har jeg beregnet estimatet av = bx+a for ulike verdier på x. For celle C4 har jeg: =$B$16*A6+$C$16 Tips: Jeg skiller mellom relative cellereferanser (her A6) og absolutte cellereferanser ved bruk av $- tegn (her $B$16 og $C$16). Ønsker jeg en absolutt referanse, sett skrivemerket på verdien (B16) og trykk på funksjonsknappen F4 for å få satt inn $-tegn for kolonne og rad. Deretter er det bare å velge celle C6 og trekke denne nedover for å kopiere innholdet. 6. Tilleggsparametre Jeg trenger å bestemme verdier på tre tilleggsparametre; Gjennomsnittsverdi av x. Denne har jeg lagt inn i celle B22 ved bruk av funksjonen =GJENNOMSNITT(A6:A14) Student T-verdi for 95 % (1-α) usikkerhetsintervall og v = frihetsgrader (her v=7). Alfa (α) er 0,05; det vil si 5 %. T-verdien har jeg lagt inn i celle B23 med funksjonen =TINV(0,05;C19). Summen av kvadrert avvik, her SSxx. Denne har jeg lagt inn i celle B24 med funksjonen =AVVIK.KVADRERT(A6:A14) Excel-funksjonen TINV er ulik fra funksjonen T.INV. Funksjonen TINV brukes for 2-sidige usikkerheter, mens T.INV brukes for 1-sidig. 7. Diagnostikk CI (Confidence Interval) Beregning av usikkerhetsintervall for den rette linjen = bx + a I område D6:D14 har jeg beregnet minimumsverdi på estimert -verdi (95 % usikkerhet), og i område E6:E14 har jeg beregnet maksimumsverdi på estimert. Figur 4: Resultater for beregning av nedre og øvre grenseverdier for den estimerte «Best Fit»-linjen. «Best Fit»-linjen ( =bx+a) har et rotasjonspunkt i som et lilla punkt.. Dette finner du igjen i figuren nedenfor Side 4

Y (avlest verdi [Volt]) Usikkerhetsintervallet CI for koeffisienten b beskrives med følgende likning: = ± T (α,v) * SE y * For celle D6 ser det slik ut: =C6-(tVerdi*SEy*ROT(1/(df+2)+(A6-xm)^2/SSxx)) N kjenner jeg som antall frihetsgrader v (df «Degrees of Freedom») + antall variabler (her x og y); det vil si N = 7 + 2. Estimert og dennes Confidence Interval (CI) 6 5 Best Fit-linje: = 0,1827x + 1,2511 R² = 1 4 3 2 Best Fit-linje CI nedre CI Øvre Måleserie 1 0 0,0 5,0 10,0 15,0 20,0 25,0 X (Påtrykt [Barg]) Figur 5: Grafisk presentasjon av usikkerhetsintervallet CI fra Excel, med påtegnet normalfordelingskurver for x-verdiene 0, 10 og 20 barg. Den grønne «Best Fit»-linjen har en stigningskoeffisient b (celle B16 = 0,1827) med middelverdi som går gjennom punktet. Den stiplede sorte linjen har en lavere stigningsverdi (celle B16 - B17 = 0,1827-0,0141 = 0,1686), mens den stiplede oransje linjen har en høyere stigningsverdi (celle B16 + B17 = 0,1827 + 0,0141 = 0,1968). Våre beregnede CI-verdier sier at «Best Fit»-linjen med 95 % sikkerhet vil ligge innenfor intervallet beskrevet av CI øvre og CI nedre. Side 5

8. Diagnostikk PI (Prediction Interval): Beregning av usikkerhetsintervall for dataparene. Ekstremverdi («uteligger») eller ikke? I område F6:F14 har jeg beregnet minimumsverdi på dataparene (95 % usikkerhet), og i område G6:G14 har jeg beregnet maksimumsverdi på dataparene. Figur 6: Resultater for beregning av nedre og øvre grenseverdier for dataparene. Et resultat av en statistisk analyse betegnes som statistisk signifikant dersom det er lite sannsynlig at resultatet har oppstått tilfeldig. Jeg ønsker å bestemme er intervall for dataparene uttrykt med 100*(1-α) % = 95 % usikkerhetsintervall. Sakt med andre ord, jeg ønsker å bestemme er intervall hvor det er 5 prosent sannsynlighet for at ett eller flere av dataparene våre kommer til ligge utenfor. Så, selv om et datapar ligger utenfor dette intervallet, er dataparet ikke nødvendigvis en ekstremverdi. Ekstremverdier skal ellers gjøres ugyldige som datapar. Usikkerhetsintervallet PI (Prediction Interval) beskrives med følgende likning: = ± T (α,v) * SE y * For celle F6 ser det slik ut: =C6-(tVerdi*SEy*ROT(1+1/(df+2)+(A6-xm)^2/SSxx)) I mitt eksempel ligger alle datapar (A6:B14) innenfor «Prediction Interval» slik avgrenset av linjene PI øvre og PI nedre. Sakt på en annen måte; jeg kan være rimelige sikker på at alle mine datapar ikke er ekstremverdier. Når de ikke er ekstremverdier, er avviket mellom verdi og estimert y begrunnet med en naturlig variasjon. Det at dataparene ligger innenfor PI forteller i liten grad noen om nøyaktigheten (avvik til sann verdi). Side 6

Y (avlest verdi [Volt]) Datapar (x,y) og deres Prediction Interval (PI) 6 5 Best Fit-linje: = 0,1827x + 1,2511 R² = 1 4 3 2 Best Fit-linje PI nedre PI Øvre Måleserie 1 0 0,0 5,0 10,0 15,0 20,0 25,0 X (Påtrykt [Barg]) Figur 7: Grafisk presentasjon fra Excel av datapar og deres usikkerhetsintervall (PI) 9. Oppsummering Jeg har i en artikkelserie sett på statistisk vurdering av kalibreringsdata (datapar). Regresjon er når en stokastisk variabel (respons) antas å avhenge av andre variabler. Et resultat av en statistisk analyse betegnes som statistisk signifikant dersom det er lite sannsynlig at resultatet har oppstått tilfeldig. Når jeg oppsummerer det hele, ser det slik ut: Side 7

Y (avlest verdi [Volt]) Kalibreringskurver 6 5 Best Fit-linje: = 0,1827x + 1,2511 R² = 1 4 Best Fit-linje 3 2 CI nedre CI Øvre PI nedre PI Øvre Måleserie 1 0 0,0 5,0 10,0 15,0 20,0 25,0 X (Påtrykt [Barg]) Figur 8: Grafisk presentasjon fra Excel av datapar (måleserie med x- og y-verdier) og deres usikkerhetsintervall (PI), «Best Fit»-linjen og dennes usikkerhetsintervall (CI). Jeg har benyttet Microsoft Excel for statistisk behandling av dataparene, og i tillegg kalkulert usikkerhetsintervall (CI) for «Best Fit»-linjen og usikkerhetsintervall for dataparene (PI). Ekstremverdier kan ha stor innflytelse på regresjonslinjer, men lar seg lett avdekke ved plotting av dataene. Dersom jeg bare har hadde sett på analyseresultatene og ikke plottet dataene, kunne jeg lett ha kommet til å dra feilaktige konklusjoner om sammenhengen mellom variablene. Med vennlig hilsen Trainor Elsikkerhet AS Rune Øverland Senioringeniør Tønsberg februar 2015 Side 8