BIO2150 Biostatistikk og studiedesign. Ordliste

Transkript

1 BIO2150 Biostatistikk og studiedesign Ordliste

2 Forord Denne ordlisten inneholder forklaringer på statistiske og andre matematiske ord og uttrykk som brukes i forelesningene i BIO2150 ved Biologisk institutt, Universitetet i Oslo. Ordlisten er lagd etter oppfordring fra studenter som tok kurset høsten Hoveddelen er en alfabetisk liste på norsk, men det er også en kort ordliste fra engelsk til norsk bakerst. Ordlisten er ment å brukes gjennom hele kurset og kan f.eks. være med under forelesningene så man lett kan finne betydningen av ord man ikke husker. Forøvrig er ikke alle begrepene eksamensrelevante. Lise Heier 2

3 Ordliste ~ Y ~ x A B A B A C P(A B) x Y skal forklares av x. Y modellert av x. Snitt: de utfallene som er felles for mengdene A og B. A snitt B Union: alle utfall som er med i A og/eller B. A union B Komplement: alle utfall som ikke er med i A. Akomplement gitt ; sannsynligheten for A gitt B. Se betinget sannsynlighet. Gjennomsnitt. Er lik summen av dataene delt på det totale antallet. Uttrykker tyngdepunktet i dataene. bˆ, aˆ Estimator / estimat for parametrene b og a. b-hatt, a-hatt P Q P Q Implikasjon. P medfører Q Ekvivalens, likeverd; det første medfører det andre, og motsatt. ΣXX Kvadratsummen av en av forklaringsvariablene: x x x Additiv Adekvat modell AIC (Akaikes informasjonskriterium) Aksiom Algebra Alternativ hypotese, H A eller H 1 Kan legges sammen eks.: SS E + SS G = SS T En modell som bare har med de forklaringsvariablene og interaksjonene som dataene gir støtte for. Har best prediksjonsevne, dvs. er det beste kompromisset mellom tilpasning til data (mange parametre) og enkelhet (få parametre). Kriterium for valg mellom to modeller, basert på hvor godt modellen passer til dataene og antall parametre i modellene. Den modellen som har lavest AIC, velges. Grunnsetning, utgangspunkt som matematikken bygges på. Bokstavregning utregninger der bokstaver (variabler) representerer tall Sier noe annet enn nullhypotesen. Er den interessante hypotesen. 3

4 ANOVA (Analysis of Variance), variansanalyse Statistisk metode til å sammenligne 3 eller flere grupper eller behandlinger. Er en utvidelse av t-testen. Brukes også til modellseleksjon der man tester om en gitt forklaringsvariabel bør være med i modellen. Aritmetikk Den delen av matematikken som omhandler addisjon (+), subtraksjon ( ), multiplikasjon ( ) og divisjon (/). Autokorrelasjon Avhengig variabel, responsvariabel Baklengsseleksjon Bartlett-test Bernoulli-fordeling: X ~ Be(p) Bernoulli-forsøk Betinget sannsynlighet: P(A B) Binomialfordeling: X ~ Bin(n, p) Binomialkoeffisient n n! = x x!( n x)! Binomisk variabel Binomiske data Korrelasjon mellom målinger som skyldes at de er gjort i nærheten av hverandre i tid eller rom Observasjonene, den variabelen vi vil forklare eller forutsi Modellseleksjon der man begynner med den maksimale modellen og deretter tar bort forklaringsvariable. Test for homogen (konstant) varians. p < 0.05 angir at dataene ikke har homogen varians. gir sannsynlighetene for suksess og fiasko, 0/1, ja/nei, osv. Forsøk som har bare to mulige utfall. Eks.: myntkast Sannsynligheten for at A skjer dersom B har skjedd. Sannsynligheten for A gitt B gir sannsynligheten for å få et visst antall suksesser i n uavhengige forsøk, der suksessannsynligheten i hvert forsøk er lik p Tall som inngår i binomialfordelingen. Er lik antall måter å plukke ut x kombinasjoner fra n mulige. Leses n over x, på engelsk n choose x. oppgir antall suksesser i n uavhengige forsøk med samme suksessannsynlighet. Eks.: antall kron i 5 myntkast. Observasjoner av typen 0/1, ja/nei osv., eller antallet/andelen suksesser i et kjent antall forsøk. Binomisk modell Modell der responsvariabelen er binomisk, altså enten 0/1 eller antall/andel suksesser i et kjent antall forsøk. Se logistisk regresjon. Binær variabel Biostatistikk Boksplott kan bare ha to utfall: 0/1, ja/nei, suksess/fiasko, osv. Anvendelse av statistiske metoder på biologiske data Plott som oppsummerer datamaterialet ved å vise median, første og tredje kvartil, største og minste verdi og eventuelle utliggere. 4

5 Bonferroni-korreksjon Datasett Derivere, derivasjon Deskriptiv statistikk Devians df Diagnostiske plott Diskret Dispersjon Eksponentialfordelingen Ekstra kvadratsum Ekstrapolere Ekvivalens: Ekvivalente metoder Enkel lineær regresjon Ensidig test Enveis anova Brukes til å kompensere for problemet som oppstår ved multippel testing. Man setter et nytt, lavere signifikansnivå som er lik α delt på antall tester. Datamateriale Finne en formel for stigningstallet på forskjellige punkter på en kurve. Brukes bl.a. til å finne minimumsverdier, f.eks. til SS E. Er det motsatte av integrasjon. Beskrivende statistikk: gjennomsnitt, varians, kvartiler, antall grupper osv. Uttrykker hvor mye dataene avviker fra modellen. Er lik SS E for normalfordelte data. Definert som 2 log(l), der L er likelihood. Frihetsgrader (degrees of freedom). Brukes som parameter i flere sannsynlighetsfordelinger. Se også frihetsgrader. Plott som brukes til å undersøke om modellantagelsene er oppfylt bruker kun heltall, ikke kommatall. Tellbar. Det motsatte av kontinuerlig. Hvor stor variansen er i forhold til middeltallet. Større overdispersjon, mindre underdispersjon Typisk bruk: oppgir sannsynligheten for at noe skal vare/virke/eksistere en viss tid, der det hele tiden er en liten sjanse for at det slutter å vare/virke/eksistere. Brukes ved modellseleksjon for sammenligning av to modeller der den ene er en forenkling av den andre. Den ekstra kvadratsummen er lik forklart variasjon i den ene modellen minus forklart variasjon i den andre, dvs. SS X1 SS X2. Den uttrykker hvor mye mer variasjon som blir forklart av den mer kompliserte modellen. Forutsi (predikere) verdier utenfor området man har data fra Likeverd; det første medfører det andre, og motsatt. Likeverdige metoder. Gir samme resultat og kan tolkes på samme måte. Lineær regresjon med én forklaringsvariabel (x): y = a + bx Hypotesetest der den alternative hypotesen benytter < eller >. Gjør at man bruker bare den ene halen i fordelingen. Anova med én faktorvariabel / gruppeinndeling av dataene i modellen, f.eks. innsamlingssted eller behandling. 5

6 Error Estimat Estimator Estimere Ettutvalgs t-test Faktoriell anova Faktorvariabel, kategorisk variabel Feilkvadratsum, SS E F-fordelingen X ~ F m,n Fordeling Forklaringsvariabel, uavhengig variabel, prediktor Forlengsseleksjon Forventning, forventningsverdi, forventet verdi E(X), µ Forventningsrett estimator Feilledd, støy, tilfeldig avvik Et anslag for en ukjent modellparameter basert på et datamateriale Funksjon som skal gi et estimat av en parameter: Gjennomsnittet er en estimator for forventningsverdien Den mest brukte estimatoren for variansen er (n 1) 1 Σ(x i x ) 2 Anslå verdien av en parameter ut fra data tester om populasjonsgjennomsnittet er lik en gitt verdi. Anova med flere faktorvariabler i alle mulige kombinasjoner Forklaringsvariabel som har et gitt antall mulige verdier, f.eks. behandlingstype, innsamlingssted, art, farge, osv. Brukes i Anova. Kvadratsummen av residualene, dvs. avvikene mellom dataene og hva modellen predikerer. Gir et mål på den uforklarte variasjonen i dataene. Beslektet med normalfordelingen. Brukes i variansanalyse og ved modellseleksjon. X er F-fordelt med m og n frihetsgrader. Se sannsynlighetsfordeling En variabel (f.eks. nitrogentilførsel) som brukes til å forklare variasjon i en annen variabel (f.eks. mengde avling). Modellseleksjon der man begynner med nullmodellen og deretter legger til forklaringsvariable. Det teoretiske gjennomsnittet; det du ville ha fått hvis du hadde uendelig mye data. Kan regnes ut fra sannsynlighetsfordelingen. betyr at den tilfeldige feilen til estimatoren ligger like gjerne på oversiden som på undersiden av den virkelige parameterverdien; ingen systematisk feil 6

7 Frihetsgrader F-verdi, F-ratio, F-observator Generalisert additiv modell (GAM) Generalisert lineær modell (GLM) Generell lineær modell Gjennomsnitt, aritmetisk middeltall x GLM Gruppekvadratsum, SS G H 0 H A, H 1 Kort forklaring: Antall datapunkter minus antall parametre i modellen (gir antall residualfrihetsgrader). Har betydning for p-verdien flere frihetsgrader gir lavere p-verdi. Uttrykker i hvilken grad residualene (avvikene) er uavhengige av hverandre. Lengre forklaring: Frihetsgrader er antallet dimensjoner som noe kan bevege seg i. En parameter kan bevege seg i én dimensjon (bli større eller mindre). En faktorvariabel med flere faktornivåer kan variere i flere dimensjoner (fordi flere koeffisienter kan variere). N datapunkter kan i utgangspunktet variere i N dimensjoner. Når alle parametrene (p) i modellen er estimert (og holdes fast), kan residualene bevege seg i N p dimensjoner, fordi når man lar N p av dem bevege seg fritt, vil de siste p være bestemt av de N p første og de p parameterestimatene som holdes konstant. = MS G / MS E eller MS X / MS E. Uttrykker hvor (u)sannsynlige dataene er dersom nullhypotesen er riktig, dvs. at forklaringsvariabelen ikke har noen effekt på responsvariabelen. Sannsynligheten finnes vha. F- fordelingen. En generalisering av GLM. I GAM tillater man at kurvene krummer seg slik at de bedre følger dataene. En klasse statistiske modeller som beskriver sammenhengen mellom forklaringsvariabler (f.eks. temperatur, vegetasjonstype) og responsvariabelen (f.eks. individtetthet av en dyreart). Responsvariabelen kan være normalfordelt, binomisk fordelt, Poisson-fordelt osv. (men ikke alle fordelinger er mulig). Er enda mer generell enn generell lineær modell. Samlebetegnelse på variansanalyse og lineær regresjon, og alle kombinasjoner av dem. Også kalt bare lineær modell. Summen av dataene, delt på det totale antallet. Uttrykker tyngdepunktet i dataene. Se generalisert lineær modell kvadratsummen av avvikene mellom gruppemiddeltallene og stormiddeltallet. Gir et mål på variasjonen som forårsakes av forskjellig behandling. Se nullhypotese Se alternativ hypotese 7

8 Heteroskedastisitet, Variabel varians At variansen i datamaterialet ikke er konstant. Sees f.eks. når residualene er større for store prediksjonsverdier enn for små. Histogram Ligner søylediagram. Dataene er gruppert i intervaller høyden på søylene angir antallet eller andelen data i de respektive intervallene. Homogen varians, homoskedastisitet Hypotese Hypotesetesting At variansen i datamaterialet er konstant. Se heteroskedastisitet. Utsagn om verdien av en parameter, f.eks. populasjonsgjennomsnittet. Å bruke observasjoner og statistisk metode til å undersøke om en parameter (f.eks. forventet biomasse eller levetid) har en annen verdi enn hva man i utgangspunktet ville tro om to parameterverdier er forskjellige om det en sammenheng mellom to målte fenomener om en behandling har en effekt. Identitetsmatrisen, I Har enere på diagonalen og nuller ellers. Tilsvarer tallet 1 for skalarer: A I = A Ikke-parametriske tester Ikke-sentrert Implikasjon: P Q: P medfører Q Indeksere Indreproduktet til to vektorer X og Y Tester som ikke antar at dataene (residualene) kommer fra en spesiell fordeling (f.eks. normalfordelingen). Estimerer ikke parametre. At fordelingen er flyttet oppover eller nedover på x-aksen. Gjøres vha. en ekstra parameter. Ikke-sentrale t- og f- fordelinger brukes i teststyrkeanalyse Å angi plasseringen av et tall i en matrise eller en vektor x 1 y 1 + x 2 y 2 + x 3 y Integral Integrasjon Interaksjon mellom to forklaringsvariable Interkvartilområde Arealet mellom en funksjonskurve og x-aksen. Å integrere er det motsatte av å derivere. Å finne arealet under en kurve (over x-aksen) At effekten av den ene variabelen er avhengig av verdien av den andre. At effekten av to forklaringsvariabler er enten sterkere eller svakere enn summen av effektene hver for seg. Synergieffekt; at helheten er mer/mindre enn summen av delene. Alle verdier mellom 1. og 3. kvartil. 8

9 Invers funksjon Motsatt funksjon, en funksjon som gjør det motsatte av en annen funksjon. Bruker man først den ene funksjonen og deretter den andre, kommer man tilbake til utgangspunktet. Eks.: Legge til et tall og deretter trekke fra det samme tallet; kvadrere og deretter ta kvadratrot; ta logaritmen og deretter bruke eksponentialfunksjonen; finne den kumulative sannsynligheten for et tall og deretter finne kvantilen til sannsynligheten. Grafen til en invers funksjon er speilbildet av den opprinnelige funksjonen, rundt diagonalen y = x. Invers matrise, A 1 A A 1 = I, tilsvarer divisjon for skalarer f.eks. at 4 ¼ = 1 Invers sannsynlighet Justert R 2 Kategorisk variabel, faktorvariabel Kausal sammenheng Kjikvadratfordelingen X ~ χ 2 n Koeffisient: a, b Kolonnevektor Se kvantil Kriterium for valg mellom to modeller, basert på R 2 og antall parametre i modellene. Den modellen som har høyest justert R 2, velges. En variabel som har to eller flere atskilte nivåer. De kan være uordnede (f.eks. gjødslingstype), eller ordnede (f.eks. nivåer av gjødslingsmengde). Det antas at det ikke er noen sammenheng mellom nivåene, dvs. at ett nivå ikke er f.eks. det dobbelte av et annet. Årsakssammenheng Beslektet med normalfordelingen. Benyttes i forbindelse med kvadratsummer og varianser. X er kjikvadratfordelt med n frihetsgrader. Estimater for stigningstallene til alle forklaringsvariablene, og for skjæringspunktet. En loddrett rekke med tall Komplement: A C Alle utfall som ikke er med i A. A-komplement Konfidensgrenser Konfidensintervall Øvre og nedre grense i et konfidensintervall Et intervallestimat for en parameter. Kort forklaring: Man kan være nokså sikker på at den virkelige parameterverdien ligger innenfor konfidensintervallet. Lengre forklaring: Hvis man gjør innsamling av data 100 ganger og estimerer 100 konfidensintervaller, vil ca. 95 av intervallene omslutte den virkelige parameterverdien. Kontinuerlig Kontinuerlig variabel kan ha alle verdier på tallinjen, dvs. alle kommatall. Det motsatte av diskret. Variabel som måles. Kontinuerlige forklaringsvariabler brukes i lineær regresjon. 9

10 Korrelasjon Korrelasjonskoeffisient ρ, r Kovariansanalyse, Ancova Kovariansen mellom X og Y: Cov(X, Y) Kovariansmatrisen til X Kritisk verdi Kumulativ sannsynlighet Kumulativ sannsynlighetsfordeling Kvadratavvik Kvadratet av et tall Kvadratsum, SS (sum of squares) eller ΣXX Kvadrere Kvantil Kvartiler Graden av samvariasjon Et tall mellom 1 og 1 som sier hvor sterk sammenheng det er mellom to variable. Perfekt samvariasjon gir ρ = 1, fravær av samvariasjon gir ρ = 0, og perfekt motsatt variasjon gir ρ = 1. Kombinasjon av anova og regresjon. Lineær modell som inneholder både faktorvariable og kontinuerlige variable Omtrent det samme som korrelasjon, men ganget opp med standardavvikene til X og Y. Uttrykker graden av samvariasjon. Hvis X er en vektor av flere tilfeldige variabler, vil kovariansmatrisen til X oppgi kovariansene mellom de forskjellige variablene. Variansen til hver variabel er gitt på diagonalen. Hvis testobservatoren (t-verdien, F-verdien e.l.) er større enn den kritiske verdien, forkastes nullhypotesen. Den kritiske verdien bestemmes av typen fordeling, antall frihetsgrader og ønsket signifikansnivå. Tidligere mye brukt alternativ til å regne ut signifikanssannsynligheten (p-verdien) Sannsynligheten for at en stokastisk variabel er mindre eller lik en gitt verdi x. For en diskret variabel er den lik summen av sannsynlighetene opp til og med den gitte verdien x. P(X x) En kurve der tallene på y-aksen viser sannsynligheten for at utfallet (målingen) er mindre enn eller lik et gitt tall (oppgitt på x-aksen) Et avvik (en differanse) opphøyd i annen potens Tallet opphøyd i annen potens Sum av kvadrerte tall. Kan være summen av kvadratavvik (SS E ), eller total kvadratsum (SS Y ), osv. Opphøye i annen Det verdien av en stokastisk variabel som tilsvarer en gitt kumulativ sannsynlighet (teoretisk kvaantil). Det den målingen som, etter at alle målingene er ordnet i stigende rekkefølge, er akkurat større enn en gitt andel av dem (empirisk kvantil). 25%-, 50%- og 75%-kvantilene. Se også median. 1. kvartil Den verdien som har 25% av verdiene under seg. 25-persentilen. 10

11 3. kvartil Den verdien som har 75% av verdiene under seg. 75-persentilen. Likelihood Likelihood-funksjon, L(parameterverdier) Lineær Lineær modell Lineær regresjon Lineær transformasjon av en variabel: y er en lineær transformasjon av x Link-funksjon Log-transformasjon Logistisk regresjon Logit, log(odds) Lognormalfordelingen Maksimal modell Sannsynligheten for observasjonene ved en gitt parameterverdi (for kontinuerlige variable: sannsynlighetstettheten for observasjonene ved en gitt parameterverdi) Likelihooden for et datasett som funksjon av parameterverdi. P(data parameterverdier), der dataene holdes konstant og parameterverdiene varierer. Når man skal estimere parameterverdier ut fra data, velger man ofte den verdien som gir høyest likelihood. kan beskrives av en rett linje Samlebetegnelse på Anova-modeller og lineær regresjon, og alle kombinasjoner av dem. Å finne en linje som passer best mulig til datapunkter som ligger i x-y-planet. Å beskrive en responsvariabel vha. formelen y = b 0 + b 1 x 1 + b 2 x Står i motsetning til f.eks. logistisk regresjon og Poissonregresjon. Gang variabelen x med et tall (b), og legg til et annet tall (a): y = a + bx. Eks.: Å gjøre om temperaturmålinger fra Celsius til Fahrenheit er en lineær transformasjon. Brukes i GLM. Transformerer forventningsverdien til en skala som går fra til. Ofte har vi mest bruk for tilbaketransformasjonen, nemlig å transformere modellprediksjoner tilbake til en vanlig skala, f.eks. til et tall mellom 0 og 1 (for andeler), eller til et heltall fra 0 og oppover (for f.eks. antall unger i et kull). Å uttrykke noe på logaritmisk skala. Eks.: uttrykke konsentrasjonen av H + -ioner som ph. En type GLM der observasjonene er binomiske, dvs. enten er 0/1, ja/nei osv., eller andeler. Bruker logit-funksjonen som link. En transformasjon av sannsynlighet som brukes i logistisk regresjon. Er lik log(p/(1 p)). Sannsynlighetsfordeling for X som er gitt av at log(x) er normalfordelt Har med alle forklaringsvariable og alle interaksjoner mellom dem 11

12 Maksimum-likelihoodestimering, MLE Matrise, A Matriseelement Median Mengde: A = {a 1, a 2, a 3 } Mettet modell Middelkvadrat, MS Middeltall, Middelverdi Modell Modelldiagnostikk Modellkoeffisienter Modellseleksjon MS Multippel regresjon Multippel testing Multivariat normalfordeling, multinormalfordeling Naturlige tall Generell estimeringsmetode. Finner de parameterverdiene som gir størst sannsynlighet å finne det du fant. Mange vanlige estimatorer (som x ) er maksimum-likelihoodestimatorer (ML-estimatorer). Tall organisert i et rektangel med rader og kolonner. I regresjon er det gjerne en rad for hvert individ og en kolonne for hver regresjonskoeffisient β. Et tall i en matrise 50%-kvantilen. Den midterste målingen når dataene sorteres i stigende/synkende rekkefølge. I vårt kurs: en gruppering av utfall/hendelser. Generelt: En gruppering av elementer, som kan være tall, begreper eller hva som helst. Mengden A består av utfallene a 1, a 2 og a 3. Har like mange parametre som datapunkter Kvadratsum delt på antall frihetsgrader. MS = SS/df. Brukes i F-testen (se F-verdi ) Gjennomsnitt Kvantitativ sammenheng mellom responsvariabel og forklaringsvariabel(er) Undersøkelse av om dataene oppfyller modellantagelsene Estimater for stigningstallene for alle forklaringsvariablene, og for skjæringspunktet (intercept). Prosedyre for å komme frem til den modellen som dataene gir best støtte for Se middelkvadrat Regresjon med to eller flere forklaringsvariable: y = b 0 + b 1 x 1 + b 2 x Å gjøre mange hypotesetester. Medfører et problem: Med et signifikansnivå = 0.05 vil 1 av 20 nullhypoteser feilaktig forkastes, slik at vi får vist sammenhenger som egentlig ikke er der. Normalfordeling der X er byttet ut med en vektor X, dvs. at vi ser på sannsynlighetsfordelingen til to eller flere variabler (som kan være avhengige av hverandre) samtidig. Alle heltall fra og med 1 og oppover 12

13 Normalfordelingen: X ~ N(µ, σ) X ~ N(1, 2) Klokkeformet sannsynlighetstetthet som opptrer i mange sammenhenger. Er svært viktig pga. sentralgrenseteoremet. Har to parametre: µ (forventningen) og σ (standardavviket). Også kalt Gauss-kurven. X er normalfordelt med forventning lik 1 og standardavvik lik 2. Nullhypotese, H 0 Nullmodell Numerisk integrasjon Observator Odds En enkel hypotese som typisk sier at parameteren har den verdien man trodde i utgangspunktet de to parameterverdiene er like det er ingen sammenheng mellom de to målte fenomenene behandlingen har ingen effekt. Modell hvor ingen forklaringsvariabler er med, kun konstantleddet (gjennomsnittet, stormiddeltallet). Å finne en tilnærmet verdi for arealet under en kurve ved å bruke enkle formler som gjentas et stort antall ganger. Se testobservator En transformasjon av sannsynlighet. Er lik p/(1 p), eller P(suksess)/P(fiasko). Origo Det punktet i koordinatsystemet hvor både x = 0 og y = 0; der aksene krysser hverandre Overdispersjon At variansen er for stor i forhold til hva modellen antar. Gir problemer i modeller der variansen skal være lik forventningen (Poisson-modeller), eller være gitt av n og p (binomiske modeller / logistisk regresjon). Parameter Et konstant tall som beskriver formen på en sannsynlighetsfordeling, eks.: µ og σ i normalfordelingen, eller n og p i binomial-fordelingen. Persentil Prosentkvantiler. Særlig 2.5-persentilen og persentilen er hyppig brukt. Se kvantil. Poisson-fordelingen X ~ Po(λ) Poisson-regresjon Populasjon Sannsynlighetsfordeling der verdiene (utfallene) kun er hele tall større eller lik 0. Variansen er lik forventningen (λ). X er Poisson-fordelt med parameter lambda. En type GLM der observasjonene er heltall fra 0 og oppover. Den antar at observasjonene er Poisson-fordelte. Alle individene i den gruppen vi er interessert i, men som vi vanligvis ikke kan observere direkte, f.eks. alle individer av en fiskeart i en innsjø, alle innbyggerne i et land, etc. 13

14 Populasjonsgjennomsnitt, µ Predikere Prediksjoner Prediktor, forklaringsvariabel, uavhengig variabel Produktsum: ΣXY Proporsjon Pseudoreplikasjon P-verdi, signifikanssannsynlighet QR-dekomposisjon R 2 Radvektor Rang Regresjon (lineær) Gjennomsnittet i hele populasjonen. Tilsvarer forventningsverdien. BBruke en modell til å forutsi verdien en avhengig variabel (f.eks. størrelsen til en plante) når verdiene til forklaringsvariablene er gitt. Hva nye målinger vil være, eller hva de observerte målingene ville ha vært, dersom det ikke var noen tilfeldige feil eller avvik fra modellen. En variabel (f.eks. nitrogentilførsel) som brukes til å forklare variasjon i en annen variabel (f.eks. mengde avling). x 1 y 1 + x 2 y 2 + x 3 y (også kalt indreprodukt eller prikkprodukt) Andel At målingene ikke er helt uavhengige av hverandre. Gjør at antall frihetsgrader må reduseres. Sannsynligheten for å få det samsvaret vi fikk mellom observasjoner og alternativ hypotese, eller enda bedre samsvar, dersom nullhypotesen er riktig. En metode som statistikkprogrammer bruker for å løse lineære ligningssystemer. Et alternativ til å finne A 1 ved multippel regresjon. Andelen av variasjonen i dataene som forklares av modellen. Er lik korrelasjonskoeffisienten opphøyd i annen. En vannrett rekke med tall Plasseringen av et tall i en tallrekke som er ordnet i stigende rekkefølge Å finne en linje som passer best mulig til datapunkter. Regresjonskoeffisient Parametrene i en modell av typen y = b 0 + b 1 x 1 + b 2 x , se koeffisient Replikasjon Replikater Residual Responsvariabel, avhengig variabel Å gjøre en rekke målinger av eksakt det samme på flere eksperimentelle enheter. Uavhengige indikasjoner. Gir lavere usikkerhet i modellen. Forsøksenheter (f.eks. planter) som får samme behandling Observert verdi minus predikert verdi. Avvik. Forskjellen mellom observasjon og modellverdi. Observasjonene, den variabelen vi vil forklare eller forutsi 14

15 Robusthet Romlig pseudoreplikasjon Sannsynlighet Sannsynlighetsfordeling, fordeling Sannsynlighetsfordeling (kumulativ) F(x) Sannsynlighetsmassefunksjon Sannsynlighetstetthet Sentralgrenseteoremet Sentrere Shapiro-Wilk-test Skalere en variabel Signifikansnivå, α Signifikanssannsynlighet, p-verdi Signifikant effekt, statistisk signifikant effekt At analysemetoden tåler at antagelsene ikke er helt oppfylt. At målingene er avhengige av hverandre fordi de er gjort i nærheten av hverandre Sjansen for at noe skal skje. Uttrykkes som et tall mellom 0 og 1. Gjør man samme eksperiment et stort antall ganger, vil andelen ganger et visst utfall skjedde, være lik sannsynligheten for utfallet. En formel eller kurve som oppgir sannsynligheten for forskjellige verdier av en tilfeldig variabel. Funksjon som gir kumulative sannsynligheter, dvs. sannsynligheten for at den tilfeldige variabelen blir mindre eller lik en gitt verdi x. Sier hva sannsynligheten er for hvert utfall (hendelse), der utfallene er diskrete (ikke kontinuerlige). Beskriver sannsynligheter der utfallene er kontinuerlige tall. Eks.: den klokkeformede normalfordelingen. Arealet under kurven mellom to x-verdier viser sannsynligheten for at utfallet (målingen) ligger mellom de to x-verdiene. Kan ikke brukes til å gi sannsynligheten for en gitt verdi; siden en kontinuerlig variabel har uendelig mange mulige verdier må sannsynlighetene for hver enkelt av dem være lik null. Tilsvarer sannsynlighetsmassefunksjon i det diskrete tilfellet. Sier at gjennomsnittet av mange målinger er tilnærmet normalfordelt, (nesten) uansett hva slags fordeling målingene har i utgangspunktet. Flytte origo til midten av datapunktene Test for normalitet. p < 0.05 angir at dataene ikke kommer fra en normalfordeling. Gange/dele med et tall. Eks.: Hastighet målt i km/t kan gjøres om til mph (miles/hour). Hvor liten p-verdien må være for at nullhypotesen skal kunne forkastes. Er et subjektivt valg. Ofte velges α = 0.05, som tilsvarer konfidensnivå = Sannsynligheten for å få det samsvaret vi fikk mellom observasjoner og alternativ hypotese, eller enda bedre samsvar, dersom nullhypotesen er riktig. Basert på observasjonsdata har man forkastet nullhypotesen om at det ikke er noen effekt 15

16 Simulere Skalar Skjevhet ( skewness ) Skjæringspunktet til en linje, intercept Å la en datamaskin generere et stort antall tilfeldige tall fra en statistisk fordeling, og deretter bruke tallene til å etterligne tilfeldig variasjon i en avledet fordeling, et eksperiment, en observasjonsstudie m.m. Kun ett tall, i motsetning til en vektor eller en matrise At fordelingen ikke er symmetrisk, men har en lang hale i den ene enden Hvor linjen skjærer y-aksen; hva y-verdien til linjen er når x = 0. Snitt: A B De utfallene som er felles for mengdene A og B. A snitt B SS SS E Standardavvik sd(x) σ, s Standardfeil, SE Se kvadratsum Summen av de kvadrerte avvikene. Feilkvadratsum Kvadratroten av variansen. Begge begreper benyttes fordi begge uttrykker variasjonen. Generelt: Standardavviket til en estimator. Typisk bruk: standardavviket til gjennomsnittet, dvs. σ/ n eller s/ n. Standard-normalfordelingen: Z ~ N(0,1) Stigningstallet til en linje, vinkelkoeffisient Stokastisk variabel, tilfeldig variabel X, Y Stormiddeltall Styrke, teststyrke (1 β) Temporal pseudoreplikasjon Testobservator Teststyrke (1 β) t-fordelingen X ~ t n Den normalfordelingen som har forventning = 0 og standardavvik = 1. Her brukes gjerne bokstaven Z. Z er standardnormalfordelt. Hvor mye linjen stiger når man beveger seg én enhet bortover på x-aksen; helningsgraden. Noe som varierer tilfeldig, f.eks. resultatet av terningkast. Verdien til variabelen kan ikke forutsies med sikkerhet, men fordelingen til variabelen sier hvor sannsynlige forskjellige verdier er. Gjennomsnittet av alle observasjonene i hele datasettet ( grand mean ) Hvor god testen er til å forkaste nullhypotesen (der dette er en riktig avgjørelse). Uttrykkes som en sannsynlighet. At målingene er avhengige av hverandre fordi de er gjort etter hverandre i tid Tall som regnes ut på grunnlag av dataene, og som brukes til å avgjøre om nullhypotesen skal beholdes eller forkastes. Hvor god testen er til å forkaste nullhypotesen (der dette er en riktig avgjørelse). Uttrykkes som en sannsynlighet. Beslektet med normalfordelingen. Benyttes ved t-tester. X er t-fordelt med n frihetsgrader. 16

17 Tidsserier, tidsrekker Tilfeldig variabel, stokastisk variabel X, Y Tosidig test Totalkvadratsum, SS T eller SS Y Toutvalgs t-test Toveis anova Datamateriale der hvert datapunkt tilsvarer et gitt tidspunkt, f.eks. time, dag, måned, år Noe som varierer tilfeldig, f.eks. resultatet av terningkast. Verdien til variabelen kan ikke forutsies med sikkerhet, men fordelingen til variabelen sier hvor sannsynlige forskjellige verdier er. Hypotesetest der H A benytter. Gjør at man må benytte begge haler i fordelingen. Kvadratsummen av avvikene mellom dataene og stormiddeltallet ( grand mean ). Uttrykker den totale variabiliteten i dataene. Tester om populasjonsgjennomsnittet er det samme i to populasjoner Anova med to faktorvariabler / gruppeinndelinger av dataene i modellen, f.eks. innsamlingssted og behandling. Transcendentale tall Eks.: π = , e = Tall som ikke er løsning av noen nte-gradsligning med rasjonale koeffisienter (f.eks. ¾ x 2 5/8 = 0). Transformasjon Translatere en variabel Transponert matrise: A T t-test t-verdi, t-observator Type-1-feil Falskt positivt resultat Type-2-feil Falskt negativt resultat Uavhengig variabel, forklaringsvariabel, prediktor Uavhengighet: mellom hendelser, variabler, eksperimenter, observasjoner Å endre skala. Eks.: gjøre om temperaturmålinger fra Celsius til Fahrenheit. legge til / trekke fra et tall En matrise hvor rader og kolonner er byttet om; matrisen A speilet om diagonalen. Benyttes til å teste om et populasjonsgjennomsnitt har en gitt verdi, eller om det er likt i to populasjoner, i tilfeller hvor det er lite data. Uttrykker hvor (u)sannsynlige dataene er dersom nullhypotesen er riktig, dvs. at populasjonsgjennomsnittet = 0, eller at det er likt i to populasjoner. Sannsynligheten finnes vha. t-fordelingen. Å forkaste en nullhypotese som er riktig. Sannsynligheten for type-1-feil er lik signifikansnivået α og kan reguleres ved å justere dette. Å beholde en nullhypotese som er gal. Sannsynligheten for type-2-feil kalles β, se teststyrke. En variabel som har en mulig påvirkning på den avhengige variabelen (responsvariabelen). At sannsynligheten for den ene hendelsen (f.eks. godt vær i dag) er upåvirket av om den andre hendelsen skjedde eller ikke (f.eks. vinne i Lotto), og omvendt. 17

18 Uniform fordeling: X ~ U[a, b] Sannsynlighetstetthet der alle verdier mellom a og b er like sannsynlige, og alle verdier utenfor har sannsynlighet = 0. Uniform sannsynlighet At alle utfall (hendelser) er like sannsynlige. Union: A B Alle utfall som er med i A og/eller B. A union B Utfall, hendelse. Eks.: kron, mynt Utfallsrom Utligger Utvalg Variabel Varians Var(X) σ 2, s 2 Variansanalyse, ANOVA Vektor Vinkelkoeffisient, stigningstall z-skår Mulig resultat av et eksperiment Alle mulige resultater (utfall) av et eksperiment En ekstremt høy eller lav verdi; en verdi som passer svært dårlig med modellen. Observasjonene vi har gjort; målingene. Utvalget er som regel mye mindre enn populasjonen, og tilfeldigheter på individnivå vil påvirke gjennomsnittet, variansen osv. Se populasjon. Noe som har varierende verdi, f.eks. temperatur Et tall som uttrykker hvor stor variasjon det er i dataene, eller bredden i sannsynlighetsmassefunksjonen eller sannsynlighetstettheten. σ 2 brukes om den teoretiske variansen, mens s 2 brukes om varians utregnet fra et datamateriale. Se også standardavvik. Statistisk metode til å sammenligne 3 eller flere grupper eller behandlinger. Er en utvidelse av t-testen. Brukes også til modellseleksjon der man tester om en gitt forklaringsvariabel bør være med i modellen. En rekke med tall Hvor mye linjen stiger når man beveger seg én enhet bortover på x-aksen; helningsgraden. Avstanden mellom en enkelt verdi (måling) og gjennomsnittet, målt i antall standardavvik (σ) 18

19 Engelsk norsk ordliste Adjusted R 2 justert R 2 ANOVA Approximation Biased Central Limit Theorem (CLT) Chi-square distribution Degrees of freedom, df Density Distribution Expected value Grand mean Intercept Mean Power Probability Range Rank Sample Skewness Slope Square Standard deviation Standard error, SE, std. error Statistic Sum of squares Test statistic Unbiased variansanalyse tilnærming forventningsskjev sentralgrenseteoremet kjikvadratfordelingen frihetsgrader tetthet sannsynlighetsfordeling forventningsverdi stormiddeltallet skjæringspunkt; y-verdien når alle forklaringsvariablene har verdi = 0 eller referanseverdi gjennomsnitt, ofte også forventning teststyrke sannsynlighet (rekkevidde) rang utvalg skjevhet stigningstall kvadrat; å kvadrere standardavvik standardfeil en funksjon hvor det inngår tilfeldige variable. Derfor blir også funksjonsverdien tilfeldig. Har gitt navn til faget Statistics. Oversettes med observator, men trenger ikke bare å være testobservator. kvadratsum testobservator forventningsrett 19