Dataøvelse 8 Toveis variansanalyse

Matematisk institutt STAT200 Anvendt statistikk Universitetet i Bergen 14. april 2004 Dataøvelse 8 Toveis variansanalyse A. Formål med øvelsen Øvelsen skal vise litt mer avansert bruk av metodene som er tilgjengelig for variansanalyse i SAS. Dette gjelder både enveisgruppering med nærmere undersøkelse av hvilke grupper som skiller seg vesentlig fra hverandre, og i tillegg toveisgruppering med eller uten samspill. Dessuten viser øvelsen hvordan man kan behandle SAS-datasett som skal oppbevares permanent. B. Simultane konfidensintervaller i enveis variansanalyse Øvelse 7 viste hvordan man med proc anova kan avgjøre om det er signifikante forskjeller mellom middelverdiene for observasjoner ordnet i bestemte grupper. I mange praktiske situasjoner vil man ønske å gå videre i en slik undersøkelse, etter at man ved en F -test har påvist at det generelt eksisterer forskjeller mellom de aktuelle kategoriene. Det er da naturlig å gjennomgå alle kombinasjoner av forventninger for par med grupper, og danne seg konfidensintervaller for differansene av to og to forventningsverdier. Dette kan oppnås i proc anova ved en MEANS-setning. Anta f. eks. at man med en CLASS-setning har angitt at variabelen GRVAR skal være grupperingsvariabel. Setningen MEANS GRVAR / T BON TUKEY CLDIFF ALPHA = 0.05; vil da gi et sett med slike konfidensintervaller, tilsvarende forventningene i de ulike kategoriene definert ved GRVAR. For det første viser spesifikasjonen T at vi ønsker alle de ordinære t-intervallene med den konfidenskoeffisienten som blir oppgitt. For det andre angir beskjeden BON at vi vil ha analoge simultane intervaller med samme totale konfidenskoeffisient, satt opp etter Bonferronis generelle metode. Tilsvarende viser angivelsen TUKEY at vi også ønsker simultane intervaller med Tukey s metode, tilpasset spesielt slike problemstillinger i variansanalyse. Angivelsen CLDIFF viser uttrykkelig at det skal skrives ut konfidensintervaller for differansene. (Denne angivelsen er egentlig bare nødvendig når alle gruppene inneholder like mange observasjoner.) Endelig viser ALPHA = 0.05 at vi ønsker signifikansnivå lik 0.05, eller med andre ord konfidenskoeffisient lik 0.95. LSB viser på side 182 185 en tilsvarende variansanalyse basert på enda en annen teknikk for multippel inferens, nemlig Scheffes metode. Dette er en konkurrent

8.2 til Tukeys metode, som har gode statistiske egenskaper i litt andre situasjoner. C. Toveis variansanalyse utført med SAS Toveis variansanalyse (og generelt flerveis analyse med faste virkninger) kan utføres med samme prosedyren ANOVA, under forutsetning av at datasettet er balansert. Anta at de to aktuelle faktorene er representert ved variablene A og B i et SAS-datasett. Disse variablene blir betraktet som grupperingsvariable og skal angis i en CLASS-setning. La Y være den variabelen som selve analysen blir utført på. Uttrykket for forventningen til Y som legges til grunn for analysen blir beskrevet i en MODEL-setning. Angir man MODEL Y = A B A B ; blir den toveis variansanalysen satt opp med ledd for egenvirkninger (tilsvarende spesifikasjonene A og B), og med samspill ( interaksjon ; tilsvarende A B). Skriver man derimot MODEL Y = A B ; blir bare egenvirkningene tatt med i modellen. Dette har også betydning for utregningen av kvadratsummen for feil-leddet i nevneren i F -observatorene. D. Organisering av SAS-datasett i SAS-bibliotek Hittil har vi bare sett på SAS-datasett som er brukt internt i bestemte SASkjøringer. Det er imidlertid også mulig å lagre datasett permanent, for bruk ved senere anledninger. Det vil ofte være bedre å oppbevare datasett på denne måten fremfor å benytte tekstfiler med vanlige symboler. Dataene blir lagret mer effektivt, og tilleggsopplysninger som f. eks. variabelnavn blir tatt hånd om automatisk. Ulempen er at det bare er SAS selv (og enkelte andre statistikkprogram) som kan lese datasett lagret i dette formatet. Permanente SAS-datasett blir behandlet på side 40 43 i LSB. SAS refererer internt til permanente SAS-datasett med navn sammensatt av to ledd. Det første leddet viser hvilket bibliotek ( SAS data library ) datasettet tilhører. Det andre leddet er det egentlige navnet på datasettet innenfor dette biblioteket. De to leddene er atskilt med punktum (som ikke må forveksles med punktum brukt i vanlige filnavn ellers på PC-en!). F. eks. vil SAS-datasettet SKATTETR.OKTOBER representere datasettet OKTOBER innenfor biblioteket SKATTETR. I virkeligheten er hvert SAS-datasett lagret i en egen fil på PC-en, selv om vi innenfor SAS ikke behøver å bekymre oss om det aktuelle filnavnet. Datasettet omtalt ovenfor kan befinne seg i filen OKTOBER.SAS7BDAT. Biblioteket i SAS-forstand

8.3 tilsvarer en mappe ( folder ) på PC-en (eller den delen av en slik mappe som inneholder filer som SAS kan utnytte). Biblioteksnavnet som benyttes inne i SAS, kan settes i forbindelse med et vanlig navn på en mappe ved en spesiell LIBNAMEsetning i SAS-programmet. I eksempelet kan dette skje ved kommandoen LIBNAME SKATTETR \REGNSKAP\LOENN\TREKK ; som altså innfører biblioteksnavnet ( libref ) SKATTETR for den mappen som på PC-en heter \TREKK under mappen \LOENN, som igjen ligger under mappen \REGNSKAP. Et bibliotek kan i SAS inneholde en rekke SAS-datasett, representert i praksis av filer med navn som avsluttes med SAS7BDAT (eller SSD i tidligere versjoner av SAS). Dessuten kan bibliotekene omfatte såkalte SAS-kataloger, som inneholder andre spesielle opplysninger SAS vil lagre. Når vi internt i SAS omtaler SAS-datasett med navn som består av et enkelt ledd, vil dette normalt bli oppfattet som midlertidige datasett. Det er slike datasett vi har behandlet i alle tidligere øvelser. Disse datasettene blir slettet ved endelig utgang fra SAS. I praksis kan man oppfatte disse datasettene som tilhørende et bibliotek med navn WORK. Når det er gitt beskjed til SAS om et ytre bibliotek gjennom en LIBNAMEsetning, vil biblioteket komme til syne på vanlig måte i Explorer-vinduet under Libraries. Ved å dobbeltklikke på det tilsvarende ikonet får vi vist en liste over SAS-datasettene i biblioteket. Det er også mulig å angi opplysningene om biblioteket inne i Explorer-vinduet selv, ved å klikke med høyre museknapp i listen over bibliotek, og så velge New. Det kommer da til syne et eget vindu der det kan oppgis ønsket biblioteksnavn og tilsvarende mappe i Windows. Oppbygningen av SAS-datasett og -bibliotek er også nærmere forklart i dokumentasjonen på Internett. Velg først Base SAS Software, så SAS Language Reference: Concepts og SAS Files Concepts, og til slutt SAS Data Libraries. E. Innlesning av data fra eksisterende SAS-datasett I mange situasjoner vil man ønske å sette opp et nytt SAS-datasett i et data-steg direkte ut fra allerede eksisterende SAS-datasett. I så fall skifter vi ut den tidligere INFILE-setningen med en SET-setning, og sløyfer INPUT-setningen fullstendig. Alle opplysninger om navn og egenskaper til variablene er nemlig allerede lagret på SAS-datasettet som vi tar utgangspunkt i. Se også side 124 125 i LSB. På denne måten kan vi innlede et data-steg med linjene DATA SKATTETR.NOVEMBER; SET SKATTETR.OKTOBER;... dersom vi vil bruke dataene i datasettet OKTOBER i biblioteket SKATTETR som grunnlag for definisjonen av datasettet NOVEMBER i samme bibliotek. På tilsvarende måte kan man gjerne oppgi en liste med flere navn på SASdatasett i en SET-setning (LSB, side 126 127). Det nye SAS-datasettet som

8.4 genereres, blir i så fall bestående av observasjonene fra de ulike datasettene, lagt etter hverandre i samme rekkefølge som datasettene ble ramset opp. Det totale antallet observasjoner blir på denne måten lik summen av antallene observasjoner i hvert enkelt datasett angitt i SET-setningen. Hvis alle de tidligere datasettene inneholder de samme variablene, blir det igjen de samme variablene som er definert i det nye datasettet. Ofte vil det imidlertid være iallfall delvis noen variable som bare opptrer i enkelte av utgangsdatasettene. Det ferdige datasettet som genereres, vil i slike tilfeller omfatte alle variablene som fantes i et eller annet utgangsdatasett. I observasjoner som stammet fra et datasett uten vedkommende variabel, blir den aktuelle verdien kodet som manglende. F. Datasett dannet ved kombinasjon av variable fra flere eksisterende SAS-datasett Det er ofte aktuelt å sette sammen SAS-datasett på en annen måte, nemlig ved å hente variabelverdier for samme observasjon fra flere tidligere SAS-datasett. Dette kan gjøres ved en MERGE-setning anvendt i et data-steg. Bruk av denne setningen blir beskrevet i LSB på side 130 133. Inneholder alle SAS-datasettene som skal kombineres like mange observasjoner, kan man i prinsippet bare ramse opp navnene på datasettene etter nøkkelordet MERGE. F. eks. vil setningene DATA ALLEVAR; MERGE DATA1 DATA2 DATA3 BIBL.OLDDATA; definere et nytt datasett ALLEVAR som består av verdiene fra de tidligere (midlertidige) datasettene DATA1, DATA2 og DATA3, og fra det permanente datasettet BIBL.OLDDATA. Variabelnavnene i ALLEVAR er de samme som ble brukt i de separate datasettene. Forekommer en variabel i mer enn ett datasett, er det verdien fra det siste datasettet i oppramsningen som blir tatt med i ALLEVAR. Dersom noen av de gamle datasettene ikke inneholder det samme antallet observasjoner, starter SAS i alle fall med å sette sammen en ny observasjon nr. 1 i ALLEVAR ut fra observasjon nr. 1 i hvert tidligere datasett. Slik fortsettes det med etterfølgende observasjoner. Når et bestemt datasett ikke lenger bidrar med noen observasjoner, blir en manglende verdi satt inn i ALLEVAR for de variablene som kom fra dette datasettet. I andre situasjoner vil man ønske at hver ny observasjon skal være sammensatt av bestemte linjer fra eldre datasett karakterisert ved samme verdi av en bestemt variabel. Denne variabelen kan f. eks. angi et identifikasjonsnummer som entydig viser hvor dataene i observasjonen stammer fra. Når datasettene blir slått sammen, skal alle verdiene med samme identifikasjonsnummer plasseres i samme observasjon. I situasjoner av denne typen bør man først sortere linjene i hvert datasett på grunnlag av identifikasjonsnumrene. (Se avsnitt B i Øvelse 5, og LSB side 94 95.) Samme fremgangsmåte kan følges også når identifikasjonen for hver datalinje består av flere variable. Så kan man benytte en BY-setning i forbindelse med MERGE i data-steget.

8.5 I tilfellet beskrevet ovenfor kan vi f. eks. tenke oss at observasjonene i datasettene DATA1, DATA2, DATA3 og BIBL.OLDDATA gir opplysninger om en gruppe personer. Hver person blir identifisert ved fødselsdatoen fastlagt ved variablene DAG, MND og AAR. Datasettene er blitt sortert med disse variablene som sorteringsnøkler. Alle opplysningene om hver person kan nå samles i datasettet ALLEVAR med følgende data-steg: DATA ALLEVAR; MERGE DATA1 DATA2 DATA3 BIBL.OLDDATA; BY DAG MND AAR; RUN; Det kan forekomme at man leser inn et datasett som mangler noen observasjoner med identifikasjon lik en av verdiene som finnes i de andre datasettene. I så fall blir de tilsvarende variablene kodet med manglende verdi i det ferdige datasettet. Se ellers eksempelet på side 132 133 i LSB. G. Praktisk problemstilling som skal analyseres Stikkelsbærplanter blir lett utsatt for skadeinsekter som ødelegger fruktene under modningen. Norsk Selskap for Stikkelsbærdyrking har derfor arrangert et forsøk med utprøving av et insektdrepende middel som blir sprøytet på plantene om våren. Forsøket er gjennomført i hager i to deler av landet. I hver hage har man enten benyttet insektmiddelet eller ikke, og etter plukkingen er det registrert hvor stor mengde bær man fikk av et bestemt antall planter. Stikkelsbærselskapet har registrert bærmengden for hver hage på et eget SASdatasett stikkels, som ligger i mappen d8 på Internett. Hver observasjon omfatter verdiene av to variable BAER og HAGENR, der BAER viser utbyttet angitt i en passende mengdeenhet. Størrelsen HAGENR er det nummeret selskapet benytter i sitt register på vedkommende bærprodusent. Dette datasettet omfatter også data for en del produsenter som ikke har deltatt i forsøket med insektmiddelet. Et annet SAS-datasett kombin i samme mappe inneholder andre opplysninger om produsentene som deltar i forsøket. Foruten HAGENR omfatter hver datalinje her variabelen MIDDEL, som har verdien 1 hvis plantene ble sprøytet, og 2 hvis sprøyting ikke ble gjennomført hos denne produsenten. Dessuten er det kodet en variabel DISTRIKT med verdier 1 og 2 som viser området hver bærhage ligger i. H. Øvelsesopplegg Kjør først et SAS-program som skal utføre følgende oppgaver: 1. Last ned de to aktuelle SAS-datasettene. Innfør et passende navn på SASbiblioteket der du legger dem inn. Produser så utskrift av verdiene av alle variablene i de to datasettene.

8.6 2. Generer nye midlertidige SAS-datasett som inneholder de samme observasjonene, men som er sortert etter størrelsen på det registreringsnummeret som Stikkelsbærselskapet bruker. 3. Konstruer et midlertidig SAS-datasett som omfatter alle variablene fra de gamle datasettene stikkels og kombin, slik at hver ny observasjon representerer data fra én bærhage. Stikkelsbærselskapet har fått melding om at to av bærmengdene er blitt litt feilkodet. Hage nr. 488 skal ha bærmengde 9.43, og hage nr. 1233 skal ha bærmengde 10.21. 4. Bruk VIEWTABLE til å rette disse verdiene i SAS-datasettet laget i punkt 3 (jfr. avsnitt F i Øvelse 2). Pass på å bruke Edit Mode og lagr datasettet til slutt. Kjør deretter et SAS-program som skal utføre resten av øvelsen: 5. Skriv ut innholdet av det editerte datasettet på vanlig måte. 6. Vi vil nå gruppere alle bærhagene i fire kategorier, gitt ved de to mulighetene for sprøyting og de to distriktene. Undersøk ved enveis variansanalyse om det kan påvises forskjeller i bærmengde mellom disse gruppene. Utfør spesielt simultan testing av forskjeller mellom grupper i parvise sammenligninger. Legg merke til at dette punktet krever at man på forhånd innfører en spesiell ny grupperingsvariabel tilpasset enveis analyse, med forskjellige verdier for gruppene som inngår. 7. Utfør så toveis variansanalyse med faktorer tilsvarende bruk av insektmiddel og distrikt. Foreta utregningene både med og uten samspill. I. Spørsmål som skal besvares ved innleveringen Som en presumptivt kyndig person i statistikk skal du hjelpe Stikkelsbærselskapet med tolkningen av resultatene. Hvilke konklusjoner vil du trekke?