Begynnerkurs i Stata UiO 15.05.2018, Knut Waagan 1 / 121
Mål Komme i gang Teknisk grunnlag for god datahåndtering Få litt oversikt 2 / 121
Temaer Håndtere datasett Beskrivende statistikk Lage grafer Litt estimering 3 / 121
Del 1: Første eksempel, litt grafkk Taste inn data Sette variabelnavn Lage et diagram Lagre data 4 / 121
Hovedvinduet Delvinduer Vanlig meny 5 / 121
Data-vinduet Åpne med meny Velg (Edit) 6 / 121
Data-vinduet Eget vindu Likt regneark 7 / 121
Taste inn data Skrive data i ruter 8 / 121
Taste inn data Tall eller tekst Tekst vises i rødt 9 / 121
Variabelnavn Navn på kolonner Kalles variabler Skrives inn her 10 / 121
Browse mode Bare se, ikke røre Lukk for endring 11 / 121
Kakediagram Åpne med hovedmeny: 12 / 121
Kakediagram Velg variabel 13 / 121
Kakediagram Tittel, caption Klikk Submit 14 / 121
Kakediagram I eget vindu: 15 / 121
Submit OK : lag plot + lukk vindu Submit : lag plot Nyttig for prøving/feiling 16 / 121
Lagre graf Klikk File - Save as i graf-vinduet Save as type: Stata Graph (*.gph) betyr å lagre i Statas eget format.... kan redigeres senere, men ikke brukes i f.eks. Word 17 / 121
Lagre graf For å legge inn i rapporter, velg f.eks bildeformatet.png 18 / 121
Lagre data File - Save 19 / 121
Lagre data File - Save Eget Stata-format (flendelse.dta) 20 / 121
Hovedvinduets deler Alt vi gjør listes som kommandoer Variabelliste Detaljer om data Resultat-vindu Kommandoer kan skrives inn her, istedenfor å bruke menyene 21 / 121
Del 2: Datahåndtering 1 Laste inn data (Lagre datasettet) (Skjermbildet i Stata) Datasettets struktur: observasjoner/variable, verdier, strenger/tall Value labels list, utvalg: if og in 22 / 121
Et ferdig datasett Vi starter med et ferdig oppsatt datasett: http://www.stata-press.com/data/r14/states.dta Vi ser på strukturen til datasettet, og gjennomgår en typisk Stata-kommando (list). 23 / 121
Laste inn data med Open For data-fler i Stataformat.dta Med Import kan vi laste inn andre formater 24 / 121
Hva gjør Open og Import? Datasett lagres i hurtigminne/ram og er klart for redigering og analyse For å ta vare på endringer permanent, må vi lagre på disk med Save eller Export. Pass på! Ikke skriv over rådata Stata: kun ett datasett i hurtigminnet av gangen (men vi kan slå sammen fere fler. Heldigvis!) 25 / 121
Datasettets struktur Kolonner: Variable Rader: Obervasjoner, datapunkter Celler, ruter: Verdier Variabler: navn og label 26 / 121
Datasettets struktur: typer Rødt: Tekst, ( tekststreng, engelsk: string ) Ingen farge: Tall Blått: Kategorisk variabel Kolonner må bestå av samme type 27 / 121
Variabeltyper Kontinuerlige variabler: Alder, temperatur, lønnsinntekt, antall slides i foredrag... Kategoriske variabler: Landsdel, kjønn, type legemiddel Ordnet kategorisk/ordinal: Utdanningsnivå, likert-skala Hvor enig er du? sterkt uenig, uenig, verken-eller, enig, eller veldig enig?,.. 28 / 121
Kategoriske variabler i Stata For analyse krever Stata tallverdier i rutene Men tekst ofte best for forskeren Value labels : Ja, takk begge deler 29 / 121
Kategorier: hvor i Stata? Velg Manage value labels Eller klikk her 30 / 121
Value labels Klikk på + 31 / 121
Value labels Sammenhengen mellom tall og tekst listes opp Mulighet for å redigere eller lage nye label er 32 / 121
Codebook Hvis man bare vil se, ikke røre value labels: 33 / 121
Codebook Velg variabel Man kan velge fere 34 / 121
Codebook output Enkel kommando å skrive 35 / 121
Ordnet kategorisk, aka ordinal Som kategorisk, men: 36 / 121
Ordnet kategorisk Som kategorisk, men: Rekkefølge viktig 37 / 121
Gjenbruk av value label Samme svaralternativ på ulike spørsmål? Bruk samme value label 38 / 121
Listing en typisk Stata-kommando Data kan listes uten å åpne data-vindu 39 / 121
Listing Data kan listes uten å åpne data-vindu Velg rader 40 / 121
Listing Data kan listes uten å åpne data-vindu Velg variabler Kommando: list state marriage_rate in 1/10 Ikke lov med mellomrom i navn 41 / 121
Listing I resultat-delvindu: 42 / 121
Litt mer avansert: Seleksjon med if Velge alle observasjoner hvor median alder er over 32 år: Kommando: list if marriage_rate > 120 43 / 121
Seleksjon med if er lik Andre eksempler: er ikke lik list if state== KANSAS list if state!= KANSAS og / eller list if state!= KANSAS in 1/10 list if marriage_rate>100 & median_age<28 list if marriage_rate>100 median_age<28 logical expressions Tekst-verdi må i anførselstegn, f. eks KANSAS 44 / 121
Seleksjon med value labels To måter: list if region==4 list if region== West :reg 45 / 121
Del 3: Datahåndtering 2 Importere data Mer om kategoriske variable: encode Lage nye variable Manglende verdier Dokumentere hva vi gjør 46 / 121
Laste inn fra Excel Import - Excel... 47 / 121
Laste inn fra Excel Prøv å lage variabelnavn automagisk Forhåndsvisning 48 / 121
Laste inn fra Excel Hva er ulikt originaldataene? 49 / 121
Redigering av variabler Oppgave: endre variabelnavn 50 / 121
Tallformat Endre til 5 tegn 51 / 121
Tallformat 52 / 121
Hvordan lage kategoriske data fra tekst? Kommando: encode region, generate(region_num) 53 / 121
Hvordan lage kategoriske data fra tekst? Velg opprinnelig tekstvariabel Navn på ny kategorisk variabel Navn på ny value label 54 / 121
Hvordan lage kategoriske data fra tekst? 55 / 121
Dokumentasjon Kommandoene kan lagres som en tekst-fl Og ikke nok med det: Vi kan få Stata til å gjøre alt som står i flen med et enkelt tastetrykk! Kalles Do-fl: Filendelse.do Åpne Do-fl-vinduet her 56 / 121
Min første.do-fl Skriv inn eller kopier fra historikk Klikk for å utføre kommandoene 57 / 121
Min første.do-fl Lagre Kalles do-fl, syntaks-fl, (Stata-)skript 58 / 121
Min første.do-fl Kommentar Asterisk forteller Stata at denne linja ikke er en kommando 59 / 121
Lage nye variabler Med dialogboks: 60 / 121
Lage nye variabler generate brukes til å lage nye variable. For eksempel kan vi regne om fra per 100.000 til prosent. 61 / 121
Lage nye variabler Navn på ny variabel Skriv inn uttrykket, eller klikk Create for Expression builder 62 / 121
Lage nye variabler Velg variabler fra liste, og regneoperasjoner fra kalkulator 63 / 121
Lage nye variabler Funskjonen round brukes til avrunding. 64 / 121
Lage nye variabler Funskjonen round finnes også i Expression builder. 65 / 121
Lagre kommando-output Tabeller etc dukker opp i resultat-vinduet Hvorda lagre dem? 66 / 121
Lagre kommando-output: logg Klikk Begin Angi flnavn Close for å stoppe Eget Stata-format.smcl men kan oversettes til tekstfl 67 / 121
Fort og gæli: Klipp og lim I Word: font Courier New 68 / 121
Litt ryddigere klipp og lim Marker og høyreklikk tabell (til Excel, tsv) html-tabell skjermbilde 69 / 121
Fortsatt ikke pent nok? Nye kommandoer i Stata 15: putpdf, putdocx, dyndoc Verdt å prøve 70 / 121
Missing values Åpne en Excel-fl med tomme ruter Stata markerer tomme ruter med punktum 71 / 121
Missing values Punktum betyr missing value, verdien mangler Statas kommandoer forstår dette 72 / 121
Missing values-notasjon er kjempelurt Vi får riktig gjennomsnitt 73 / 121
Men: En lumsk felle Verdien. regnes som et veldig stort tall (større enn alle andre) 74 / 121
Men: en lumsk felle Løsning: list if Marr>200 & Marr<. Vi kan forkorte varibelnavnet Marriagesper100000 75 / 121
Laste inn csv-fl Import - Text data (delimited, *.csv,...) Komma-separerte verdier Eksempel 76 / 121
Del 4: Deskriptiv/beskrivende statistikk beskrivende som i å beskrive datasettet I motsetning til å karakterisere populasjon som data er utvalgt fra (inferens, estimering, modellering...) Vi tar også med beskrivende grafkk! 77 / 121
Innebygd datasett sysuse auto2 laster inn et datasett som følger med Stata keep make price mpg rep78 weight foreign velger ut noen variabler Hva slags variabler har vi nå? 78 / 121
Bil-datasettet 79 / 121
Bil-datasettet Koding av variable? 80 / 121
Bil-datasettet Koding av variable? 81 / 121
Bil-datasettet Koding av variable? 82 / 121
Kontinuerlige variable summarize oppsummerer talldata Gjennomsnitt Standardavvik (et mål på spredning) 83 / 121
Kontinuerlige variable Flere variable av gangen 84 / 121
Kontinuerlige variable: grafkk Histogram gir mer detaljer Kontinuerlig y-aksens skala: Frequency vil si antall 85 / 121
Kontinuerlige variable: grafkk Frequency vil si antall dvs antall obs er innenfor intervall på xaksen Intervallene (aka Bins ) kan justeres her 86 / 121
Kontinuerlige variable: persentiler Median og persentiler blir vist hvis det krysses av her Median = 50%-persentil 87 / 121
Kategoriske variable Tell opp i hver kategori tabulate kan forkortes med tab 88 / 121
Kategoriske variable: søylediagram Velg Bar Chart i Graphics-menyen Velg frekvens, altså antall, innen kategorier Velg kategorisk variabel 89 / 121
Kategoriske variable: søylediagram Klikk her for å redigere graf, for eksempel legge til en tittel 90 / 121
To kategoriske: krysstabell Antall utenlandske biler i middels stand var 3 91 / 121
To kategoriske: krysstabell I menyen: mange muligheter Angi prosentandel utenlandsk i hver rad 92 / 121
To kategoriske: krysstabell I menyen: mange muligheter Angi prosentandel utenlandsk i hver rad 93 / 121
To kategoriske: søylediagram I dialogboks: velg 2 grupper Huk av her for å få ulike farger 94 / 121
To kategoriske: søylediagram graph bar (count), over(foreign) over(rep78) asyvars 95 / 121
En kontinuerlig og en kategorisk Er de amerikanske bilene mindre efektive? mpg vs. foreign Visualiser med Box plot 96 / 121
En kontinuerlig og en kategorisk Kontinuerlig Kategorisk 97 / 121
En kontinuerlig og en kategorisk Boksene er begrenset av kvartiler, delt av median Værhår til min og max... men data langt ute får eget punkt Hva menes med langt ute? Mer enn halvannen boks 98 / 121
Nyttig: by Statistikk for hver kategori, litt tungvinn måte: 99 / 121
Nyttig: by Statistikk for hver kategori, bedre: 100 / 121
Nyttig: by Må sortere først Veldig mange kommandoer forstår by Fins i menyene 101 / 121
To kontinuerlige variable: scatterplot Hvordan henger mpg og vekt sammen? Vi kan plotte hvert datapunkt i et kart 102 / 121
To kontinuerlige variable: scatterplot Trykk Create...som åpner enda et vindu 103 / 121
To kontinuerlige variable: scatterplot Velg Scatter Angi variabler Trykk Accept 104 / 121
To kontinuerlige variable: scatterplot Skal se slik ut Klikk OK eller Submit 105 / 121
To kontinuerlige variable: scatterplot Som ventet? 106 / 121
To numeriske, en kategorisk En grafikk-kommando i hver parentes 107 / 121
Del 5: Estimering, testing Gjennomsnitt Feilestimat på gjennomsnitt Sammenligne to gjennomsnitt 109 / 121
Gjennomsnitt mean gir gj.snitt, samt anslag på nøyaktighet Std. Err. er en typisk feil Konfdensintervall: 95% av alle eksperimenter innenfor, følsomt for modellantakelser etc. 110 / 121
Konfdensintervall Kommandoen ci gir fere muligheter for konfdensintervallet I tillegg til normalfordeling: binomial- og Poissonfordeling 111 / 121
To gjennomsnitt Forskjell på domestic/foreign? Kan utforskes med mean 112 / 121
To gjennomsnitt Velg kont. og kat. variabel Velg konfdensnivå 113 / 121
To gjennomsnitt Estimater for hver gruppe 114 / 121
To gjennomsnitt Hva med sånn p-verdi? 115 / 121
To gjennomsnitt Typisk meny Velg denne for å gruppere etter kategorisk variabel 116 / 121
To gjennomsnitt En- og tosidige p-verdier Men: Normalfordeling?, ulik samplestørrelse, ulik varians?, hvordan samplet? Alternativ test: ranksum 117 / 121
Del 6: Hva mer? Dokumentasjon og hjelp Tips om andre nyttige kommandoer 118 / 121
Hjelp i Stata Man vet kommandonavnet: help ttest Man er i dialogboks: klikk? Man vet det ikke: search student t-test Google, f.eks. Stata t-test Pdf-manualen til Stata er bra. Søk med Google, f.eks ttest site:stata.com/manuals, eller følg lenker fra Statas hjelpemeny Men ofte greiere med hjelpelitteratur (neste slide) 119 / 121
Videre lesning Acock: A gentle introduction to Stata (5th ed) Midtbø: Stata - en entusistisk innføring Visuell oversikt over grafkkfunksjoner https://www.stata.com/support/faqs/graphics/gph/stata-graph s/ Stata manual kap 27: Commands everyone should know https://www.stata.com/manuals/u27.pdf Nettskjema og Stata: https://www-adm.uio.no/tjenester/it/applikasjoner/nettskjema/h jelp/se-resultater-analyse/til-stata.html 120 / 121
Hva rakk vi ikke? Variabellister Omdanne tekst til tall og omvendt: destring, tostring Lage/endre variable: replace, egen, _n, _N,... Gå fra kont. til kat. (bruk generate/replace med if, eller cut) Sette sammen datasett: append, merge Diverse: count, display, drop, order Korrelasjon Regresjon, og mye annen analyse Stata MP, eksterne kommandoer... 121 / 121
Hjelp ved USIT Hjelp om statistikk/statistikkprogrammer: http://www.uio.no/tjenester/it/forskning/statistikk/kontakt/ Veiledning fra oss: statistikk@usit.uio.no 122 / 121