Begynnerkurs i Stata. UiO , Knut Waagan 1 / 121

Like dokumenter
Begynnerkurs i Stata. UiO vår 2019, Knut Waagan 1 / 95

ting å gjøre å prøve å oppsummere informasjonen i Hva som er hensiktsmessig måter å beskrive dataene på en hensiktsmessig måte.

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 26. april 2018

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 12. februar 2019

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 17. november 2017

Kom i gang med Stata for Windows på UiO - hurtigstart for begynnere

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 3. mai 2018

Hvordan lage kontrolldiagrammer legge inn tall i Epidata. Eksempel I-diagram

DATAØVING 1 INTRODUKSJON TIL STATA I

I denne Knarrhultguiden skal vi se nærmere på hvordan man lager en varslingsfil for sortering av søyer før lamming. Det er laget fire forskjellige

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

EndNote referansehåndteringsprogram. HiVe biblioteket

Kapittel 1: Data og fordelinger

Til bruk i metodeundervisningen ved Høyskolen i Oslo

Introduksjon til SPSS. Johan Håkon Bjørngaard Institutt for samfunnsmedisin, NTNU

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial ) Oppgave 1

Mål: SPSS. Litteratur. Noen statistikk-programpakker. Dokumentasjon fra SPSS Inc. Introduksjon til IBM SPSS Statistics 20

Oppgåve: Åpne filen eksempel.prn som ligg på den utdelte disketten. Figur 1 Eit EXCEL rekneark.

MASTER I IDRETTSVITENSKAP 2014/2016. Utsatt individuell skriftlig eksamen. STA 400- Statistikk. Mandag 24. august 2015 kl

Utvidet brukerveiledning

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Akkurat den samme begrunnelsen som vi brukte med variabelen X 2. "Jeg bruker internett mye mer på i-phone nå enn det jeg gjorde før på mobilen.

Statistikk for språk- og musikkvitere 2

Innhold. Bruker manual BlueprintEasy PDF tagger. versjon: P a g e

Øving 1 TMA Grunnleggende dataanalyse i Matlab

Innhold. Bruker manual BlueprintEasy PDF tagger. versjon: P a g e

Lær å bruke Autograph av Sigbjørn Hals

GeoGebra-opplæring i 2P-Y

Bruk av Google Regneark

Et lite notat om og rundt normalfordelingen.

Statistisk beskrivelse av enkeltvariabler. SOS1120 Kvantitativ metode. Disposisjon. Datamatrisen. Forelesningsnotater 6. forelesning høsten 2005

HR analysen. Ny versjon Brukermal. Administratorer

ST0202 Statistikk for samfunnsvitere

GeoGebra-opplæring i Matematikk 2P

Enkel plotting i LibreOffice/OpenOffice og Excel

SPSS Statistics-kurs 2014

Excel. Kursopplegg for SKUP-skolen 2010

Introduksjon til SPSS

QuickGuide Oppdateres fortløpende ved nye funksjoner

Et lite notat om og rundt normalfordelingen. Anta at vi har kontinuerlige data. Hva er likt og ulikt for histogrammer og fordelingskurver?

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Oppgavesett for NVivo 10

BRUKERVEILEDNING AMESTO DOCARC DATO:

Lærebok Robert Johnson og Patricia Kuby: Elementary Statistics, 10. utgave. Pensumoversikt. Forelesninger og øvinger

DATAUTFORSKNING I EG, EG 7.1 OG EGENDEFINERTE FUNKSJONER SAS FANS I STAVANGER 4. MARS 2014, MARIT FISKAAEN

I denne Knarrhultguiden skal vi se nærmere på hvordan man lager en varslingsfil for sortering av søyer før lamming. Det er laget fire forskjellige

MATLAB for STK1100. Matematisk institutt Univeristetet i Oslo Januar Enkel generering av stokastiske variabler

Innhold. Bruker manual BlueprintEasy PDF tagger. versjon: P a g e

Forkurs i kvantitative metoder ILP 2019

ST0202 Statistikk for samfunnsvitere. Bo Lindqvist Institutt for matematiske fag

Starthjelp i MINITAB R

Et lite notat om og rundt normalfordelingen.

Excel. Kursopplegg for SKUP-konferansen Laget av

Kapittel 3: Studieopplegg

Utvidet brukerveiledning

Excel Dan S. Lagergren

Oppgavesett for NVivo 10

Noen ArcGIS-operasjoner

Side 1. Sniggabo CMS brukermanual rev. 2

MASTER I IDRETTSVITENSKAP 2013/2015 MASTER I IDRETTSFYSIOTERAPI 2013/2015. Individuell skriftlig eksamen. STA 400- Statistikk

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

MASTER I IDRETTSVITENSKAP 2014/2016. Individuell skriftlig eksamen. STA 400- Statistikk. Fredag 13. mars 2015 kl

Grunnleggende. Excel

BEGYNNERKURS I R OG RSTUDIO. Anne Schad Bergsaker 5. april 2018

Innføring i Excel. Et lite selv-instruksjons kurs ( tutorial )

Kjenner du alle funksjonene på tastaturet?

Statistikk for språk- og musikkvitere 1

ITassist as. istyrsys User Guide. Tlf Support: E-post: Adresse: ITassist AS Vestre Brugate HOKKSUND

INTRODUKSJON TIL MAPLE

ST0202 Statistikk for samfunnsvitere

Knarrhultguiden Antall foster Forventet lammingsdato. Foster og forventet lammingsdato. Binge.

4. Dynamisk skjemaer (GUI)

Er du allerede har registrert brukernavn og passord, kan du logge deg på og få tilgang til tidligere opplastede filer (og filterinstillinger).

PC-AXIS Brukerveiledning for tabelluttak og bearbeiding av data

Analyse av kontinuerlige data. Intro til hypotesetesting. 21. april Seksjon for medisinsk statistikk, UIO. Tron Anders Moger

Dataens tidsalder. Hvorfor data? Data, data, data. STK1000 Innføring i anvendt statistikk. Tirsdag 24. august 2010

Uoffisiell brukermanual Epidata OUS Manager og Entry Client

Eksempel på data: Karakterer i «Stat class» Introduksjon

RESULTATHÅNDTERING Guide om håndtering av resultater for klubber (eksport og import)

Oppgavesett for NVivo 9

ECON Statistikk 1 Forelesning 2: Innledning

1 Innholdsfortegnelse

Bytte til Excel 2010

Klikk på publisering + offentlig + nyhet for å lage en artikkel som skal komme som nyhetssak på forsiden av fylkeslagssiden.

Filbehandling. Begreper

Sigbjørn Hals, Cappelen Damm Undervisning. Sinus 2P. Digitale løsninger av oppgaver og eksempler med noen utvalgte matematikkverktøy

Hurtigstart. Hva er GeoGebra? Noen fakta

Loven om total sannsynlighet. Bayes formel. Testing for sykdom. ST0202 Statistikk for samfunnsvitere

Vedlikeholde nettstedet i Joomla 2.5 +

Fordelinger, mer om sentralmål og variasjonsmål. Tron Anders Moger

OPPGAVEHEFTE FOR STK1000 KAPITTEL Oppgaver fra Kapittel 1

Radene har løpenummer nedover og kolonner navnes alfabetisk. Dermed får hver celle (rute) et eget "navn", eksempelvis A1, B7, D3 osv.

Knarrhultguiden Antall foster Forventet lammingsdato. Foster og forventet lammingsdato. Binge.

UNIVERSITETET I OSLO Matematisk Institutt

Grunnleggende brukerveiledning

Lage klubbens webside i Rotary med verktøyet Webwiz 2.0

Deskriptiv statistikk., Introduksjon til dataanalyse

NY PÅ NETT. Operativsystemer

Deskriptiv statistikk., Introduksjon til dataanalyse

Transkript:

Begynnerkurs i Stata UiO 15.05.2018, Knut Waagan 1 / 121

Mål Komme i gang Teknisk grunnlag for god datahåndtering Få litt oversikt 2 / 121

Temaer Håndtere datasett Beskrivende statistikk Lage grafer Litt estimering 3 / 121

Del 1: Første eksempel, litt grafkk Taste inn data Sette variabelnavn Lage et diagram Lagre data 4 / 121

Hovedvinduet Delvinduer Vanlig meny 5 / 121

Data-vinduet Åpne med meny Velg (Edit) 6 / 121

Data-vinduet Eget vindu Likt regneark 7 / 121

Taste inn data Skrive data i ruter 8 / 121

Taste inn data Tall eller tekst Tekst vises i rødt 9 / 121

Variabelnavn Navn på kolonner Kalles variabler Skrives inn her 10 / 121

Browse mode Bare se, ikke røre Lukk for endring 11 / 121

Kakediagram Åpne med hovedmeny: 12 / 121

Kakediagram Velg variabel 13 / 121

Kakediagram Tittel, caption Klikk Submit 14 / 121

Kakediagram I eget vindu: 15 / 121

Submit OK : lag plot + lukk vindu Submit : lag plot Nyttig for prøving/feiling 16 / 121

Lagre graf Klikk File - Save as i graf-vinduet Save as type: Stata Graph (*.gph) betyr å lagre i Statas eget format.... kan redigeres senere, men ikke brukes i f.eks. Word 17 / 121

Lagre graf For å legge inn i rapporter, velg f.eks bildeformatet.png 18 / 121

Lagre data File - Save 19 / 121

Lagre data File - Save Eget Stata-format (flendelse.dta) 20 / 121

Hovedvinduets deler Alt vi gjør listes som kommandoer Variabelliste Detaljer om data Resultat-vindu Kommandoer kan skrives inn her, istedenfor å bruke menyene 21 / 121

Del 2: Datahåndtering 1 Laste inn data (Lagre datasettet) (Skjermbildet i Stata) Datasettets struktur: observasjoner/variable, verdier, strenger/tall Value labels list, utvalg: if og in 22 / 121

Et ferdig datasett Vi starter med et ferdig oppsatt datasett: http://www.stata-press.com/data/r14/states.dta Vi ser på strukturen til datasettet, og gjennomgår en typisk Stata-kommando (list). 23 / 121

Laste inn data med Open For data-fler i Stataformat.dta Med Import kan vi laste inn andre formater 24 / 121

Hva gjør Open og Import? Datasett lagres i hurtigminne/ram og er klart for redigering og analyse For å ta vare på endringer permanent, må vi lagre på disk med Save eller Export. Pass på! Ikke skriv over rådata Stata: kun ett datasett i hurtigminnet av gangen (men vi kan slå sammen fere fler. Heldigvis!) 25 / 121

Datasettets struktur Kolonner: Variable Rader: Obervasjoner, datapunkter Celler, ruter: Verdier Variabler: navn og label 26 / 121

Datasettets struktur: typer Rødt: Tekst, ( tekststreng, engelsk: string ) Ingen farge: Tall Blått: Kategorisk variabel Kolonner må bestå av samme type 27 / 121

Variabeltyper Kontinuerlige variabler: Alder, temperatur, lønnsinntekt, antall slides i foredrag... Kategoriske variabler: Landsdel, kjønn, type legemiddel Ordnet kategorisk/ordinal: Utdanningsnivå, likert-skala Hvor enig er du? sterkt uenig, uenig, verken-eller, enig, eller veldig enig?,.. 28 / 121

Kategoriske variabler i Stata For analyse krever Stata tallverdier i rutene Men tekst ofte best for forskeren Value labels : Ja, takk begge deler 29 / 121

Kategorier: hvor i Stata? Velg Manage value labels Eller klikk her 30 / 121

Value labels Klikk på + 31 / 121

Value labels Sammenhengen mellom tall og tekst listes opp Mulighet for å redigere eller lage nye label er 32 / 121

Codebook Hvis man bare vil se, ikke røre value labels: 33 / 121

Codebook Velg variabel Man kan velge fere 34 / 121

Codebook output Enkel kommando å skrive 35 / 121

Ordnet kategorisk, aka ordinal Som kategorisk, men: 36 / 121

Ordnet kategorisk Som kategorisk, men: Rekkefølge viktig 37 / 121

Gjenbruk av value label Samme svaralternativ på ulike spørsmål? Bruk samme value label 38 / 121

Listing en typisk Stata-kommando Data kan listes uten å åpne data-vindu 39 / 121

Listing Data kan listes uten å åpne data-vindu Velg rader 40 / 121

Listing Data kan listes uten å åpne data-vindu Velg variabler Kommando: list state marriage_rate in 1/10 Ikke lov med mellomrom i navn 41 / 121

Listing I resultat-delvindu: 42 / 121

Litt mer avansert: Seleksjon med if Velge alle observasjoner hvor median alder er over 32 år: Kommando: list if marriage_rate > 120 43 / 121

Seleksjon med if er lik Andre eksempler: er ikke lik list if state== KANSAS list if state!= KANSAS og / eller list if state!= KANSAS in 1/10 list if marriage_rate>100 & median_age<28 list if marriage_rate>100 median_age<28 logical expressions Tekst-verdi må i anførselstegn, f. eks KANSAS 44 / 121

Seleksjon med value labels To måter: list if region==4 list if region== West :reg 45 / 121

Del 3: Datahåndtering 2 Importere data Mer om kategoriske variable: encode Lage nye variable Manglende verdier Dokumentere hva vi gjør 46 / 121

Laste inn fra Excel Import - Excel... 47 / 121

Laste inn fra Excel Prøv å lage variabelnavn automagisk Forhåndsvisning 48 / 121

Laste inn fra Excel Hva er ulikt originaldataene? 49 / 121

Redigering av variabler Oppgave: endre variabelnavn 50 / 121

Tallformat Endre til 5 tegn 51 / 121

Tallformat 52 / 121

Hvordan lage kategoriske data fra tekst? Kommando: encode region, generate(region_num) 53 / 121

Hvordan lage kategoriske data fra tekst? Velg opprinnelig tekstvariabel Navn på ny kategorisk variabel Navn på ny value label 54 / 121

Hvordan lage kategoriske data fra tekst? 55 / 121

Dokumentasjon Kommandoene kan lagres som en tekst-fl Og ikke nok med det: Vi kan få Stata til å gjøre alt som står i flen med et enkelt tastetrykk! Kalles Do-fl: Filendelse.do Åpne Do-fl-vinduet her 56 / 121

Min første.do-fl Skriv inn eller kopier fra historikk Klikk for å utføre kommandoene 57 / 121

Min første.do-fl Lagre Kalles do-fl, syntaks-fl, (Stata-)skript 58 / 121

Min første.do-fl Kommentar Asterisk forteller Stata at denne linja ikke er en kommando 59 / 121

Lage nye variabler Med dialogboks: 60 / 121

Lage nye variabler generate brukes til å lage nye variable. For eksempel kan vi regne om fra per 100.000 til prosent. 61 / 121

Lage nye variabler Navn på ny variabel Skriv inn uttrykket, eller klikk Create for Expression builder 62 / 121

Lage nye variabler Velg variabler fra liste, og regneoperasjoner fra kalkulator 63 / 121

Lage nye variabler Funskjonen round brukes til avrunding. 64 / 121

Lage nye variabler Funskjonen round finnes også i Expression builder. 65 / 121

Lagre kommando-output Tabeller etc dukker opp i resultat-vinduet Hvorda lagre dem? 66 / 121

Lagre kommando-output: logg Klikk Begin Angi flnavn Close for å stoppe Eget Stata-format.smcl men kan oversettes til tekstfl 67 / 121

Fort og gæli: Klipp og lim I Word: font Courier New 68 / 121

Litt ryddigere klipp og lim Marker og høyreklikk tabell (til Excel, tsv) html-tabell skjermbilde 69 / 121

Fortsatt ikke pent nok? Nye kommandoer i Stata 15: putpdf, putdocx, dyndoc Verdt å prøve 70 / 121

Missing values Åpne en Excel-fl med tomme ruter Stata markerer tomme ruter med punktum 71 / 121

Missing values Punktum betyr missing value, verdien mangler Statas kommandoer forstår dette 72 / 121

Missing values-notasjon er kjempelurt Vi får riktig gjennomsnitt 73 / 121

Men: En lumsk felle Verdien. regnes som et veldig stort tall (større enn alle andre) 74 / 121

Men: en lumsk felle Løsning: list if Marr>200 & Marr<. Vi kan forkorte varibelnavnet Marriagesper100000 75 / 121

Laste inn csv-fl Import - Text data (delimited, *.csv,...) Komma-separerte verdier Eksempel 76 / 121

Del 4: Deskriptiv/beskrivende statistikk beskrivende som i å beskrive datasettet I motsetning til å karakterisere populasjon som data er utvalgt fra (inferens, estimering, modellering...) Vi tar også med beskrivende grafkk! 77 / 121

Innebygd datasett sysuse auto2 laster inn et datasett som følger med Stata keep make price mpg rep78 weight foreign velger ut noen variabler Hva slags variabler har vi nå? 78 / 121

Bil-datasettet 79 / 121

Bil-datasettet Koding av variable? 80 / 121

Bil-datasettet Koding av variable? 81 / 121

Bil-datasettet Koding av variable? 82 / 121

Kontinuerlige variable summarize oppsummerer talldata Gjennomsnitt Standardavvik (et mål på spredning) 83 / 121

Kontinuerlige variable Flere variable av gangen 84 / 121

Kontinuerlige variable: grafkk Histogram gir mer detaljer Kontinuerlig y-aksens skala: Frequency vil si antall 85 / 121

Kontinuerlige variable: grafkk Frequency vil si antall dvs antall obs er innenfor intervall på xaksen Intervallene (aka Bins ) kan justeres her 86 / 121

Kontinuerlige variable: persentiler Median og persentiler blir vist hvis det krysses av her Median = 50%-persentil 87 / 121

Kategoriske variable Tell opp i hver kategori tabulate kan forkortes med tab 88 / 121

Kategoriske variable: søylediagram Velg Bar Chart i Graphics-menyen Velg frekvens, altså antall, innen kategorier Velg kategorisk variabel 89 / 121

Kategoriske variable: søylediagram Klikk her for å redigere graf, for eksempel legge til en tittel 90 / 121

To kategoriske: krysstabell Antall utenlandske biler i middels stand var 3 91 / 121

To kategoriske: krysstabell I menyen: mange muligheter Angi prosentandel utenlandsk i hver rad 92 / 121

To kategoriske: krysstabell I menyen: mange muligheter Angi prosentandel utenlandsk i hver rad 93 / 121

To kategoriske: søylediagram I dialogboks: velg 2 grupper Huk av her for å få ulike farger 94 / 121

To kategoriske: søylediagram graph bar (count), over(foreign) over(rep78) asyvars 95 / 121

En kontinuerlig og en kategorisk Er de amerikanske bilene mindre efektive? mpg vs. foreign Visualiser med Box plot 96 / 121

En kontinuerlig og en kategorisk Kontinuerlig Kategorisk 97 / 121

En kontinuerlig og en kategorisk Boksene er begrenset av kvartiler, delt av median Værhår til min og max... men data langt ute får eget punkt Hva menes med langt ute? Mer enn halvannen boks 98 / 121

Nyttig: by Statistikk for hver kategori, litt tungvinn måte: 99 / 121

Nyttig: by Statistikk for hver kategori, bedre: 100 / 121

Nyttig: by Må sortere først Veldig mange kommandoer forstår by Fins i menyene 101 / 121

To kontinuerlige variable: scatterplot Hvordan henger mpg og vekt sammen? Vi kan plotte hvert datapunkt i et kart 102 / 121

To kontinuerlige variable: scatterplot Trykk Create...som åpner enda et vindu 103 / 121

To kontinuerlige variable: scatterplot Velg Scatter Angi variabler Trykk Accept 104 / 121

To kontinuerlige variable: scatterplot Skal se slik ut Klikk OK eller Submit 105 / 121

To kontinuerlige variable: scatterplot Som ventet? 106 / 121

To numeriske, en kategorisk En grafikk-kommando i hver parentes 107 / 121

Del 5: Estimering, testing Gjennomsnitt Feilestimat på gjennomsnitt Sammenligne to gjennomsnitt 109 / 121

Gjennomsnitt mean gir gj.snitt, samt anslag på nøyaktighet Std. Err. er en typisk feil Konfdensintervall: 95% av alle eksperimenter innenfor, følsomt for modellantakelser etc. 110 / 121

Konfdensintervall Kommandoen ci gir fere muligheter for konfdensintervallet I tillegg til normalfordeling: binomial- og Poissonfordeling 111 / 121

To gjennomsnitt Forskjell på domestic/foreign? Kan utforskes med mean 112 / 121

To gjennomsnitt Velg kont. og kat. variabel Velg konfdensnivå 113 / 121

To gjennomsnitt Estimater for hver gruppe 114 / 121

To gjennomsnitt Hva med sånn p-verdi? 115 / 121

To gjennomsnitt Typisk meny Velg denne for å gruppere etter kategorisk variabel 116 / 121

To gjennomsnitt En- og tosidige p-verdier Men: Normalfordeling?, ulik samplestørrelse, ulik varians?, hvordan samplet? Alternativ test: ranksum 117 / 121

Del 6: Hva mer? Dokumentasjon og hjelp Tips om andre nyttige kommandoer 118 / 121

Hjelp i Stata Man vet kommandonavnet: help ttest Man er i dialogboks: klikk? Man vet det ikke: search student t-test Google, f.eks. Stata t-test Pdf-manualen til Stata er bra. Søk med Google, f.eks ttest site:stata.com/manuals, eller følg lenker fra Statas hjelpemeny Men ofte greiere med hjelpelitteratur (neste slide) 119 / 121

Videre lesning Acock: A gentle introduction to Stata (5th ed) Midtbø: Stata - en entusistisk innføring Visuell oversikt over grafkkfunksjoner https://www.stata.com/support/faqs/graphics/gph/stata-graph s/ Stata manual kap 27: Commands everyone should know https://www.stata.com/manuals/u27.pdf Nettskjema og Stata: https://www-adm.uio.no/tjenester/it/applikasjoner/nettskjema/h jelp/se-resultater-analyse/til-stata.html 120 / 121

Hva rakk vi ikke? Variabellister Omdanne tekst til tall og omvendt: destring, tostring Lage/endre variable: replace, egen, _n, _N,... Gå fra kont. til kat. (bruk generate/replace med if, eller cut) Sette sammen datasett: append, merge Diverse: count, display, drop, order Korrelasjon Regresjon, og mye annen analyse Stata MP, eksterne kommandoer... 121 / 121

Hjelp ved USIT Hjelp om statistikk/statistikkprogrammer: http://www.uio.no/tjenester/it/forskning/statistikk/kontakt/ Veiledning fra oss: statistikk@usit.uio.no 122 / 121