Varehandels statistikken. Ny estimeringsmetode alternativ metode. og noen generelle kommentarer. av Hans Olav Egede Larssen.

Like dokumenter
Varehandelsstatistikken. Vurdering av ny estimeringsmetode Hans Olav Egede Larssen. Innhold

2003/28 Notater Anna-Karin Mevik. Notater. Usikkerhet i konjunkturbarometeret. Seksjon for statistiske metoder og standarder Emnegruppe: 08.

TMA4245 Statistikk Eksamen desember 2016

Eksamensoppgave i TMA4240 Statistikk

ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere

TMA4240 Statistikk H2010

Utfordring. TMA4240 Statistikk H2010. Mette Langaas. Foreleses uke 40, 2010

Forelesning 7: Store talls lov, sentralgrenseteoremet. Jo Thori Lind

ST0202 Statistikk for samfunnsvitere

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

ST0202 Statistikk for samfunnsvitere

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Statistikk og dataanalyse

Statistisk inferens (kap. 8) Hovedtyper av statistisk inferens. ST0202 Statistikk for samfunnsvitere

Fra første forelesning:

Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i << >>.

Forelesning 6: Punktestimering, usikkerhet i estimering. Jo Thori Lind

Oppgave 1. . Vi baserer oss på at p 47 1 og p 2 er tilnærmet normalfordelte (brukbar tilnærming). Vi har tilnærmet at (n 1 = n 2 = 47)

Kap. 10: Inferens om to populasjoner. Eksempel. ST0202 Statistikk for samfunnsvitere

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

ST0202 Statistikk for samfunnsvitere

Profil Lavpris Supermarked Hypermarked Totalt. Coop Prix 4 4. Coop Extra Coop Mega 7 7. Coop Obs Rimi Ica Supermarked 7 7

UNIVERSITETET I OSLO

HØGSKOLEN I STAVANGER

Oppgaven består av 10 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom <<. >>. Oppgave 1

betyr begivenheten at det blir trukket en rød kule i første trekning og en hvit i andre, mens B1 B2

TALLSVAR. Det anbefales at de 9 deloppgavene merket med A, B, teller likt uansett variasjon i vanskelighetsgrad. Svarene er gitt i <<< >>>.

Oppgaven består av 9 delspørsmål som anbefales å veie like mye. Kommentarer og tallsvar er skrevet inn mellom << >>. Oppgave 1

UNIVERSITETET I OSLO

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

HØGSKOLEN I STAVANGER

Kort overblikk over kurset sålangt

PRESISJONSGEVINST VED BRUK AV SAMMENSATT ESTIMERING I BYRAETS ARBEIDSKRAFTUNDERSOKELSER. John Dagsvik INNHOLD

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

TMA4240 Statistikk Høst 2015

TMA4240 Statistikk Høst 2018

Inferens i fordelinger

TMA4240 Statistikk 2014

LØSNINGSFORSLAG TIL EKSAMEN I FAG TMA4240 STATISTIKK Mandag 12. desember 2011

Kvartalsvis ordrestatistikk for industrien

TMA4240 Statistikk Høst 2009

Mat503: Regneøving 3 - løsningsforslag

Eksamensoppgave i TMA4245 Statistikk

Bruk data fra tabellen over (utvalget) og opplysninger som blir gitt i oppgavene og svar på følgende spørsmål:

Eksamensoppgave i ST0103 Brukerkurs i statistikk

ET FORSØK PA EN ENKEL, TEORETISK VURDERING AV DE ESTIMERINGSMETODER SOM BRUKES I FORBINDELSE MED DE POLITISKE MENINGSMÅLINGER. lb Thomsen INNHOLD

Statistisk behandling av kalibreringsresultatene Del 1. v/ Rune Øverland, Trainor Elsikkerhet AS

UNIVERSITETET I OSLO

Formelsamling i medisinsk statistikk

TMA4245 Statistikk. Innlevering 3. Norges teknisk-naturvitenskapelige universitet Institutt for matematiske fag

ST0103 Brukerkurs i statistikk Forelesning 26, 18. november 2016 Kapittel 8: Sammenligning av grupper

1 Sec 3-2: Hvordan beskrive senteret i dataene. 2 Sec 3-3: Hvordan beskrive spredningen i dataene

UNIVERSITETET I OSLO

6.2 Signifikanstester

Ferdig før tiden 4 7 Ferdig til avtalt tid 12 7 Forsinket 1 måned 2 6 Forsinket 2 måneder 4 4 Forsinket 3 måneder 6 2 Forsinket 4 måneder 0 2

Statistikk. Forkurs 2017

IO 74/ november 1974

Kapittel 4.4: Forventning og varians til stokastiske variable

Statistikk. Forkurs 2018

Verdens statistikk-dag.

Oppgaven består av 10 delspørsmål som anbefales å veie like mye, Kommentarer og tallsvar er skrevet inn mellom <<, >>, Oppgave 1

Da vil summen og gjennomsnittet være tilnærmet normalfordelte : Summen: X 1 +X X n ~N(nµ,nσ 2 ) Gjennomsnittet: X 1 +X

Eksamen i: Fys-2001 Statistisk fysikk og termodynamikk Dato: Tirsdag 26. februar 2013 Tid: Kl 09:00 13:00

Kp. 9.8 Forskjell mellom to forventninger

Betinget sannsynlighet

2. Hva er en sampelfordeling? Nevn tre eksempler på sampelfordelinger.

Fasit for tilleggsoppgaver

ARBEIDS- OG VELFERDSDIREKTORATET / KUNNSKAPSAVDELINGEN

ÅMA110 Sannsynlighetsregning med statistikk, våren 2008

TMA4240 Statistikk Høst 2009

Verdens statistikk-dag. Signifikanstester. Eksempel studentlån.

UNIVERSITETET I OSLO

Innledning. med folketallet. En primær utvalgsenhet består av en kommune eller i noen tilfeller av to eller flere mindre kommuner. Tettsteder med over

PRINSIPPER OG METODER FOR STATISTISK UTVALGSUNDERSØKELSER

Eksamensoppgave i TMA4240 Statistikk

HØGSKOLEN I STAVANGER

ST0202 Statistikk for samfunnsvitere

Eksamensoppgave i TMA4240 Statistikk

ECON2130 Kommentarer til oblig

Utvalgsfordelinger. Utvalg er en tilfeldig mekanisme. Sannsynlighetsregning dreier seg om tilfeldige mekanismer.

SOS1120 Kvantitativ metode. Regresjonsanalyse. Lineær sammenheng II. Lineær sammenheng I. Forelesningsnotater 11. forelesning høsten 2005

Kapittel 3: Studieopplegg

UNIVERSITETET I OSLO Matematisk Institutt

Kap. 5.2: Utvalgsfordelinger for antall og andeler

QED 1 7. Matematikk for grunnskolelærerutdanningen. Bind 2. Fasit kapittel 4 Statistikk og kvantitativ metode

TMA4245 Statistikk Eksamen august 2014

Interne notater STISK SENTRALBYRÅ

I enkel lineær regresjon beskrev linja. μ y = β 0 + β 1 x

Løsningsforslag. og B =

Gruppe 1 Gruppe 2 Gruppe a) Finn aritmetisk gjennomsnitt, median, modus og standardavvik for gruppe 2.

TMA4240 Statistikk Høst 2016

Frivillig respons utvalg

Løsningskisse for oppgaver til undervisningsfri uke 14 (6.-9. april)

Eksamensoppgave i TMA4245 Statistikk

TMA4245 Statistikk Eksamen desember 2016

Multippel regresjon. Her utvider vi perspektivet for enkel lineær regresjon til også å omfatte flere forklaringsvariable x 1, x 2,, x p.

TMA4240 Statistikk Høst 2009

TMA4240 Statistikk Eksamen desember 2015

Transkript:

IO 651 Oslo, 16. november 1965 Vareandels statistikken Ny estimeringsmetode 1963 - alternativ metode og noen generelle kommentarer av Hans Olav Egede Larssen Innold 1. En brøkestimat-variant av "korrigerte gjennomsnitts metode". 1.1. Begrunnelse 1.. Bruttovariansen 1.3. Sammenligning mellom de to varianter av "korrigerte gjennomsnitts metode". Tabeller. Skjeveter som adderes opp ved summering over alle omsetningsgrupper. Ikke for offentliggjøring. Dette notat er et arbeidsdokument og kan siteres eller refereres bare etter spesiell tillatelse i vert. enkelt tilfelle. Synspunkter og konklusjoner kan ikke uten videre tas som uttrykk for Statistisk Sentralbyrås oppfatning.

Dette notat bor leses i direkte tilknytning til arbeidsnotat 10 6414 av 1116-64 vor nærmere beskrivelse av situasjonen er gitt. Notatet faller i deler. Under I. undersøkes en brokestimat-variant av "korrigerte gjennomsnitts metode". Under. kommer en viktig kommentar vedrørende skjeveter som kan oppstå ved summering over alle omsetningsgrupper, og særlig i forbindelse med "ukorrigerte gjennomsnitts metode". 1. En brokestimat-variant av "korrigerte gjennomsnitts metode" 1.1 0 Begrunnelse Aensikten er som før å finne best mulige estimater for vert aktuelt kjennetegn på undersøkelsestidspunkt. Ved"korrigerte gjennomsnitts metoden ble brukt estimatoren A A B = *y=k. y dvs.: Utvalgsgjennomsnitt innen omsetningsgruppe for ovedgruppe ble multiplisert med enkorreksjonsfaktor" for ver undergruppe (innen omsetningsgruppe). Denne faktor var foroldet mellom anslått forventning av totalomsetning innen omsetningsgruppe for undergruppe og tilsvarende størrelse for ovedgruppe - vor forventning er i relasjon til "bakenforliggende" fordeling for totalomsetning. Men estimatoren kan også skrives A B = og kan da oppfattes på en litt annen m&be: Undergruppe-forventning for totalomsetning multipliseres med (et overslag over) foroldet mellom gjennomsnitt for det annet kjennetegn og gjennomsnittlig totalomsetning innen ovedgruppen, altså et anslag over 4. Men denne størrelse kan også estimeres ved forold mellom bare utvalgsgjennomsnitt,. Og er x-er og y-er tilstrekkelig sterkt positivt 1E korrelert, vil det - etter den vanlige teori for brokformede estimatorer - være rimelig å vente at dette er et bedre estimat for n enn. Som estimator for B foreslås derfor: \ '\ B C. 1E praksis vil det ftest være slik at registeropplysninger og tall fra tellingen refererer til forskjellige tidspunkter. Men dette innebærer at x ikke kan finnes (vis Aet da ikke direkte er spurt etter omsetning på siste revisjonstidspunkt for registeret).

3 Derimot kjennes utvalgsgjennomsnitt for omsetning på tellingstidspunkt. Dette betegnes med Folgende betegnelser brukes: "Bakenforliggendej; populasjon Gjennomsnitt for totalomsetning på kjennetegn som skal revisjons- tellings- undersøkes på tel - tidspunkt tidspunkt lingstidspunkt Faktisk, endelig, populasjoni IT Utvalg Varianser cr- w Tim Tilsvarende betegnelser blir brukt innen vert stratum, altså n oav. y.t 3E. estimatoren B blir som skal undersokes nærmere: nå -i erstattet med z. Derved fås en estimator 71 = (Her sees det bort fra at E, bestemmes ut fra registeret ved anslaget 1.. Bruttovariansen Som mål for avvikelse fra B skal bruttovariansen finnes. Forst bestemmes forventet kvadrert avvik fra B for et gitt stratum, (undergruppe nr., innen omsetningsgruppe nr g, vor gen er utelatt). E -- E _i ) E - (-0 )1} E ) E( '-iz )(7- T) ) ( )11 "i* ".'* ) (De øvrige ledd forsvinner elt eller tilnærmet under forventningstegnet fordi E B = rj og E ) Nä gjøres tilnærmelsen og da blir videre:

rvar -e. L C C 0 V Gi c ) LLov -1-37 ) _ _) E B ) it - 7- coy c7, -) 4. (.1 ) var z 11-11 ) )) ) -e var B ) ll T ) w T - e.8. T (A) + 'a e -6. ) 1 oq ) betegner korrelasjon mellom undersokt kjennetegn og totalomsetning på tellingstidspunktet, enoldsvis totalt (innen omsetningsgruppe nr. g) og for stratum nr.. T, w, er varianser innen stratum nr.. og andre tilsvarende betegnelser. Da flies, med lignende tilnærmelser som for /IN i ledd av orden N E Som i tidligere notat forutsettes er at alle strata er like store. Det totale antall eneter, N I er fordelt på L strata a N I eneter. Tilsvarende gjelder for antall utvalgseneter, n og nl, som tenkes trukket under proporsjonal allokering. Forventet avvikelse tatt over alle strata skal så finnes: E = E E Y, _ T3- ) Som i det tidligere notat innføres T = E T b (T T 4- ) T 1 b 1 E., 4- ---13 e n 1 :'I w T -. E 0) T (,) (4.) w - T w N 1 +T - b () * *- () 4E) 4)

1.3. Sammenligning mellom de to varianter av "korrigerte gjennomsnitts metode". Tabeller. A For= fl = o 7. 7717.7 y var T w 1 + ) n. N,n). a_ T b -T-1 G-b T b \(, Betingelsen for at brokestimatet B la skal være bedre enn B kan skrives: E - E 1 0 og dette gir: - T 1 ( IL b W.41 n n.(- co ) -1. (-. LL T (+. O)) ) A n -4 1 't -+ 0. ( * * 4 W T W C W 4-.9) < o.4, M T w.17117.111.7117, A VT O.) NA antas at foroldet mellom "gjennomsnittlig" varians innen stratum og total varians er av samme størrelsesorden for undersøkt kjennetegn som for omsetning på undersøkelsestidspunkt. Dvs.: Etter innføring av :L:, fl, fes da, idet N -1 -,--.. a = utvalgsbroken, felles for alle strata, 0---., - 1 + - (1 - C p + 0 ) + ---i-ü ( - C +0 ' 0 ).0. -e. - a ( 1 1 \,)E,. + a + n C k \.-T). -.... w 0 Her kan bestemmes vilke restriksjoner uliketen legger på verdisett av (,) og 0. del følgende betraktes det tilfelle at foroldet mellom covarianc' innen stratum og total covarians er lik det tilsvarende forold for variansene, altså: W T W W W T

Dette gir W T 0 W T ww = dvs., t i altså at "gjennomsnittlig" korrelasjon innen stratum er lik total korrelasjon. Det er ikke urimelig at dette kan gjelde med tilnærmelse for strata som alle ar felles grense oppad og nedad etter størrelsen av en variabel, totalomsetning. Uliketen vil da gi at - 1 - (1-1)., E, C + e..1) a Anta nå at endringene mellom registerrevisjon og tellingstidspunkt er relativt smg, altså at ;79&1. Da blir leddene som inneolder - 1 og - 1 små i forold til andre ledd og kan derfor sløyfes. Derimot blir -4 4? - 1). multiplisert med n og vil derfor lett spille inn all den stund n må forutsettes g være relativt stor, I det undersøkte, konkrete, _ tilfelle er også av størrelsesorden 10 og oppover. Leddet n. mg derfor beolder, og man far: a- '13 (s 1 + + n f ) cr- b 1 + -7- - a or- o- Man kan skrive: e - o- o- 0- b er i det konkrete tilfelle av størrelsesorden ca. 0,06, og rz tilnærmet e- a - o- 7 'b av orden 0,01. Dvs.: ---- er av størrelsesorden 0,0006. Det er derfor e cyforsvarlig g se 'bort fra -, ---- selv om den skulle kunne øke betydelig. Derfor ' -48 kan i det foreliggende tilfelle settes 1 + n

T w Er nå også -7 nar lik 1-a, og man får av orden (1-0,01) - 0,99, blir 1 svart C w 7j- Tilfellet C = = 1 fl betraktes nå spesielt. Det skulle ikke vare noe dårlig grunnlag for en vurdering, og resultater for C 1 vil kunne fåes ved enkel multiplikasjon. De følgende tabeller er derfor beregnet under forutsetning av at C - 1. (1) Tabell 1 A gir - med utgangspunkt i en-- - verdi tilsvarende-- i C engros, omsetningsgruppe - tallene for 1 ( i + n ) som funksjon av total utvalgsstørrelse n og som funksjon av 100. absoluttverdi av endring fra revisjonstidspunkt til tellingstidspunkt i prosent av verdi på tellingstidspunkt. tabell 1 B og 1 C er gitt.e) 1 + w for de samme n og 100 0,05 og 0,0. Tallene angir størrelser som - -,& og for to utvalgsbrøker, a, enoldsvis ) - korrelasjon mellom totalomsetning på tellingstidspunkt og undersøkt kjennetegn - mg overstige for at B = C x skal vare bedre enn =. -- Y (brokestimat) (korrigerte gjennomsnitt, opprinnelige versjon). Tabell 1 A kan oppfattes tilsvarende for tilfellet a 0. For praktiske formål er det nyttig g a " D minimum" som funksjon av antall strata, L, og totalt antall eneter pr stratum som etter forutsetningene er konstant N]I tabell 1 B og 1 C er det derfor innført verdisett av L og N 1 som sammen med a 0,05 eller a 0,0 gir den i ver orisontalrad oppgitte verdi av n.

8 Tabell 1 A-C Størrelse som korrelasjonen mellom undersøkt kjennetegn og omsetning på, tellingstidspunkt må overstige for at brokestimatet B være bedre enn den tidligere versjon av korrigerte gjennomsnitt" - estimat,b 11. Antall strata = L Totalt antall eneter pr. stratum = N 1 Taboll 1 A. Utvalgsbrok a = 0 E - 100 - I ' n 0, 0 5 0 0 3,5 5,0 10 0,500 0,50 0,509 0,533 0,601 0,707 0 0,501 0,504 0,517 0,566 0,703 0,914 50 0,50 0,510 0,541 0,666 jtõö6 1,533 1001 0,503 0,51 0,583 0,631,1,513,567 00 1 0,507 0,54 0,666 j 1,-161, 554,633 500j 0,517 0,603 0,914,153 5,565 10,833 1000 0,533 0,706 11,38 3,805 10,65 1,166 Tabell 1 B. Utvalgsbrok a - 0,05, dvs. 5 prosent utvalg L=10 L=30 100 I N n - 0 0 5 J. 0,0 1N1 3, 5,0 0 0,561 7 10 0,57 0,59 0,536 0,6330,744 40 13 0 100 33 50 00 67 100 400 133 00 1000 333 500 000 667 1000 0,58 0,59 0,530 0,534 0,544 0,561 0,531 0,544 0,537 0,570 0,549 0,614 0,571 0,701 0,635 0 96 1 0,743 0,596 0 740 0,96 0,701 1 0,875

Tabell 1 C. Utvalgsbrok a = 0,0, dvs. 0 prosent utvalg L=10 L=30 100-4 N I N, n 0, ',5 1,0 _ 10 0,65 0,68 0,636 0,666 0,751 0,884 10 3 0 0,66 0,630 0,646 0,708 0,879 I 1,143 5 8 50 0,68 0,638 0,676 0,833 50 17 100 0,69 0,651 0,79 j 1,039 100 33 00 0, 6 34 0,679 0,833 50 83 500 0,645 0,754 1,143 500 167 1000 0,666 0,883 Resultatene gjelder under de presiserte forutsetninger. Men de burde også kunne gi en pekepinn under de forold som er i praksis. Det ligger derfor near å trekke omtrent disse konklusjoner: Hvis endringene totalomsetning) fra siste regi-terrevis on til tellingstids)unkt er svært små f.eks. 0, rosenter brokestimatet g trekke såsant ikke er mindre enn 0,55 o 0,65 for enoldsvis a = 0,05 0. 0,0. Mcd - 0,05 er brokestimatet of.så konkurransedyk t ig for noe storre verdier av endrings rosenten inntil ca. 1 rosent Lite antall strata oker også brukbareten av metoden. Hvis endringene er noe storre og f.eks. oppe i 5 10 prosent bo r foretrekkes den tidlicfze vet_ljon av,,korrigerte gjennomsnitts metode", og med klassifisering av enetene etter registeropplysni nger.. Skjeveter som adderes opp ved summering over alle omsetningsgrupper Utgangspunktet for vurdering av de forskjellige estimeringsmetoder ar ittil vært egenskapene ved estimater for gjennomsnitt_a innenaltielllgruppe for ver næringsgruppe (undergruppe). Vurderingen ar bygget på vordan metodene ville virke stort sett når alle undergrupper ar vært betraktet under ett. Den metode ar vært ansett som best som ga minste Vennomsnittlige (kvadrerte) avvikelser fra u sann" verdi i næringsgruppe innen omsetningsgruppe. Nå er man imidlertid interessert i totaler for ele næringsgrupper (undergrupper). Man multipliserer da gjennomsnitt innen omsetningsgruppe for vedkommende næring med antall bedrifter - entet fra registeret - og summerer

10 over a116 omsetningsgrupper. Vil da de resultater som er utledet for en omsetningsgruppe fremdeles være gyldige, eller kan det tenkes at summeringen bringer endringer i foroldet mellom estimeringsmetodene Hvis alle estimatene var forventningsrette, ville ingen problemer oppstå. Men i virkeligeten er både "ukorrigerte" og begge versjoner av "korrigerte gjennomsnitt" estimater vanligvis er belastet med skjevet. Bare metoden med rent - nå stratumveiet.ennomsnitt gir forventningsrette estimater (forutsatt at antall bedrifter entet fra registeret er identisk med det antall de beregnede gjennomsnitt er basert på). Ukorrigerte gjennomsnitt er belastet med skjevet. Forventning av estimat i undergruppe er popula-jonsgjennomsnitt i ovedgruppe for vedkommende omsetningsgruppe. Nå er det forutsatt at totalomsetning ar logaritmisk-normal fordeling. Anta lignende fordeling for kjennetegn som skal undersøkes.. Forutsett spesielt at den logaritmisk-normale fordeling innen undergruppe og den innen ovedgruppe ar samme spredningsparameter e. Hvis da medianen i fordeling innen ayedgruppe er f.eks. storre enn i den aktuelle undergruppe, vil man i alle omsetningsgrupper få at forventning i ovedgruppe er litt storre enn forventning i undergruppe. Brukes så utvalgsgjennomsnitt innen ovedgruppe som estimat for populasjonsgjennomsnitt i undergruppe, vil man innen alle omsetningsgrupper lope stor risiko for (i dette tilfelle) overestimering. Ved addisjon over alle omsetningsgrupper, vil skjeveter som sterkt tenderer i samme retning lett fore til betydelig skjevet på summer. Problemet synes sterkt redusert ved bruk av korrigerte gjennomsnitt. "korreksjonen" av ovedgruppegjennomsnittet (T) med totalomsetning innen undergruppe dividert med totalomsetning innen ovedgruppe, som anslås ved eller bør rimeligvis motvirke systematiske skjeveter. Skjeveten 7 innen omsetningsgruppe er 0 med bruk av "korreksj rbfaktoren" vis B A = 1/1 B B - -, som også kan skrives AA A IT C... ---... na... i..-. Nærmere analyse må utstå, Men den konklusjon må i vert fall kunne trekkes at når man ønsker estimat for ennomsnitt eller totaler o stått ved summering over alle, or:risetnin s ru er te ner tabell IA - 10 i et for lyst bilde av va som kan ventes metode, notat av 11-6 nådd ved ukorri erte ennomsnitts