Varehandels statistikken. Ny estimeringsmetode alternativ metode. og noen generelle kommentarer. av Hans Olav Egede Larssen.

IO 651 Oslo, 16. november 1965 Vareandels statistikken Ny estimeringsmetode 1963 - alternativ metode og noen generelle kommentarer av Hans Olav Egede Larssen Innold 1. En brøkestimat-variant av "korrigerte gjennomsnitts metode". 1.1. Begrunnelse 1.. Bruttovariansen 1.3. Sammenligning mellom de to varianter av "korrigerte gjennomsnitts metode". Tabeller. Skjeveter som adderes opp ved summering over alle omsetningsgrupper. Ikke for offentliggjøring. Dette notat er et arbeidsdokument og kan siteres eller refereres bare etter spesiell tillatelse i vert. enkelt tilfelle. Synspunkter og konklusjoner kan ikke uten videre tas som uttrykk for Statistisk Sentralbyrås oppfatning.

Dette notat bor leses i direkte tilknytning til arbeidsnotat 10 6414 av 1116-64 vor nærmere beskrivelse av situasjonen er gitt. Notatet faller i deler. Under I. undersøkes en brokestimat-variant av "korrigerte gjennomsnitts metode". Under. kommer en viktig kommentar vedrørende skjeveter som kan oppstå ved summering over alle omsetningsgrupper, og særlig i forbindelse med "ukorrigerte gjennomsnitts metode". 1. En brokestimat-variant av "korrigerte gjennomsnitts metode" 1.1 0 Begrunnelse Aensikten er som før å finne best mulige estimater for vert aktuelt kjennetegn på undersøkelsestidspunkt. Ved"korrigerte gjennomsnitts metoden ble brukt estimatoren A A B = *y=k. y dvs.: Utvalgsgjennomsnitt innen omsetningsgruppe for ovedgruppe ble multiplisert med enkorreksjonsfaktor" for ver undergruppe (innen omsetningsgruppe). Denne faktor var foroldet mellom anslått forventning av totalomsetning innen omsetningsgruppe for undergruppe og tilsvarende størrelse for ovedgruppe - vor forventning er i relasjon til "bakenforliggende" fordeling for totalomsetning. Men estimatoren kan også skrives A B = og kan da oppfattes på en litt annen m&be: Undergruppe-forventning for totalomsetning multipliseres med (et overslag over) foroldet mellom gjennomsnitt for det annet kjennetegn og gjennomsnittlig totalomsetning innen ovedgruppen, altså et anslag over 4. Men denne størrelse kan også estimeres ved forold mellom bare utvalgsgjennomsnitt,. Og er x-er og y-er tilstrekkelig sterkt positivt 1E korrelert, vil det - etter den vanlige teori for brokformede estimatorer - være rimelig å vente at dette er et bedre estimat for n enn. Som estimator for B foreslås derfor: \ '\ B C. 1E praksis vil det ftest være slik at registeropplysninger og tall fra tellingen refererer til forskjellige tidspunkter. Men dette innebærer at x ikke kan finnes (vis Aet da ikke direkte er spurt etter omsetning på siste revisjonstidspunkt for registeret).

3 Derimot kjennes utvalgsgjennomsnitt for omsetning på tellingstidspunkt. Dette betegnes med Folgende betegnelser brukes: "Bakenforliggendej; populasjon Gjennomsnitt for totalomsetning på kjennetegn som skal revisjons- tellings- undersøkes på tel - tidspunkt tidspunkt lingstidspunkt Faktisk, endelig, populasjoni IT Utvalg Varianser cr- w Tim Tilsvarende betegnelser blir brukt innen vert stratum, altså n oav. y.t 3E. estimatoren B blir som skal undersokes nærmere: nå -i erstattet med z. Derved fås en estimator 71 = (Her sees det bort fra at E, bestemmes ut fra registeret ved anslaget 1.. Bruttovariansen Som mål for avvikelse fra B skal bruttovariansen finnes. Forst bestemmes forventet kvadrert avvik fra B for et gitt stratum, (undergruppe nr., innen omsetningsgruppe nr g, vor gen er utelatt). E -- E _i ) E - (-0 )1} E ) E( '-iz )(7- T) ) ( )11 "i* ".'* ) (De øvrige ledd forsvinner elt eller tilnærmet under forventningstegnet fordi E B = rj og E ) Nä gjøres tilnærmelsen og da blir videre:

rvar -e. L C C 0 V Gi c ) LLov -1-37 ) _ _) E B ) it - 7- coy c7, -) 4. (.1 ) var z 11-11 ) )) ) -e var B ) ll T ) w T - e.8. T (A) + 'a e -6. ) 1 oq ) betegner korrelasjon mellom undersokt kjennetegn og totalomsetning på tellingstidspunktet, enoldsvis totalt (innen omsetningsgruppe nr. g) og for stratum nr.. T, w, er varianser innen stratum nr.. og andre tilsvarende betegnelser. Da flies, med lignende tilnærmelser som for /IN i ledd av orden N E Som i tidligere notat forutsettes er at alle strata er like store. Det totale antall eneter, N I er fordelt på L strata a N I eneter. Tilsvarende gjelder for antall utvalgseneter, n og nl, som tenkes trukket under proporsjonal allokering. Forventet avvikelse tatt over alle strata skal så finnes: E = E E Y, _ T3- ) Som i det tidligere notat innføres T = E T b (T T 4- ) T 1 b 1 E., 4- ---13 e n 1 :'I w T -. E 0) T (,) (4.) w - T w N 1 +T - b () * *- () 4E) 4)

1.3. Sammenligning mellom de to varianter av "korrigerte gjennomsnitts metode". Tabeller. A For= fl = o 7. 7717.7 y var T w 1 + ) n. N,n). a_ T b -T-1 G-b T b \(, Betingelsen for at brokestimatet B la skal være bedre enn B kan skrives: E - E 1 0 og dette gir: - T 1 ( IL b W.41 n n.(- co ) -1. (-. LL T (+. O)) ) A n -4 1 't -+ 0. ( * * 4 W T W C W 4-.9) < o.4, M T w.17117.111.7117, A VT O.) NA antas at foroldet mellom "gjennomsnittlig" varians innen stratum og total varians er av samme størrelsesorden for undersøkt kjennetegn som for omsetning på undersøkelsestidspunkt. Dvs.: Etter innføring av :L:, fl, fes da, idet N -1 -,--.. a = utvalgsbroken, felles for alle strata, 0---., - 1 + - (1 - C p + 0 ) + ---i-ü ( - C +0 ' 0 ).0. -e. - a ( 1 1 \,)E,. + a + n C k \.-T). -.... w 0 Her kan bestemmes vilke restriksjoner uliketen legger på verdisett av (,) og 0. del følgende betraktes det tilfelle at foroldet mellom covarianc' innen stratum og total covarians er lik det tilsvarende forold for variansene, altså: W T W W W T

Dette gir W T 0 W T ww = dvs., t i altså at "gjennomsnittlig" korrelasjon innen stratum er lik total korrelasjon. Det er ikke urimelig at dette kan gjelde med tilnærmelse for strata som alle ar felles grense oppad og nedad etter størrelsen av en variabel, totalomsetning. Uliketen vil da gi at - 1 - (1-1)., E, C + e..1) a Anta nå at endringene mellom registerrevisjon og tellingstidspunkt er relativt smg, altså at ;79&1. Da blir leddene som inneolder - 1 og - 1 små i forold til andre ledd og kan derfor sløyfes. Derimot blir -4 4? - 1). multiplisert med n og vil derfor lett spille inn all den stund n må forutsettes g være relativt stor, I det undersøkte, konkrete, _ tilfelle er også av størrelsesorden 10 og oppover. Leddet n. mg derfor beolder, og man far: a- '13 (s 1 + + n f ) cr- b 1 + -7- - a or- o- Man kan skrive: e - o- o- 0- b er i det konkrete tilfelle av størrelsesorden ca. 0,06, og rz tilnærmet e- a - o- 7 'b av orden 0,01. Dvs.: ---- er av størrelsesorden 0,0006. Det er derfor e cyforsvarlig g se 'bort fra -, ---- selv om den skulle kunne øke betydelig. Derfor ' -48 kan i det foreliggende tilfelle settes 1 + n

T w Er nå også -7 nar lik 1-a, og man får av orden (1-0,01) - 0,99, blir 1 svart C w 7j- Tilfellet C = = 1 fl betraktes nå spesielt. Det skulle ikke vare noe dårlig grunnlag for en vurdering, og resultater for C 1 vil kunne fåes ved enkel multiplikasjon. De følgende tabeller er derfor beregnet under forutsetning av at C - 1. (1) Tabell 1 A gir - med utgangspunkt i en-- - verdi tilsvarende-- i C engros, omsetningsgruppe - tallene for 1 ( i + n ) som funksjon av total utvalgsstørrelse n og som funksjon av 100. absoluttverdi av endring fra revisjonstidspunkt til tellingstidspunkt i prosent av verdi på tellingstidspunkt. tabell 1 B og 1 C er gitt.e) 1 + w for de samme n og 100 0,05 og 0,0. Tallene angir størrelser som - -,& og for to utvalgsbrøker, a, enoldsvis ) - korrelasjon mellom totalomsetning på tellingstidspunkt og undersøkt kjennetegn - mg overstige for at B = C x skal vare bedre enn =. -- Y (brokestimat) (korrigerte gjennomsnitt, opprinnelige versjon). Tabell 1 A kan oppfattes tilsvarende for tilfellet a 0. For praktiske formål er det nyttig g a " D minimum" som funksjon av antall strata, L, og totalt antall eneter pr stratum som etter forutsetningene er konstant N]I tabell 1 B og 1 C er det derfor innført verdisett av L og N 1 som sammen med a 0,05 eller a 0,0 gir den i ver orisontalrad oppgitte verdi av n.

8 Tabell 1 A-C Størrelse som korrelasjonen mellom undersøkt kjennetegn og omsetning på, tellingstidspunkt må overstige for at brokestimatet B være bedre enn den tidligere versjon av korrigerte gjennomsnitt" - estimat,b 11. Antall strata = L Totalt antall eneter pr. stratum = N 1 Taboll 1 A. Utvalgsbrok a = 0 E - 100 - I ' n 0, 0 5 0 0 3,5 5,0 10 0,500 0,50 0,509 0,533 0,601 0,707 0 0,501 0,504 0,517 0,566 0,703 0,914 50 0,50 0,510 0,541 0,666 jtõö6 1,533 1001 0,503 0,51 0,583 0,631,1,513,567 00 1 0,507 0,54 0,666 j 1,-161, 554,633 500j 0,517 0,603 0,914,153 5,565 10,833 1000 0,533 0,706 11,38 3,805 10,65 1,166 Tabell 1 B. Utvalgsbrok a - 0,05, dvs. 5 prosent utvalg L=10 L=30 100 I N n - 0 0 5 J. 0,0 1N1 3, 5,0 0 0,561 7 10 0,57 0,59 0,536 0,6330,744 40 13 0 100 33 50 00 67 100 400 133 00 1000 333 500 000 667 1000 0,58 0,59 0,530 0,534 0,544 0,561 0,531 0,544 0,537 0,570 0,549 0,614 0,571 0,701 0,635 0 96 1 0,743 0,596 0 740 0,96 0,701 1 0,875

Tabell 1 C. Utvalgsbrok a = 0,0, dvs. 0 prosent utvalg L=10 L=30 100-4 N I N, n 0, ',5 1,0 _ 10 0,65 0,68 0,636 0,666 0,751 0,884 10 3 0 0,66 0,630 0,646 0,708 0,879 I 1,143 5 8 50 0,68 0,638 0,676 0,833 50 17 100 0,69 0,651 0,79 j 1,039 100 33 00 0, 6 34 0,679 0,833 50 83 500 0,645 0,754 1,143 500 167 1000 0,666 0,883 Resultatene gjelder under de presiserte forutsetninger. Men de burde også kunne gi en pekepinn under de forold som er i praksis. Det ligger derfor near å trekke omtrent disse konklusjoner: Hvis endringene totalomsetning) fra siste regi-terrevis on til tellingstids)unkt er svært små f.eks. 0, rosenter brokestimatet g trekke såsant ikke er mindre enn 0,55 o 0,65 for enoldsvis a = 0,05 0. 0,0. Mcd - 0,05 er brokestimatet of.så konkurransedyk t ig for noe storre verdier av endrings rosenten inntil ca. 1 rosent Lite antall strata oker også brukbareten av metoden. Hvis endringene er noe storre og f.eks. oppe i 5 10 prosent bo r foretrekkes den tidlicfze vet_ljon av,,korrigerte gjennomsnitts metode", og med klassifisering av enetene etter registeropplysni nger.. Skjeveter som adderes opp ved summering over alle omsetningsgrupper Utgangspunktet for vurdering av de forskjellige estimeringsmetoder ar ittil vært egenskapene ved estimater for gjennomsnitt_a innenaltielllgruppe for ver næringsgruppe (undergruppe). Vurderingen ar bygget på vordan metodene ville virke stort sett når alle undergrupper ar vært betraktet under ett. Den metode ar vært ansett som best som ga minste Vennomsnittlige (kvadrerte) avvikelser fra u sann" verdi i næringsgruppe innen omsetningsgruppe. Nå er man imidlertid interessert i totaler for ele næringsgrupper (undergrupper). Man multipliserer da gjennomsnitt innen omsetningsgruppe for vedkommende næring med antall bedrifter - entet fra registeret - og summerer

10 over a116 omsetningsgrupper. Vil da de resultater som er utledet for en omsetningsgruppe fremdeles være gyldige, eller kan det tenkes at summeringen bringer endringer i foroldet mellom estimeringsmetodene Hvis alle estimatene var forventningsrette, ville ingen problemer oppstå. Men i virkeligeten er både "ukorrigerte" og begge versjoner av "korrigerte gjennomsnitt" estimater vanligvis er belastet med skjevet. Bare metoden med rent - nå stratumveiet.ennomsnitt gir forventningsrette estimater (forutsatt at antall bedrifter entet fra registeret er identisk med det antall de beregnede gjennomsnitt er basert på). Ukorrigerte gjennomsnitt er belastet med skjevet. Forventning av estimat i undergruppe er popula-jonsgjennomsnitt i ovedgruppe for vedkommende omsetningsgruppe. Nå er det forutsatt at totalomsetning ar logaritmisk-normal fordeling. Anta lignende fordeling for kjennetegn som skal undersøkes.. Forutsett spesielt at den logaritmisk-normale fordeling innen undergruppe og den innen ovedgruppe ar samme spredningsparameter e. Hvis da medianen i fordeling innen ayedgruppe er f.eks. storre enn i den aktuelle undergruppe, vil man i alle omsetningsgrupper få at forventning i ovedgruppe er litt storre enn forventning i undergruppe. Brukes så utvalgsgjennomsnitt innen ovedgruppe som estimat for populasjonsgjennomsnitt i undergruppe, vil man innen alle omsetningsgrupper lope stor risiko for (i dette tilfelle) overestimering. Ved addisjon over alle omsetningsgrupper, vil skjeveter som sterkt tenderer i samme retning lett fore til betydelig skjevet på summer. Problemet synes sterkt redusert ved bruk av korrigerte gjennomsnitt. "korreksjonen" av ovedgruppegjennomsnittet (T) med totalomsetning innen undergruppe dividert med totalomsetning innen ovedgruppe, som anslås ved eller bør rimeligvis motvirke systematiske skjeveter. Skjeveten 7 innen omsetningsgruppe er 0 med bruk av "korreksj rbfaktoren" vis B A = 1/1 B B - -, som også kan skrives AA A IT C... ---... na... i..-. Nærmere analyse må utstå, Men den konklusjon må i vert fall kunne trekkes at når man ønsker estimat for ennomsnitt eller totaler o stått ved summering over alle, or:risetnin s ru er te ner tabell IA - 10 i et for lyst bilde av va som kan ventes metode, notat av 11-6 nådd ved ukorri erte ennomsnitts