IO 74/ november 1974

IO 74/49 6. november 1974 ESTIMERING V TOTLER MED EN T0-TRINNS UTVLGSPLN DER DE PRIMÆRE UTVLGSOMRÅDER TREKKES MED ULIK SNNSYNLIGHET I FØRSTE TRINN av Petter Laake Side 1. Generelt om Byråets nye utvalgsplan 1. Spesielle definisjoner notasjoner 1 3. Estimering av populasjonstotalen variansen til estimatoren 4. Estimering av variansen............. 5 5. Selvveiende utvalg 7 6. Særtilfellet med kommuner som utgjør egne strata 7 7. Estimering av variansen når m i =1 for alle i 9 8. Forandringer i formlene når utvalget er selvveiende 11 Referanser......... 1 Ikke for offentliggjøring. Dette notat er et arbeidsdokument kan siteres eller refereres bare etter spesiell tiliatelse i hvert enkelt tilfelle. Synspunkter konklusjoner kan ikke uten videre tas som uttrykk for Statistisk Sentralbyrås oppfatning.

1. Generelt o Byråets nye utvalgsplan I likhet med den gamle utvalgsplanen trekkes så utvalget i den nye utvalgsplanen i to trinn. På forste trinn trekkes gerafiske omrader, primære utvalgsområder, som er faste fra undersøkelse til undersokelse. De enhetene som skal intervjues, trekkes så fra et register over befolkningen i de uttrukne utvalgsområdene. I Byråets nye standard utvalgsplan er kommunene valgt som primære utvalgsområder. Kommuner med færre enn 3 000 innbyggere slåes sammen med andre kommuner slik at det er minst 3 000 innbyggere innen hvert utvalgsområde. Utvalgsområdene er så stratifisert etter kommunetype innbyggerantall. Byer med over 30 000 innbyggere er tatt ut som egne strata, utvalget i disse er trukket rent lotterisk. En oversikt over stratifiseringen er gitt i Thomsen Rideng (1974). Formålet med dette notatet er å angi en estimator for populasjonstotalen i hele landet å angi en estimator for variansen til denne. I avsnittene 3 studerer vi en estimator for en populasjonstotal når utvalgsplanen er en stratifisert to-trinns utvalgsplan, det trekkes minst to utvalgsområder fra hvert stratum. I Byråets nye utvalgsplan trekkes imidlertid bare ett utvalgsområde fra hvert stratum. For dette tilfellet finnes ingen forventningsrett estimator for variansen, vi har derfor i avsnitt 7 angitt en tilnærmet forventningsrett estimator funnet skjevheten til denne estimatoren. Strataene som be står av byer med over 30 000 innbyggere krever en spesiell diskusjon som er foretatt i avsnitt 6.. Spesielle definisjoner o notasjoner Som nevnt innledningsvis betrakter vi i dette avsnittet tilfellet når bestanden er stratifisert, det trekkes minst to utvalgsområder fra hvert stratum. Notasjonen i det folgende er stort sett i samsvar med tioern (1973).ViantaratdeterICutvalgsområder i i-te stratum. Det i-teavcassellarn.(j) trekkeenheter, den k-te trekkeenheten har verdien a-(j,k) på det vi måler. Vi lar N. = E N.(j), J N. = E N., i i a.(j) = E a.(j,k), 1k 1

ai(j) = a. = J a. = a./m. i 1' a =Ea. =EEEa.(j,k). Vi nsker å estimere totalverdien a. Istratumitrekkerviutm.avdeM.utvalgsområdene. La Tr i (j) være sannsynligheten for at utvalgsområde j i stratum i blir trukket ut, la 7 (j,k) være i sannsynligheten for at både utvalgsområde j k i stratum i skal bli trukket ut. La J. J...., J. være numrene på de utvalgsområdene som 11' 1' imi blir trukket ut i stratum i la J=(J... J. J...) være numrene rt,11' 1 imi' 1' på alle de uttrukne utvalgsområdene. Fra hvert uttrukne utvalgsområde trekkes et gitt antall trekkeenheter rent lotterisk. La n(j) n. (J) ij (k) være totalt antall trekkeenheter i henholdsvis hele utvalget i utvalget i j-te utvalgsområde i stratum i. Numreue på de enhetene som blir trukket ut fra utvalgsområde K. i stratum i, betegner vi med..., vi lar ij l' 1 j, X. = a.(j, ), ijs i js R. = E X.. /n..(j). ij ijs ij Vi innfører indeksvariabelen [I 1 dersom utvalgsområde j i stratum i er i utvalget, 0 ellers, Lar X. være gjennomsnittet for de n. (J) uttrukne trekkeenhetene i ij ij utvalgsområde j i stratum i. Dersom I.. =O er n. (J)=0, vi definerer X.=0. '-J 3. Estimering av populasjonstotalen variansen til estimatoren En estimator for totalen er

3 a = E E {I.. N.(j) R../7.0)1 1 1 (3.1) Sats : a er forventningsrett for a. Bevis: La V.. = N.(j) R... 1 31 Siden E {V.= 1 } = ij i j E {1... V..II..} = 1.. 1 (3.) er Herav folger at E {1.j V. } = 7.(j) a.(j). i i j E {I ij V ii br i (j)} = a i (j), satsen er dermed bevist. o Sett nå a. = E {I.. V../7.(j)}. J (3.3) Da er a = E a.. 1 La videre. 1. (3) =. N i E {a.(j,k) a i (j)} (j) -1 k 1. a ini(j)-n.. () T. j = n..(j) Ni(j) ij Dersom. I. =0, er n. (J)=0, T T. (J) er da udefinert. ij Sats. La a være definert ved (3.1). Da er

4,.7.0,k) - Tri (j) Tr i (k) i- ai (j) a i (k) 7i(j) Tr i ( k) i j k var a = E 1-1 E + Ei rli(j)/tri ( j)}] (3.4) i hvor.rli.(j) = E {N. (j) T ij WII ii = 1}. (3.5) i Bevis: Vi har umiddelbart fra (3.3) at var a.=evar{i V }/7.0. ) j 1 1 coy I.. V.., V. Tr i (j) 7 i (k ij k i (3.6) Videre er. var I. V. 1 I. = 1, J = = N i j) T. (4, 1 j 1 j 1 j 13 var I. V.. 1 I.. = E N. () j T.. (J) I I.. = 11 ij lj Iji1 j f\j 1 j = (3.7) Herav alger at var {I.. V.. I = I.. som. sammen med (3.) gir.. var {I ij V ii } = Tr i (j) n i (j) a ( j ) Tri(J) Det gjenstår å finne {1 - Tr i (j)}. (3.8) COV I. V. I. V. 1 = V.. I. V. } ij ij' ik ik ij ik ik ij V. E II. V. }. ij ik Vi har umiddelbart at slik at E {1.. V.. I. V. I I.., I. } = I. a, 0) a. k, ij ij ik ij ik E {I ij Vi j I ik V ik l = Tr i (j,k) a i (j) a i (k). (3.9)

5 Videre er som gir E {I. V..} E {I V.lk } = ff 1 (j) a.(j) 7.(k) a,(10, 1111 j ik coy {I ij V ij, I ik V ik ) = a i (j) a i (k) {Tr i (j,k) yj) yk)}. (3.10) Ved et resonnement tilsvarende (let i Roem (1973, side 1) finner vi at coy (a i, aj ) = 0 for i (3.11) (3.8), (3.10) var a (3.11) gir tilsammen = fe iff.(j) {1 -Tr.(j)} a.(i) "1. 7 i (j) n 1 (DID7T 1 (j) j+k E FE E i -3 k Tr i ( j) TiTIT7 ai(j) a i (k) Frr1(j1k) Tr i (i) Tri(k):} j,k) - 7T,(j)ff.(k) ai(j) a i (k) 7i(j) ffi(k) + E {î11(j) itr i (j)}, (3.1) dermed er satsenbevist. 4. Estimering av variansen Vi innforer storrelsene I.(j) S. ij (J) (\., = 1 E {X. - R.. } n. (J)-1 r,s lis1j S. (J) N.(j)-n.() T (J) - ji ii i (\., n. (J) j Ni(j) (4.1) (4.) Da er E {S.. Q) l I = 4), / i ( j ) = 1/ = E {T ij (.(1,) I = Ii(j) = 11 = T i 4).

6 Dermed er E {N. (j) T.. (J) I..1 = I.. T-1.(i), (1) E {N, (j) T ij ()} = 7 1 (j ) n i ( j). (4.3) Sats 3: En forventningsrett for var a er gitt ved 7.(j,k)-7..(j)ff.(k) 1.. V.. I. V. i i li ij ik 11( 1 est var a = E {E E 1. i. îr1 7. (j,k) 7. -,j) Tri(k)j i j k + E E {N. (j) T. (J) / 7..(j)1. (4.4) i i j i i j Bevis: v (4.3) folger at...-- EFEE { N. CDT.j ()/ 7T.0): i j 1 Ved sammen med (3.8) (3.9) a bruke at = E Z ì1.(j). i 1 - E CI.. V. } = var {I.. V..} - { E ri.. v..]). L., (4.5) finner vi j k ff.(j,k) -Tr.(j)Tr i (k) ffi(j,k) ir.(j,k) -Tri(j) î (k) = E E i j k ï1(ì) a(j) a i (k) (k) La E { n. (j ) / Tri (j)} - E n.(j). 1 j IfOlge (3.1) er dermed E est 1 var a = var a, satsener bevist. 1, 1 E {I. V.I. V. } Tr i (j) Tr i (k) ij ij ik ijk 1 dersom både utvalgsområdene j k i stratum i er i utvalget, 0 ellers.

7 Ved en enkel omforming av (4.4) kan est i var a dermed skrives 7i(j,k)-ffi(j) Tr i ( k) rv.i est vara=e{e 7i ( j,k) /ijk 1_7 1 :(j) i j <k V. ik yk) 1. (4.6) 5. Selvveiende utvalg Vi sier at utvalget er selvveiende dersom estimatoren (3.1) kan skrives på formen a - E. E I. 14 se X. lis. k q.,) jj (5.1) Vi lar n = E E n, (J) 5.) Væregitt.DerSOITI.=0, er n.. ()O. Vi oppnår at utvalget blir selvi veiende dersom bg) = Tri ( j) n..(0 / N i (j), b i ( ) = bq) / nii (0 = b i ( ) Ni (j) for alle i slik at Ved å bruke (5.) finner vi b ( ) = n / E E{I.. N.(j) / (5.3) 6. Særtilfellet med kommuner som utgjør egne strata Som nevnt innledningsvis er alle byer med flere enn 30 000 innbyggere tatt ut som egne strata. I disse strataene trekker vi ut enhetene rent lotterisk. nta at det er Ntrekkeenheter i stratum i. Den k-te Oi enheten i stratum i har verdien a Oi (k) på det vi maler. Tilsvarende til avsnittet foran innforer vi a0. = E a.(k), 01

8 a. =a. /N. 01 01 01 v de N0. enhetene trekkes et utvalg på noi q) = b(0 Noi trekkeenheter. De n (J) trekkeenhetene har numrene K K Oi 0i' La da X. =a.(k. ) Ois 01 Ois Xoi = E X. / n.0). Ois 01 rk, a. =N. X. 01 01 01 (6.1) blir altså en estimator for totalen. Tilsvarende til avsnittet foran defineres 1 a E {a0. (k) - O = Oi } i N -1 ' Oi k S. - 1E {X. - 1 ol n -1 Ois Oi * Oi s I folge Hoem (1973, side 17) er a Oi var a = Oi n Oi Laake (1974, side 3) har vist at N est var a. = S. N (- - 1), 01 01 0 n (6.) der N = E E iii (j) Ni ( j) / i i er en forventningsrett estimator for var a01. Oi En estimator for totalen i alle kommunene som utgjor egne strata er a = Ea. (6.3) 0. En forventningsrett estimator for totalen i hele landet blir dermed

9 a = a + a0 Siden coy (a, a0 )0, er en forventningsrett estimator for var a gitt ved est var a =esti var a + E est var a Ui d gitt ved (5.). 7. Estimering av variansen når m.=1 for alle i den nye utvalgsplanen er antall strata så stort at en ikke kan trekke mer enn ett utvalgsområde innenfor hvert stratum. I dette tilfellet kan vi ikke bruke (4.6) som estimator for variansen. Vi slår derfor sammen strata slik at hvert av de nye strataene inneholder minst to uttrukne utvalgsområder. Denne sammenslåingen må foretas for utvalgsområdene trekkes. En slik samling av sammenslåtte strata kaller vi en gruppe. nta at det er H grupper at der er Lh strata i gruppe h. I folge (3.3) er a i = {I ij V ij J I ff i (j)} (7.1) en forventningsrett estimator for totalen i stratum i. 'Som estimator for variansen (3.4) foreslår vi nå L h H Lh ^(a. - 1._ E a ). est var a = E ---- E. h=1 L h-1 1=1 h g=1 g Estimatoren er basert på at trekkingen på forste trinn i hver gruppe (7.) foregår med tilbakelegging. Estimatoren er derfor ildçe forventningsrett for variansen. Sats Skjevheten til estimatoren est var a er gitt ved E est var a - var a H, L b. = E - h=1 L h 1 L L h 1 h E (a. -- E a ). L i=1 h g=1 (7.3) Bevis: Vi definerer Lh ^ 1 W. = (a. - -- E a ). L g h g=1

- 10 Denne observatoren har forventning L h L h 1 EW. =E{(a. - Ea.) - (E a - E a) Lh g=1 g g=1 g L 1 h + (Ea. - - E a )} = E (a. L h g=1 ^ - Ea i ) L L h h h 1 Ea _ 1 + E (17ḡ 17 E a ) + (Ea.E a ) h g=1 h g=1 gh g=1 L h h - E (a i - Eai) 1 E (a - E a) "h g=1 g g=1 g L h L h = var a. + var (-E- E ag ) - coy (a i' L 1 7 h g=1 h g=1 ag) + (a i L h L. E a ). L g h g=1 I folge (3.11) er coy (a., a.)=0 for i+j, slik at L 1 h 7 EW. i = var a. i + var a _ var a. - L -=1 g 1 7 i g h h 1 L h + (a i - 17 E a ) h g=1 g Innsatt i (7.) gir dette Herav folger at L h ^ H L h Lh 1 E est var a = EE (a i - 17 ar,r) E L -1. h=1 h 1=1 h g=1 6 H L h + E E var a.. h=1 i=1 H Lh L h L 1 h E est var a - var a = E, cl -17-.717 E (a i - 1.7- E a g ) Lj h=1 h 1=1 h g=1 (7.3)

Vi ser altså at skjevheten til estimatoren (7.) er avhengig av differansen mellom populasjonstotalen i de strataene vi slår sammen. Dersom altså L L h h 1 E (a. - - E a ) = 0 for alle h, i=l 1 Lh g=1 g vil (7.) være forventningsrett for var a. 8. Forandringer i formlene når utvalget er selvveiende Dersom utvalget er selvveiende, folger det av (5.1) at 1 a. = - E I.. E X. b( ) jij ijs' slik at (7.) reduseres til H L h Lh estt vara= E 1 -,--zr E {E 1.. E X.. b ( ) h=1 s ij s h 1=1 j h - E E I.E X. }. ik ikr h g=1 k (8.1) En estimator for variansen til estimatoren for totalen i hele landet er gitt ved (1, est. var a = est var a + est var a f 0 der est var a er gitt ved (6.) (6.3) est var a er gitt ved (8.1). 0

1 Referanser: 11 Cochran, W.C. (1963): "Sampling Techniques". John Wiley & Sons, New York. 1] Hoem, Jan M. (1973): "Statistisk Sentralbyrås utvalgsundersøkelser. Elementer av det matematiske grunnlaget." SSB-artikkel nr. 58. Laake, Petter (1974): "Estimering av variansen til estimatoren for populasjonsverdien ao for Oslo i Byråets intervjuundersøkelser." rbeidsnotat IO 74/7. Thomsen, Ib Rideng, rne (1974): "Oversikt over arbeidet med ny utvalgsplan." rbeidsnotat 10 74/5.