Notater. Jan Henrik Wang. Frafall i konjunkturbarometeret. 2003/81 Notater 2003

2003/81 Notater 2003 Jan Henrk Wang Notater Frafall konjunkturbarometeret Avdelng for økonomsk statstkk/seksjon for økonomske ndkatorer Emnegruppe: 08.05.10

Innhold 1. Innlednng...3 2. Om undersøkelsen...3 2.1 populasjon, enheter og utvalg...3 2.2 Beregnngsopplegg og vektng av svar...4 2.2.1 På stratumnvå...4 2.2.2 På aggregerte nvåer...5 2.3 Interessevarabel...5 2.4 Analyseperode...6 3. Frafall Konjunkturbarometeret...7 3.1 Justerng for frafall...8 3.1.1 Vektng for enhetsfrafall...10 3.1.1.1 Drekte vektng...10 3.1.1.2 Estmerng under en kke-nformatv SHG-modell...11 3.1.1.3 Estmerng under en enkel nformatv SHG-modell...13 3.1.1.4 Kalbrerng av drekte vektng ved rateestmerng...15 3.1.2 Imputerng for partelt frafall...16 3.1.2.1 Imputerng fra 'nærmeste nabo'...17 3.1.2.2 Stokastsk mputerng under kke-nformatv SHG-modell (hot-deck)...18 3.1.2.3 Kalbrerng av estmat under mputerngsmodeller ved rateestmerng...19 3.1.3 Effekten av kalbrerng...21 4. Sammendrag...23 Referanser...25 Vedlegg 1. Tlpassnng av data...26 Vedlegg 2. Helt tlfeldg frafall...28 Vedlegg 3. Ikke-nformatv SHG-modell...30 Vedlegg 4. Informatv SHG-modell...31 Vedlegg 5. Rate-kalbrert drekte vektng...32 Vedlegg 6. Rate-kalbrert kke-nformatv SHG-modell...34 Vedlegg 7. Rate-kalbrert nformatv SHG-modell...36 Vedlegg 8. Imputerng fra 'nærmeste nabo'...38 Vedlegg 9. Imputerng med Hot-deck under kke-nf. SHG...39 Vedlegg 10. Rate-kalbrert med mputerng fra 'nærmeste nabo'...40 Vedlegg 11. Rate-kalbrert hot-deck mputerng...42 De sst utgtte publkasjonene seren Notater...44 1

1. Innlednng Dette notatet er skrevet forbndelse med kurset Frafall og mputerng (SM05). Notatet gr en emprsk analyse av ulke former for frafallsjusterng basert på de metoder som ble presentert kurset. Analysen er knyttet opp mot Konjunkturbarometeret (KBAR) for ndustr og bergverksdrft. Konjunkturbarometeret er en kvaltatv undersøkelse som kartlegger bedrftsledernes vurdernger av utvklngen for kjennetegn som produksjon, kapastetsutnyttng, sysselsettng, ordretlgang etter marked, prser, generell bedømmelse av utsktene m.m. Det norske konjunkturbarometeret ble utvklet 1973 og satt drft f.o.m. 1974. Gjennom det sste tåret har det europeske arbedet på dette området bltt harmonsert og admnstreres dag gjennom Drectorate General Economc and Fnancal Affars (DG ECFIN). I kapttel 2 vl v beskrve undersøkelsen og defnere nteresse varabel og analyseperode, vdere vl v kapttel 3 se på frafall Konjunkturbarometeret, herunder ulke former for justerng av frafall, før v avslutter med å oppsummere resultatene kapttel 4. 2. Om undersøkelsen 2.1 populasjon, enheter og utvalg Enheten undersøkelsen er defnert lk bransjeenheten, dvs. alle bedrfter et foretak som tlhører en og samme nærngshovedgruppe, dvs. alle enheter samme 3-sfret nærng (SN94) - vdere omtalt som bransje. I datafangstsammenheng blr observasjonsenheten satt tl største bedrft bransjeenheten, men det arbedes også med andre observasjonsenheter, f.eks. foretakets hovedkontor. Slke tlpasnnger skjer som regel samsvar med foretakenes egne ønsker, men kan også forekomme av andre årsaker. I analyse og for beregnngsformål er enheten satt lk bransjeenheten. Populasjon omfatter alle bransjeenheter nærngene bergverksdrft (SN94 10, 13-14) og ndustr (15-37). I etablerngen av trekkrammen holdes enheter der største bedrft har færre enn 10 sysselsatte utenfor. Populasjonen avgrenses ved alle bransjeenheter som er omfattet SSBs bedrfts- og foretaksregster. Bedrfts- og foretaksregsteret defnert ved stuasjonsfl 2. kvartal hvert år utgjør også rammen for ajourhold av utvalg. Den nye utvalgsplanen - tatt bruk 1. kvartal 1996 - ble utformet med formål å få et mest mulg heldekkende blde av konjunkturstuasjonen og -utsktene den enkelte bransje 1. Bransjeenhetens sysselsettng brukes som et størrelsesmål ved stratfserngen utvalgsarbedet, der hver bransjepopulasjon deles fre strata. Stratum 1 Stratum 2 Stratum 3 Stratum 4 Enheter med flere enn 300 sysselsatte Enheter med 200-299 sysselsatte Enheter med 100-199 sysselsatte Enheter med mndre enn 100 sysselsatte Det foretas full tellng for enheter som har flere enn 300 sysselsatt (stratum 1). I øvrge strata trekkes enheter proporsjonalt med størrelsen (proporsjonal allokerng). Trekkngen gjennomføres for hvert strata hver bransje. 1 Utvalgsplanen ble justert 2. kvartal 1997. Det ble foretatt justernger stratumnndelngen, deler av opprnnelg utvalg ble rullert ut og erstattet samt foretatt en supplerng. Størrelsen på bruttoutvalget ble justert opp tl vel 700 enheter blant annet for å ta høyde for et forholdsvs stort frafall ved førstegangsutsendelse. 3

I analysedelen dette notatet har v forenklet noe ved å anta at trekksannsynlgheten er lk hvert stratum og at den er avhengg av deknngsgraden av sysselsatte trukket hvert stratum. Dette for å smulere det faktum at det er en overrepresentasjon av større enheter hvert stratum. Bruttoutvalget dekker vel 54 prosent av populasjonssysselsettngen og noe underkant av 62 prosent av samlet omsetnng. Deknngsgraden varerer mdlertd fra bransje tl bransje. På 2-sfret nærngsnvå lgger deknngsprosenten fra 30-90. I enkelte bransjer kan mdlertd deknngsprosenten være både større og mndre enn dette. 2.2 Beregnngsopplegg og vektng av svar 2 2.2.1 På stratumnvå Resultatene på stratumnvå beregnes ved å tldele hver aktv enhets svar en vekt lk dens sysselsettng. Mer presst kan beregnngen av svarandelen prosent, SY n,,j,b, for spørsmål n, svaralternatv, et stratum j og bransje B formuleres følgende tre steg: Antall sysselsatte som er kodet tl svaralternatv er: (1) Y n,,j,b = Σ b (α b,j * β b, * S b,j,b ) der α b,j β b, S b,j,b angr om en enhet er med utvalget stratum j, og om den er aktv, dvs. har besvart oppgaven, det aktuelle kvartalet. α b,j kan anta verdene 0 / 1. En aktv enhet får en verd lk 1 - ellers 0. Enheter som kke er utvalget får beregnngene på stratumnvå verd lk 0. kan ha verdene 0 / 1 avhengg av hvlket svaralternatv den enkelte oppgavegver stratumet har valgt på det aktuelle spørsmålet. En oppgavegver som har valgt f.eks. «større» får en faktor lk 1 når svarandelen for dette alternatvet beregnes - ellers settes verden lk 0. uttrykker sysselsettng for den enkelte bransjeenhet, b, stratumpopulasjon j, bransje B. Sum sysselsatte for alle aktve bransjeenheter stratum j er: (2) SS n,,j,b = Σ Σ b (α b,j * β b, * S b,j,b ) Svarandelen prosent for alternatv, stratum j blr da : (3) SY n,,j,b = Y n,,j,b * 100 / SS n,,j,b Av (1) - (3) framgår at grunnlaget for beregnngen av svarandelen for et tllatt svaralternatv for spørsmål n er alle bransjeenheter som er nærngskodet tl populasjonen en bransje. Ved bruk av α- faktoren tas enheter, som kke nngår utvalget eller som kke er aktve (frafall) et kvartal, ut av beregnngene. Med β-faktoren grupperes de svaralternatver som aktve enheter har valgt, og gs en vekt lk bransjeenhetens sysselsettng. 2 Forklarng av beregnngsopplegget er hentet fra Andersen og Wang (2003) 4

Det følger av (1) - (3) at sum svarandeler prosent for et spørsmål er lk 100, dvs. : (4) Σ SY n,,j,b = 100 2.2.2 På aggregerte nvåer Beregnngen av svarfordelngen på bransjenvå tar utgangspunkt svarfordelngene på stratumnvå. I overgangen fra stratum tl bransje vees mdlertd stratumresultatene med populasjonssysselsettngen for å korrgere for relatve forskjeller mellom strataene en bransje. Mer presst kan beregnngen av svarandelen prosent, SY n,,b, for spørsmål n, svaralternatv, bransje B formuleres ved følgende sammenhenger : (5) SY n,,b = ( Σ j Y n,,j,b * a j,b ) * 100 / SS B der SS B er sum sysselsatte for alle enheter den enkelte stratumpopulasjon bransje B. og (6) a j,b = 1 / (SS n,,j,b / SS j,b ) Formel (6) uttrykker den nverse av sum trekksannsynlghet for aktve enheter stratum j, bransje B. Svarandel prosent for alternatv på bransjenvå framkommer ved å summere produktet av antall sysselsatte allokert tl hvert svaralternatv stratum j med den nverse sum av trekksannsynlghet for aktve enheter stratumet. De samme prnsppene brukes også vdere aggregerng. Som det fremgår av denne gjennomgangen av beregnngsopplegg og vektng av svar, beregnes det først svarandeler for nettoutvalget hvert stratum før man beregner populasjonsandelen ved å vekte med den nverse av sum trekksannsynlghet for enheter nettoutvalget stratum j, bransje B. For å kunne gjennomføre analysen av frafall må v bruke den nverse trekksannsynlgheten som utvalgsvekt for hver enhet og deretter aggregere. Beregnngsopplegget som er benytte dette notatet avvker derfor fra det som benyttes den løpende produksjon. 2.3 Interessevarabel Skjema for Konjunkturbarometeret nneholder 28 spørsmål om ulke kjennetegn for observasjonsenhetene. For å forenkle analysen har v konsentrert oss om et av spørsmålene; Generell bedømmelse av utsktene for det kommende kvartal 3. For dette spørsmålet er det tre svaralternatver : Bedre Uendret Dårlgere Vdere har v defnert svaralternatvet som 1 hvs enheten har besvart spørsmålet med 'Bedre' og 0 hvs det er valgt et annet alternatv. I og med at svarene vektes med enhetens sysselsettng vl nteressevarabelen benyttet frafallsanalysen bl svaralternatvet multplsert med bransjeenhetens sysselsettng. 3 Dette er spørsmål 18 på skjema og den fullstendge spørsmålsformulerngen er : Hvordan bedømmer De - generelt for foretakets vrksomhet denne bransjen - utsktene for kommende kvartal forhold tl stuasjonen nneværende kvartal. 5

I den faktske produksjonen av statstkken beregnes det en andel for de tre svaralternatvene, samt en andel som kke har besvart spørsmålet nettoutvalget (Partelt frafall 4 ). Ut fra dsse resultatene beregnes nettotall og dffusjonsndekser for de ulke spørsmål og bransjer. Nettotall = Andel bedre - andel dårlgere Dffusjonsndeks = Andel bedre + 0,5*andel uendret 2.4 Analyseperode V vl benytte data fra undersøkelsen gjennomført for 2. kvartal 2003. Tabellen nedenfor vser antall enheter populasjonen og utvalg de ulke sysselsettngsstrata. Totalt sett var det 24438 enheter populasjonen og et bruttoutvalg på 701 bransjeenheter. Tabell 1 : Populasjon og utvalg Sysselsettngsstratum Populasjon Bruttoutvalg Større eller lk 300 159 146 5 299-200 75 38 199-100 275 143 99-1 23929 374 Sum 24438 701 4 For mer om dette se kapttel 3. Frafall Konjunkturbarometeret. 5 Som v ser av overskten er kke alle enheter stratumet Større eller lk 300 med utvalget selv om trekksannsynlgheten er 1 (jf. kapttel 2.1). Dette kommer av at enkelte enheter har gtt beskjed om at de kke ønsker å delta undersøkelsen og at de av den grunn er fjernet fra utvalget. 6

3. Frafall Konjunkturbarometeret Konjunkturbarometeret er en frvllg undersøkelse (kke underlagt statstkkloven) og man opplever derfor et noe større frafall en ved andre plktge konjunkturundersøkelser. Ser v på andre undersøkelser rettet mot samme populasjon (ndustr og bergverk), som f.eks. Kvartalsvs nvesterngsstatstkk eller Ordre- og lagerstatstkk, som er plktge, har v en svarandel opp mot 98 prosent. Enhetsfrafall for Konjunkturbarometeret dvs. enheter som er trukket, men som kke har sendt nn skjema er ganske stablt og lgger på om lag 15 prosent. Det gr en gjennomsnttlg svarandel de sste kvartaler på 85 prosent. Partelt frafall dvs. manglende verd på enkelte av spørsmålene varerer mellom de ulke spørsmålene. En overskt vser at det partelle frafallet 2. kvartal 2003 varerer fra 9,7 tl 0,1 prosent. Grunnen tl at dette varerer så mye mellom de ulke spørsmål er at enkelte spørsmål passer dårlg for enkelte bransjer, og de gr av den grunn kke svar på dsse spørsmål. De spørsmål det fokuseres på ved publserng har mdlertd et lavt partelt frafall. Det kan være ulke klder og årsaker tl frafall konjunkturbarometeret. Som tdlgere nevnt er undersøkelsen frvllg og av den grunn er det enkelte som gr tlbakemeldng om at de kke ønsker å delta undersøkelsen. Utvalget baserer seg på et panel der det årlg suppleres for avgang grunnet konkurser og nedleggelser. I tllegg rulleres enheter som kke har svart de to sste kvartaler ut av undersøkelsen. Undersøkelsen er postal. Følgende årsaker kan dentfseres som grunner tl frafall: Enhetsfrafall : Regsterfel. Det kan være enheter som er trukket utvalget fra trekkpopulasjonen, men som reelt sett kke har produksjon eller er nedlagt. I de tlfeller hvor v får tlbakemeldng, kan v fjerne enheten fra populasjon og utvalg, men mange tlfeller blr v kke nformert av respondenten og fanger derfor kke opp slke fel. Ønsker kke å delta. De fleste respondenter grunnlagspopulasjonen ndustr og bergverk har en rekke plktge undersøkelser de må besvare. Det er derfor en del som unnlater å svare da denne undersøkelsen er frvllg og da det oppfattes som en for stor oppgavebyrde. Når kke frem tl kontaktperson. I enkelte tlfeller er kontaktpersonen tl enheten sluttet eller kke tl stede, slk at skjema kke når frem tl rktg person. Skjema har kke bltt trykket for alle enheter Skjema blr kke regstrert under datafangstarbedet Fel beregnngsmetoder. Regstrerte skjema blr kke nkludert beregnngen av aggregatene Av erfarng og kontroller, som gjennomføres de ulke delene av statstkkproduksjonen, er det uvlje tl å fylle ut skjema som vrker som den største frafallsårsak. V gjennomfører krysskontroller mellom enheter utvalget tl Konjunkturbarometeret mot utvalgene tl andre statstkker, med samme populasjon, for å kontrollere om skjema blr sendt tl rktg sted og person, og de fleste tlfeller mottar v skjema for de plktge undersøkelsene, mens v mangler svar for Konjunkturbarometeret selv om respondenten er den samme. Partelt frafall: Irrelevant spørsmål. Det er det samme skjema som sendes tl alle respondenter uavhengg av hvlken nærng de tlhører. Dette fører tl at det for enkelte oppgavegvere føles vanskelg å besvare alle spørsmål. Man har forsøkt å rette på dette ved å nnføre et eget svaralternatv som er 'Ikke relevant', men kke for alle spørsmål, da det antas at enkelte vl føle seg frstet tl å bruke dette alternatvet for ofte. Fel kontaktperson. Spørsmålene Konjunkturbarometeret forutsetter at respondenten har nngående kjennskap tl en rekke økonomske forhold knyttet tl drften. I enkelte tlfeller 7

kjenner respondenten kun en del av de kjennemerker v etterspør og v kan av den grunn oppleve partelt frafall. Skjønner kke spørsmålet. Respondenten forstår kke enkelte spørsmål, og lar av den grunn være å svare på enkelt spørsmål. Fel regstrerng. Skjema leses de fleste tlfeller optsk. I dsse tlfeller er det sjelden fel. Imdlertd blr skjema som kke kan verfseres (koper, faks m.m) regstrert manuelt. I denne prosessen kan det bl felregstrerng eller at den som regstrerer hopper over et svar. For spørsmålet v har valgt å konsentrere oss om; Generell bedømmelse av utsktene, fordeler svarene og frafallet seg som tabell 2. Tabell 2 : Svarfordelng og frafall de ulke sysselsettngsstrata Sysselsettngsstratum Bedre Uendret Dårlgere Netto utvalg Partelt frafall Enhetsfrafall Bruttoutvalg Større elller lk 300 27 79 19 125 1 20 146 299-200 7 18 9 34 1 3 38 199-100 25 69 32 126 1 16 143 99-0 84 166 74 324 1 49 374 Sum 143 332 134 609 4 88 701 Av tabellen ser v at det partelle frafallet fordeler seg med en enhet hvert strata og utgjør tl sammen et frafall på 0,6 prosent forhold tl bruttoutvalget. I den vdere analysen vl v betrakte det partelle frafallet sammen med enhetsfrafall slk at det totale frafallet blr på 92 enheter. Dette gr en svarandel på 86,9 prosent. Ser v nærmere på frafallet nnenfor hvert sysselsettngsstratum får v følgende svarandeler : Tabell 3 : Svarandeler Sysselsettngsstratum Svarandel Større elller lk 300 85,6 299-200 89,5 199-100 88,1 99-0 86,6 Totalt 86,9 3.1 Justerng for frafall I beregnngsopplegget som benyttes for Konjunkturbarometeret er det antatt helt tlfeldg frafall. Frafall mputeres mplstt ved at man betrakter nettoutvalget som bruttoutvalg når man beregner populasjonsandel. På den måten vl frafallsenheter kke nngå utvalget når raten som benyttes for estmerng av populasjonsandel beregnes. I den vdere analysen skal v se nærmere på om denne antakelsen holder, eller om det er grunnlag for å vurdere en mer kompleks modellerng av frafallet. Som v ser av tabell 3 er det kke noe som tyder på stor skjevhet frafallet mellom de ulke sysselsettngsstrata. Dette vl v undersøke nærmere når v prøver ut ulke frafallsmodeller. V skal benytte ulke mputerngsmetoder og frafallsmodeller, beskrevet Zhang (2003) og gjennomgått kurset Frafall og mputerng (SM05), for å analysere effekten av frafall. I første del av analysen skal v benytte ulke frafallsmodeller (vektng) for å justere for frafall. I den andre delen skal v teste ut ulke metoder for mputerng av frafall. I beregnngene benyttes en rekke SAS-makroer skrevet for kurset av Anna-Karn Mevk. 8

Følgende notasjon vl bl benyttet: U = {1,...,N} => Populasjon & = ndeksen tl enheter s = (brutto-)utvalg & s r = nettoutvalg (svarutvalg) & s m = enhetsfrafall r er responsvarabel slk at r =1 hvs π er trekksannsynlghet & p er svarsannsynlghet & a φ = sr & r =0 hvs = 1 => utvalgsvekt π 1 p => frafallsvekt s m w 1 = aφ = ( π p ) => desgnvekt for sr y er nteressevarabel & Y = U y => total av y populasjonen Fguren nedenfor llustrerer forskjellen mellom vektng og mputerng Fg 1 Vektng og mputerng Vektng for frafall Imputerng av frafall a = 1 π Populasjon a = 1 π Bruttoutvalg Gjenkonstruert Bruttoutvalg φ = 1 p Nettoutvalg Imputerng Som v ser av fguren lgger forskjellen mellom vektng og mputerng at ved vektng gjennomfører v en oppblåsng (tlsvarende som fra bruttoutvalg tl populasjon) fra nettoutvalg tl bruttoutvalg før man beregner populasjonsnvå, mens ved mputerng legger v nn estmerte/antatte verder for alle svar som mangler før man beregner populasjonsnvå. Ved vektng vl produktet av utvalgsvekt og frafallsvekt g desgnvekten : w 1 = aφ = ( π p ) 9

I analysen som følger vl v se på den andelen som mener at de generelle utsktene har bltt bedre. V vl også forenkle ved å kun beregne resultater for ndustr og bergverksdrft samlet sett, kke fordelt på de ulke bransjer. For å foreta en strukturert mplementerng av modellene og mputerngsmetodene har v tlpasset data fra Konjunkturbarometeret på en måte som gjør at v kan benytte de SAS-makroer som er laget tl kurset. Programmet som omstrukturerer data er gjengtt vedlegg 1. Programmet kan enkelt tlpasses for å kunne analysere andre spørsmål eller peroder for Konjunkturbarometeret. Interessevarabelen er analysen defnert som (1) y = β * S Der 1 β = 0 Hvs enhet har valgt 'bedre' Hvs enhet har valgt et annet svaralternatv S er enhetens sysselsettng. Det v ønsker å estmere er da andelen sysselsatte som mener de generelle utsktene er bedre for det kommende kvartal, Y, gtt ved formel (2) (2) Y = ( y ) / S U U Fra populasjonsflen har v at sum sysselsettng S = U 3.1.1 Vektng for enhetsfrafall S = 292940 3.1.1.1 Drekte vektng I dette avsnttet vl v anta at frafallet er helt tlfeldg og benytte fremgangsmåten for drekte vektng. V betrakter her frafall som en tlleggsfase sannsynlghetsbasert utvalgstrekkng. Den nverse svarsannsynlghet benyttes som frafallsvekt. Desgnvekten er da produktet av utvalgs- og frafallsvekt. Et estmat for Y, som andelen av de sysselsettngsvede svarene for de som har svart 'bedre' på spørsmålet om de generelle utsktene, kan da skrves som (3) Y ˆ = ( w y ) /( S ) s r U For å fnne w må v beregne svarsannsynlghetene, desgnvekten gtt ved (4): p, og frafallsvektene, φ, slk at v kan beregne (4) w 1 = a φ = ( π p ) der φ = ( 1 p ) n = n + m 1 og n er antall enheter s r, og m antall enheter s m. Ved å benytte drekte vektng med helt tlfeldg frafall vl φ være en konstant, dvs. at svarsannsynlgheten er den samme uansett hvlken enhet det dreer seg om. Med dsse antakelsene får v følgende estmat 10

(3) ˆ 68372,7 Y = ( w y ) /( S ) = = 0, 233 292940 s r U Det gr altså at nnenfor ndustr og bergverk vurderer 23,3 prosent de generelle utsktene for det kommende kvartal som bedre. Programmet som er benyttet beregnngen er gjengtt vedlegg 2. 3.1.1.2 Estmerng under en kke-nformatv SHG-modell V skal nå ta utgangspunkt en kke-nformatv SHG 6 -modell. Med denne modellen forsøker man å dele utvalget nn grupper som man antar har ulke frafallsmekansmer. Denne modellen vl kunne justere for skjevheter som kommer av at frafallet er vesentlg større nnenfor enkelte grupper av utvalget. Dsse gruppene kan defneres som enheter nnenfor samme sysselsettngsstratum eller nnenfor samme nærng eller andre konstellasjoner der man kan anta at frafallet er avhengg sammensettngen av gruppene. Målet med å dele nn slke svarhomogene grupper er å gjøre svarsannsynlgheten p mest mulg lk nnen hver gruppe, samtdg som den er mest mulg ulk mellom gruppene. Generelt kan modellen fremstlles på følgende måte: V antar at utvalget er delt nn G SHG'er, betegnet med s g for g = 1,...,G. La srg nneholde svarenheter s g, og la smg nneholde frafallsenheter s g slk at sg = srg smg V lar ng være antall enheter s rg, og mg antall enheter s mg. V kan da beregne svarsannsynlgheten, (5) p = ng /( ng + mg ) p, for sg som Ved å benytte (5) (4) får v beregnet desgnvekten tl hver enhet avhengg av hvlken SHG enheten er klassfsert under. Vdere aggregerng blr som (3). Under denne modellen har v valgt å se på to mulge nndelnger av de svarhomogene gruppene. a) har v valgt å gruppere enheter nnenfor samme sysselsettngsstrata og b) har v valgt å dele nn grupper avhengg av hvlken nærng enheten tlhører. Antakelsen under a) mplserer at det er større frafall blant de mnste enhetene utvalget forhold tl de største. Av tabell 3 ovenfor ser det mdlertd kke ut tl at det er noen større forskjell mellom frafallet blant store og små enheter, der størrelsen er målt enhetens sysselsettng. Antakelsen under b) mplserer at frafallet kan være større nnen enkelte nærnger og at det på den måten er en systematsk skjevhet frafallet. a) Grupperng etter sysselsettngsstrata Ved å sette en SHG-ndeks lk varabelen for sysselsettngsstrata programmet benyttet for helt tlfeldg frafall får v beregnet et estmat basert på en kke-nformatv SHG-modell. Modellen vl dette tlfellet ha 4 svarhomogene grupper som tlsvarer sysselsettngsstrata gjengtt tabell 4 (g=1,2,3,4). 6 SHG = Svarhomogene grupper 11

Tabell 4 : SHG = Sysselsettngsstrata SHG Sysselsettngsstrata 1 Større eller lk 300 2 299-200 3 199-100 4 99-1 Under denne modellen får v følgende estmat (3) ˆ 68646,2 Y = ( w y )/( S ) = = 0, 234 292940 s r U Programmet som er benyttet beregnngen er gjengtt vedlegg 3. V ser at estmatet blr tlnærmet helt lkt som ved antakelsen om helt tlfeldg frafall. Dette er ngen overraskelse da svarandelen de ulke sysselsettngsstrata var omtrent lke (jf. tabell 3). b) Grupperng etter nærng I dette tlfellet velger v å gruppere de svarhomogene gruppene etter hvlken nærng enheten tlhører. For å unngå for mange grupper vl v gruppere enhetene etter publserngsnvå. Tabell 5 vser sammenhengen mellom NACE 2-nvå og stratum. I tabellen har v også tatt med svarandelen hvert stratum. Tabell 5 : SHG = Nærngsgruppe SHG Nærngsgrupper 7 Svarandel 1 10, 13-14 91,7 2 15-16 85,5 3 17-19 76,7 4 20 89,3 5 21 95,5 6 22 89,2 7 23-24 87,1 8 25 81,0 9 26 81,8 10 27 95,5 11 28 93,1 12 29 77,6 13 30-33 88,5 14 34-35 83,6 15 36-37 92,5 Av tabell 5 ser v at svarandelen varerer mellom de ulke SHG'er og at speselt g=3 (NACE 17-19 ; Tekstl og beklednng) og g=12 (NACE 29; Produksjon av maskner og utstyr) har lavere svarandel enn de andre SHG'er. Under denne modellen får v samme estmat som hvs v benytter SHG = Sysselsettngsstratum : (3) ˆ 68643,0 Y = ( w y )/( S ) = = 0, 234 292940 s r U 7 Tallene kolonnen samsvarer med 2-sffret NACE 12

Programmet som er benyttet beregnngen er det samme som benyttet a) (gjengtt vedlegg 3) bortsett fra at v har byttet ut g=x med g=x2 (g angr SHG-ndeks, x er sysselsettngsstratum og x2 er ndekserngen av nærngsgruppene). Av dsse beregnngene ser det kke ut tl at det er noen klar korrelasjon mellom de SHG'er v har forutsatt og frafallet. I hvert fall kke på en slk måte at det påvrker estmatet. Som v så av tabell 5 er det enkelte nærnger som har lavere svarandel enn andre, men andelen av sysselsatte varerer kraftg mellom de ulke nærngsgruppene. Hvs v ser på nærngsgruppen Tekstl og beklednng; g=3, så vl denne gruppen få en større frafallsvekt enn de andre SHG'ene. Dette har mdlertd lten betydnng for det totale sysselsettngsvede estmatet da gruppen har en svært lten andel av sysselsettngen for ndustren totalt sett. 3.1.1.3 Estmerng under en enkel nformatv SHG-modell Modellen v nå skal se på forutsetter at frafallet er korrelert med nteressevarabelen. Dvs. at det antas at frafallet er større eller mndre blant de som velger et svaralternatv fremfor et annet. v defnerer SHG'er s g for g = 1,...,G som blant annet avhenger av nteressevarabelen vdere lages tlleggsklasser s h for h=1,...,h basert på varabler som er kjente hele utvalget anta vdere at svarsannsynlgheten tl er uavhengg av at sh gtt at sg V antar at frafallet er homogent blant de som svarer hhv. bedre, uendret eller dårlgere og at svaralternatvene defnerer s g for g=1,..,3. Da v kke kjenner gruppetlhørgheten tl frafallet, s mg, er v nødt tl å etablere tlleggsklasser for å estmere denne tlhørgheten. V antar derfor at v har tlleggsklassene s h for h=1,...,4, defnert ved de fre sysselsettngsstrata som v kjenner for hele utvalget s = s r + sm. Tl slutt antar v at frafallet er uavhengg av sysselsettngsstrata gtt svaralternatvet. For å estmere svarsannsynlghetene må v også estmere gruppetlhørgheten tl frafallet. V lar srgh betegne delutvalget srg srh, dvs. svarenheter som tlhører både sg og s h. Vdere lar v smgh betegne delutvalget smg smh, dvs. frafall som tlhører både sg og s h. V betegner størrelsen tl s rgh, som er kjent utvalget, med n gh. Vdere lar v mgh være størrelsen tl s mgh, som er ukjent bortsett fra at m h = g = m 1 gh sden sh er kjent. Gtt estmat for m gh, betegnet mˆ gh, kan v estmere svarsannsynlgheten med G (6) H n n g h = 1 gh pˆ = = for s H H g ng + mˆ g n + h = gh mˆ 1 h = 1 gh 13

For å estmere mgh benytter v en teratv algortme : 1. Velg ntale verder for m gh, betegnet med m m n m n (0) h gh h gh gh = = G nh g = n 1 gh (0) m gh, som f.eks. 2. For k=1,2,..., beregn )( ( k 1) ( k 1) w ( ngh + mgh m ( k ) h gh gh = ( k 1 n + h bh m ) h gh ) og m ( k) mhw ( k ) gh gh = G ( k) g = w 1 gh 3. V stopper algortmen etter 40 terasjoner (k=40), og bruker ( k) m ˆ gh = m gh som estmat for m gh. For å forsøke å estmere svarsannsynlghetene under den nformatve SHG-modellen har v benyttet SAS-makroen 'frafall'. Med de SHG'er og tlleggsklassene som er beskrevet over, får v ngen konvergens. V har forsøkt å defnere h og g på ulke måter for å forsøke å få algortmen tl å konvergere uten hell. For å fullføre analysen har v valgt å benytte SAS-makroen 'svarsh' som gr svarsannsynlgheter uansett om algortmen konvergerer eller kke. Resultatene av denne analysen må derfor tolkes med tanke på at de beregnede svarsannsynlgheter kan være fel. Med 'svarsh' får v følgende svarsannsynlgheter, pˆ, for de 3 svaralternatvene : Tabell 6 : Estmerte svarsannsynlgheter prosent Bedre Uendret Dårlgere pˆ 85,3 86,0 91,0 Av tabellen med de estmerte svarsannsynlghetene for de tre nformatve SHG'ene, ser v at estmatene for svarsannsynlghetene er tlnærmet lke for de som svarer bedre eller uendret, mens den er noe høyere for de som svarer dårlgere. Ved å benytte de estmerte svarsannsynlghetene formel (6) får v beregnet desgnvekten tl hver enhet, som vl avhenge av hvlket svaralternatv enheten har valgt. (7) wˆ a ˆ φ = ( π pˆ ) 1 = Ved å benytte de estmerte desgnvektene fra (7) formel (3), får v et estmat på andelen som vurderer de generelle utsktene som bedre (8) ˆ 69675,5 Y = ( wˆ y )/( S ) = = 0, 238 292940 s r U Som v ser gr denne modellen et margnalt høyere estmat på andelen som mener utsktene er bedre. Dette følger av de estmerte svarsannsynlghetene. Den estmerte frafalls vekten, ˆ φ = 1, vl bl pˆ større for enheter som svarer bedre enn de som svarer dårlgere. På den måten blåses andelen bedre opp forhold tl de andre alternatvene da det antas at frafallet er større blant denne gruppen. Det er vktg å ta med betraktnngen at v kke kan s at det estmerte svarsannsynlghetene er korrekte, da algortmen, basert på mne antakelser, kke konvergerte. 14

Det er vanskelg å g noen god tolknng på hvorfor frafallet skulle være mndre for enheter som svarer dårlgere forhold tl enheter som svarer bedre. En mulg årsak kan være at det ved nedgangskonjunktur bransjen enheten vrker er et større behov for å klage (va offentlg statstkk) enn når man er en oppgangskonjunktur. For å underbygge denne hypotesen kunne man gjort en analyse på enhetsfrafallet over td, for å undersøke om svarprosenten er korrelert med konjunkturbldet. Det vl mdlertd føre for langt å gå nærmere nn på dette denne analysen. Programmet som er benyttet estmerngen av den nformatve SHG-modellen er gjengtt vedlegg 4. 3.1.1.4 Kalbrerng av drekte vektng ved rateestmerng De modellene v nå har testet ut benytter kun nformasjon utvalget. Ved å benytte tlleggsnformasjon fra populasjonen kan man forbedre det drekte vede estmat. Kurset Frafall og mputerng gjennomgår tre ulke typer for kalbrerng; etterstratfserng, rateestmerng og regresjonsestmerng. I dette notatet har v valgt å se nærmere på kalbrerng ved rateestmerng. V lar sysselsettng, S, være en tlleggsvarabel. Med tanke på varansreduksjon og justerng for frafall, er det ønskelg at å bruke en tlleggsvarabel som er høyt korrelert med nteressevarabelen. V har kke noe belegg for å kunne anta en slk korrelasjon mellom svaralternatver og antall sysselsatte, men av mangel på andre regstervarable som kunne tenkes brukt benytter v sysselsettng. Rateestmatoren er da gtt som (9) ( Sw ) w, rat = w ( S / Sˆ) = der S = S og Ŝ = w S w S s r U s r Totalt antall sysselsatte, S, populasjonen er kjent: S = = 292940 U og v kjenner S for enheter som har svart på undersøkelsen. V skal benytte denne kalbrerngsmetoden på de tre modellene v har sett på under vektng for enhetsfrafall: a) Drekte vektng (helt tlfeldg frafall) b) Ikke-nformatv SHG-modell c) Informatv SHG-modell SAS-makroen 'rate' er benyttet programmene som estmerer de kalbrerte resultatene. a) Drekte vektng (helt tlfeldg frafall) Ved å bruke den kalbrerte desgnvekten, rateestmat på andelen som svarer 'bedre' w, rat S, fra (9) formel (3) får v følgende kalbrerte (10) ˆ 72840,1 Yrat = ( w, rat y ) /( S ) = ( w ( S / Sˆ) y ) /( S ) = = 0, 249 292940 s r U s r I estmerngen fnner v at raten S / S ˆ er 1,065. På den måten justeres det sysselsettngsvede estmatet noe opp forhold tl drekte vektng på grunn av underdeknng av sysselsettng utvalget grunnet 1 1 frafall. Uten kalbrerng vl alle frafallsenheter ha samme vekt φ = p = ( n/( n + m)). Da v ønsker at enheter med større sysselsettng skal telle mer enn enheter med lten sysselsettng vl v med rateestmerngen kompensere for dette. Programmet som benyttet er gjengtt vedlegg 5. U 15

b) Ikke-nformatv SHG-modell På samme måte som under antakelsen om helt tlfeldg frafall beregner v den kalbrerte desgnvekten, w, rat, formel (9), men nå beregnes det en rate pr. SHG. I dette eksempelet vl v gjøre beregnngene både for a) og b) a) SHG'er lk sysselsettngsstratum b) SHG'er lk nærng Ved å benytte formel (9) og (3) får v følgende kalbrerte rateestmat på andelen som svarer 'bedre' (10a) ˆ 72920,2 Yrat = ( w, rat y ) /( S ) = ( w ( S / Sˆ) y ) /( S ) = = 0, 249 292940 s r U s r (10b) ˆ 73145,6 Yrat = ( w, rat y ) /( S ) = ( w ( S / Sˆ) y ) /( S ) = = 0, 250 292940 s r U s r Også under den kke-nformatve SHG-modellen blr desgnvektene kalbrert med raten S / S ˆ = 1,065. På den måten justeres de sysselsettngsvede estmatene også her noe opp, forhold tl den kkenformatve SHG-modellen uten kalbrerng. I vedlegg 6 er programmet som ble benyttet for (10a) gjengtt. Programmet for (10b) er tlsvarende, bare med en annen SHG-ndeks. c) Informatv SHG-modell Tlsvarende som under den kke-nformatve SHG-modellen skal v beregne den kalbrerte desgnvekten, men her benytter v den estmerte svarsannsynlgheten der frafallet er korrelert med 1 nteressevarabelen. Den kalbrerte estmerte desgnvekten betegnes som ˆ wˆ = aφ = ( π pˆ ). Ved å benytte dette estmatet formel (9) og (3) får v følgende uttrykk for det kalbrerte estmatet under en nformatv SHG-modell. (11) ˆ 74166,3 Yrat = ( wˆ, rat y ) /( S ) = ( wˆ ( S / Sˆ) y ) /( S ) = = 0, 253 292940 s r U s r Tlsvarende som under drekte vektng med helt tlfeldg frafall og kke-nformatv SHG-modell kalbreres det sysselsettngsvede estmatet med raten S / S ˆ = 1,065, noe som fører tl en oppjusterng forhold tl estmatet uten kalbrerng. Programmet som er benyttet estmerngen er gjengtt vedlegg 7. 3.1.2 Imputerng for partelt frafall I dette kapttelet skal v se på metoder for mputerng av frafall. I motsetnng tl vektng vl v her forsøke å fylle nn svarverder for frafallsenhetene, og på den måten lage et fullstendggjort datasett for bruttoutvalget (jf. Fg 1). To typer mputerng: Determnstsk : Samme verder mputeres ved gjentakelse av mputerngsprosessen Stokastsk : Ulke verder kan mputeres ved gjentakelse, og man vl på den måten kunne få ulkt resultat hver gang mputerngsprosessen gjennomføres U U U 16

3.1.2.1 Imputerng fra 'nærmeste nabo' Dette er en determnstsk metode som estmerer svaralternatver basert på en metrkk funksjon som benytter tlleggsvarabler for å måle 'avstanden' mellom en frafallsenhet og en gver 8. Som tlleggsvarabel har v benyttet sysselsettng, S. V får da at avstanden mellom en frafallsenhet og en gver blr : (12) δ j = S S j På den måten mputeres svaralternatvet som gr mnst mulg δ j mellom en frafallsenhet og en gver. Dvs. gveren som har antall sysselsatte nærmest antall sysselsatte tl frafallsenheten. V antar derfor med denne modellen at det er en sammenheng mellom hvlket svaralternatv som velges og hvor mange sysselsatte enheten har. Fra (1) har v nteressevarabelen y = β * S Der 1 β = 0 Hvs enhet har valgt 'bedre' Hvs enhet har valgt et annet svaralternatv og S er enhetens sysselsettng. Med mputerte verder * β = β der δ = S S er mnmert får v følgende sammenheng j j j ~ β β = * β s r s m Fra denne sammenhengen får v (13) ~ ~ y = β * S Med de mputerte verder har v nå en verd for alle enheter bruttoutvalget. I estmatet blr derfor desgnvekten lk utvalgsvekten og frafallsvekten, p blr 1 1 1 (14) w = aφ = ( π p ) = ( π ) = a Får å estmere den sysselsettngsvede andelen, Yˆ mp (15) ˆ ~ 67574,1 Y mp = ( a y ) /( S ) = = 0, 231 292940 s * U, benytter v (13), (14) og (3) og får I estmerngen av β for s m har v benyttet makroen 'nabo'. Av (15) ser v at det frafallsjusterte estmatet basert på mputerng ved hjelp av 'nærmeste nabo' gr et noe lavere estmat enn de v fkk under modeller for vektng for enhetsfrafall. Andelen av de mputerte verdene som ble gtt verden β * =1var 0,239, men på grunn av at svaralternatvene vektes med sysselsettngen blr altså det 8 Enhet som mputerngsverd hentes fra. 17

sysselsettngsvede estmatet lavere. Dette tyder på at det var en overrepresentasjon av større enheter (enheter med mange sysselsatte) som fkk mputert β * = 0. Tabell 7 kan llustrere dette. Tabell 7 Fordelng av mputerte verder Imputert Antall Sum verd β sysselsatte * 1 22 2984 0 70 19400 Sum 92 22384 Andel 0,239 0,133 Av tabellen ser v at andelen av de som fkk mputert verden 1 er 0,239, mens hvs v ser på andelen av de sysselsettngsvede mputerte svaralternatvene som fkk verden 1 er denne kun 0,133. Programmet som er benyttet er gjengtt vedlegg 8. 3.1.2.2 Stokastsk mputerng under kke-nformatv SHG-modell (hot-deck) I motsetnng tl mputerng med 'nærmeste nabo' er denne mputerngsformen stokastsk. Dvs. at ved gjentatte smulernger av mputerng vl v få ulke resultater. Hot-deck mputerng går ut på å forsøke å gruppere sammen enheter som på en eller annen måte lgner på hverandre. For å gruppere enhetene har v valgt SHG = Nærngsgruppe (defnert tabell 5). Grunnen tl at v velger denne grupperngen er en antakelse om at enheter som tlhører samme nærngsgruppe har større sannsynlghet for å ha samme konjunkturutvklng enn enheter som tlhører ulke nærngsgrupper. På den måten vl v anta at gver trekkes fra samme nærngsgruppe => Frafall tekstl ndustren dekkes ved mputerng fra en gver fra tekstl ndustren. * Imputerngsmetoden går ut på å mputere verden β fra en tlfeldg trukket gver nnen samme SHG. SAS-makroen 'hotdeck' er benyttet for å mputere verdene. På samme måte som under 'nærmeste nabo' får v sammenhengen ~ β β = * β s r s m Får å estmere den sysselsettngsvede andelen, Yˆ mp (15) Y ˆ = ( a ~ y ) /( S ) mp s U, benytter v (13), (14) og (3) og får gjen Da mputerngsmetoden er stokastsk vl estmatet varere ved gjentakelser av mputerngen. Som estmat for det stokastske estmat har v valgt å kjøre 20 smulernger for deretter å ta forventnngen gtt ved gjennomsnttet av de stokastske estmatene. (16) Ε, Y ˆ N mp ( Y ˆ mp ) =0,233 N=(1,...,20) N Som v ser av (16) gr gjennomsnttet av de 20 smulerngene det samme sysselsettngsvede estmatet som under drekte vektng med helt tlfeldg frafall, men uskkerheten estmatet har økt pga. den 18

stokastske prosessen. Resultatene fra de 20 smulerngene er gjengtt tabell 8. Som v ser av tabellen varerer estmatet justert for frafall med hot-deck mputerng fra 0,220 tl 0,257. Grunnen tl dette er at og med at v trekker tlfeldg nnenfor hver SHG, vl v kke få de samme gvere ved hver smulerng. Tabell 8 Resultater fra Hot-deck mputerng Nr Yˆ mp 1 0,233 2 0,233 3 0,235 4 0,231 5 0,232 6 0,250 7 0,226 8 0,241 9 0,239 10 0,237 11 0,231 12 0,222 13 0,257 14 0,231 15 0,232 16 0,229 17 0,234 18 0,220 19 0,222 20 0,230 Gj. sn 0,233 St. dv 0,009 Programmet som er benyttet estmerngen er gjengtt vedlegg 9. 3.1.2.3 Kalbrerng av estmat under mputerngsmodeller ved rateestmerng Som v så nærmere på under kalbrerng av drekte vektng ved rateestmerng, kan v også under mputerngsmodellene gjennomføre en kalbrerng basert på tlleggsnformasjon fra populasjonen. I dette tlfellet vl det kke være desgnvektene, w, som kalbreres, men utvalgsvektene, a. Fra (14) har v at w = a tlfellet med mputerng. Ved å bruke (9) kan v defnere den kalbrerte utvalgsvekten som (17) Sa a rat = a S S ~ ( ), ( / ) = der S = S og = a S S~ a S s U s Totalt antall sysselsatte, S, populasjonen er kjent: og v kjenner S for alle enheter bruttoutvalget. S = = 292940 U S Fra (17) og (15) kan v da defnere det kalbrerte sysselsettngsvede estmatet basert på mputerng som 19

~ (18) Y ˆ = ( a ~ y )/( S ) = ( a ( S / S ) ~ y )/( S ) mp, rat, rat s U s U V skal benytte denne kalbrerngsmetoden på de to mputerngsmetodene v beskrev ovenfor: a) Nærmeste nabo b) Hot-deck a) Nærmeste nabo Ved kalbrerng av det sysselsettngsvede estmatet under denne mputerngsmetoden får følgende resultat ~ (18) Y ˆ = ( a ( S / S ) ~ y )/( S ) = 0,241 mp, rat s U I estmerngen fnner v at raten S / S ~ er 1,045. V får også her en kalbrerng av det sysselsettngsvede estmatet oppover, men med en mndre faktor enn under vektng ( S / S ˆ =1,065). Dette gr sammenhengen (19) S~ = a S > w S = Sˆ s s r Dvs. at summen av produktene av utvalgsvekten og sysselsettngen for alle enheter bruttoutvalget er større enn summen av produktene av desgnvekten og sysselsettngen for alle enheter nettoutvalget. Programmet som er benyttet beregnngen er gjengtt vedlegg 10. b) Hot-deck I stokastsk mputerng under kke-nformatv SHG-modell (hot-deck), kan v også gjennomføre en kalbrerng av det sysselsettngsvede estmatet basert på rateestmatoren. V benytter som eksempelet med hot-deck uten kalbrerng SHG = Nærngsgrupper (defnert tabell 5). Ved å bruke (18) og (16) kan v beregne et gjennomsntt av de kalbrerte stokastske estmatene ved å kjøre 20 smulernger, for deretter å ta gjennomsnttet av de stokastske estmatene ~ (18) Y ˆ = ( a ( S / S ) ~ y )/( S ) mp, rat s U (20) Ε, Y ˆ N rat Y mp, ( ˆ mp, rat ) =0,244 N=(1,...,20) N Som v ser av (20) gr gjennomsnttet av de 20 smulerngene noe høyere estmat enn ved hot-deck mputerng uten kalbrerng ved rateestmator. Dette ford raten, S / S ~, blr 1,045. Denne vl være konstant (kke stokastsk) og med at raten kke avhenger av svaralternatvene, ~ β, og raten vl være lk som tlfellet med mputerng ved 'nærmeste nabo'. Grunnen tl at raten blr den samme som tlfellet med mputerng ved 'nærmeste nabo' er at bruttoutvalget, utvalgsvektene og sysselsettngen er de samme de to tlfellene, og uavhengg av 20 ~ β

(jf. formel (17)). Forskjellen estmatene vl kun lgge hvlke verder som mputeres for frafallsenhetene. Resultatene fra de 20 smulerngene er gjengtt tabell 9. Som v ser av tabellen varerer estmatet, justert for frafall med hot-deck mputerng kalbrert ved rateestmerng, fra 0,226 tl 0,258. På samme måte som under hot-deck uten kalbrerng vl v få en stokastsk prosess og med at v trekker tlfeldg nnenfor hver SHG ved hver smulerng. Tabell 9 Resultater fra rate-kalbrert hot-deck mputerng Nr ˆ Y mp, rat 1 0,226 2 0,246 3 0,250 4 0,239 5 0,258 6 0,233 7 0,241 8 0,240 9 0,249 10 0,247 11 0,243 12 0,230 13 0,239 14 0,258 15 0,236 16 0,246 17 0,256 18 0,247 19 0,255 20 0,240 Gj. sn 0,244 St. dv 0,009 Programmet som er benyttet estmerngen er gjengtt vedlegg 11. 3.1.3 Effekten av kalbrerng Får å se nærmere på effekten v oppnår med kalbrerng ved hjelp av rateestmatoren, kan v analysere varansen tl det sysselsettngsvede estmatet med og uten kalbrerng. For at kalbrerng med rateestmatoren skal ha noen varansreduserende effekt er v avhengg av at tlleggsvarabelen, sysselsatte, er korrelert med nteressevarabelen. Da nteressevarabelen y er produktet av sysselsettngen tl enheten og svaret på spørsmålet (1 eller 0) er kke dette en urmelg forutsetnng. For å se om rateestmatoren v har benyttet kalbrerngen har noen varansreduserende effekt vl v måle effekten av tlleggsnformasjon betnget på justerng for frafall, dvs. frafallsvektene. Fra Zhang (2003) har v at man kan beskrve et varansestmat for den drekte vede estmator Yˆ, der v antar konstant varans, som (21) 1 2 2 v 1 = (1 + c w) s y n der 2 c w er varanskoeffsenten tl w over r s, og var( y ), betegnet 2 s y, kan skrves som 21

(22) s 2 y 1 = ( y n 1 s r y) 2 der y er det sysselsettngsvede svaret defnert som formel (1), og gjennomsnttet y er 1 (23) y = n s r y Dette vl gjelde uansett om frafallsmodellen er nformatv eller kke. Et enkelt varansestmat for den kalbrerte estmator, under tlsvarende forutsetnnger, har følgende generelle form (24) 1 *2 2 v 2 = (1 + c w ) s e n *2 w der c er varanskoeffsent tl de kalbrerte vekter, og Defnsjonen av kalbrerngsresdualene under rateestmerng er gtt som 2 se er varansen tl kalbrerngsresdualene. (25) e = y x β = y x Yˆ Xˆ = y x s r s r w y w x I formel (25) er tlleggsvarabelen sysselsettng som benyttes raten betegnet x. Varansen tl kalbrerngsresdualene kan da beregnes med følgende formel 2 1 (26) s e = y x n 1 s r s r s r 2 w y w x Med dsse sammenhengene kan v måle effekten av tlleggsnformasjon vha. raten *2 v2 1+ cw se (27) η = =. 2 2 v 1+ c s 1 w 2 y Under forutsetnng om helt tlfeldg frafall, og at varanskoeffsenten tl de kalbrerte vektene er * tlnærmet lk varans koeffsenten tl desgnvektene uten kalbrerng, c c, får v redusert raten tl 2 2 η s e / s y. Denne raten har v beregnet for modellen med drekte vektng og helt tlfeldg frafall, med og uten kalbrerng. Varansestmerngen er gjengtt tl slutt programmene vedlegg 2 og 5. Dette gr oss følgende resultat 2 se 33320 (28) η = = 0, 74 2 s 44982 y Med andre ord vl v redusere varansen det sysselsettngsvede estmatet, ved hjelp av kalbrerng med rateestmator, med 26 prosent. w w 22

4. Sammendrag I dette notatet har v sett nærmere på frafallet Konjunkturbarometeret, og da speselt for spørsmål 18; Generell bedømmelse av utsktene for det kommende kvartal. I kapttel 3 har v prøvd å g en generell beskrvelse av mulge former for enhetsfrafall og partelt frafall. Det er også beregnet aggregerte svarsannsynlgheter for de 4 sysselsettngsstrata (se tabell 3). I kapttel 3.1, Justerng for frafall, har v justert det sysselsettngsvede estmatet, for andelen som mener de generelle utsktene er bedre, ved hjelp av ulke metoder for vektng for frafall og to ulke mputerngsmetoder. I tllegg har v kalbrert dsse estmatene ved hjelp av rateestmerng. I kapttel 3.1.3 har v sett nærmere på effekten av kalbrerng vha. rateestmatoren, og da speselt om den har noen varansreduserende effekt. Estmatet med drekte vektng under antakelsen om helt tlfeldg frafall, kalbrert ved rateestmerng, gr om lag det samme estmatet som v får med det beregnngsopplegget som benyttes den løpende produksjonen. Der antar v helt tlfeldg frafall og rateestmerngen nngår kun nettoutvalget. En forskjell er at v den løpende produksjonen beregner en egen andel for det partelle frafallet (betegnet som andel 'uoppgtt'), samt at v kalbrerer med raten for hvert sysselsettngsstrata hver bransje. Ser v på estmatene fra den kke-nformatve SHG-modellen, er resultatene tlnærmet lke de v får ved antakelsen om helt tlfeldg frafall. Dette gjelder både med og uten kalbrerng ved rateestmerng. Dette tyder på at defnsjonen av de svarhomogene gruppene (sysselsettngsstratum og nærngsgrupperng) kke gr grupper der det er ulkt frafallsmønster mellom gruppene, og dermed heller ngen justerng av estmatet. Her kan man tenke seg at man kan benytte andre former for nndelng av SHG'ene, slk at svarsannsynlgheten blr ulk mellom gruppene, og så lk som mulg nnad gruppen. V har mdlertd kke klart å fnne en slk nndelng. Resultatene fra den nformatve SHG-modellen lgger noe høyere enn de andre estmatene, noe som skulle tyde på at frafallet er større blant de enheter som forventer en bedre utvklng for de kommende kvartal. Da algortmen benyttet estmerngen kke konvergerer vl dsse resultatene preges av dette, og det blr vanskelg å trekke noen konklusjon. I avsntt 3.1.2, Imputerng for partelt frafall, benyttet v to ulke former for mputerng; en determnstsk (Nærmeste nabo) og en stokastsk metode (Hot-deck). Av resultatet med mputerng med 'nærmeste nabo' ser v at dette estmatet blr noe lavere enn under frafallsmodellene med vektng. Dette tyder på at det er var en overrepresentasjon av større enheter som fkk mputert verden 0 (svaralternatv 'uendret' eller 'mndre'). På den måten ble det sysselsettngsvede estmatet for andelen som vurderte de generelle utskte som 'bedre' noe lavere. Når det gjelder den stokastske mputerngen under kke-nformatv SHG-modell (Hot-deck), ser v at det gjennomsnttlge estmatet basert på 20 smulernger er det samme som under antakelsen om helt tlfeldg frafall. Da SHG lk nærngsgruppe vste seg å ha lten effekt under frafallsmodellen, vl denne mputerngsmetoden g et resultat tlsvarende mputerng ved tlfeldg trekkng nnenfor hele nettoutvalget (ngen SHG-ndeks). I og med at dsse resultatene er lke vl frafallsmodellen med helt tlfeldg frafall være å foretrekke, da denne vl ha lavere varans enn den stokastske mputerngen. V ser vdere at med kalbrerng ved rateestmerng, får v et lavere estmat med mputerngsmetodene enn ved frafallsmodellerngen. Tabell 10 oppsummerer de ulke estmatene v har beregnet. 23

Tabell 10 Resultater fra justerng av frafall ved frafallsmodeller og mputerngsmetoder Frafallsmodell Imputerngsmetode Ikke nformatv SHG Helt tlfeldg frafall Informatv SHG Nærmeste Hot-deck Syss. stratum Nærngsgruppe nabo (SHG=Nærng) Kalbrerng ved Ne 0,233 0,234 0,234 0,238 0,231 0,233 rateestmerng Ja 0,249 0,249 0,250 0,253 0,241 0,244 Fra de beregnngene som er gjennomført er det vanskelg å trekke noen slutnng om at det er en skjevhet fordelngen av frafallet Konjunkturbarometeret, men v kan kke utelukke at det fnnes frafallsmekansmer som v kke har funnet og som gr systematsk skjevhet. Kalbrerng av estmatene med rateestmator gr gjennomgående et høyere estmat på andelen som mener de generelle utsktene er bedre. Beregnng av effekten av kalbrerng vha. rateestmerng vser at dette gr estmater med lavere varans. Dette styrker troen på at den estmatoren som benyttes den løpende produksjonen gr mer effsente estmater enn uten kalbrerng, og at det er en fornuftg å kalbrere estmatene på denne måten. V har gjort en rekke forenklnger av problemstllngen som f.eks. at v kun ser på et svaralternatv og et spørsmål. Mange av spørsmålene Konjunkturbarometeret er korrelert med hverandre, og det vl ha nnvrknng på metoder man eventuelt skulle valgt for å justere for frafall. Fordelen med dagens beregnngsopplegg med forutsetnngen om tlfeldg frafall er at det gr en oversktlg og enkel sammenstllng av data for samtlge spørsmål sett under ett. I et eventuelt vdere arbed med analyse av frafallet Konjunkturbarometeret vl det være nteressant å se nærmere på ulke former for mputerng. En mputerngsmetode vl enkelt kunne tlpasses dagens beregnngsopplegg, mens en frafallsmodell basert på vektng vl bety en total omleggng av statstkken beregnngsrutner. 24

Referanser Andersen og Wang (2003) : Konjunkturbarometeret. Statstsk sentralbyrå, Rapporter 2003/10, Tom Langer Andersen og Jan Henrk Wang Zhang (2003) : SM05 - Innførng justerng for frafall, upublsert kursnotat August 2003, L-Chun Zhang, 25

Vedlegg 1. Tlpassnng av data ************************************************************************************************; * PROGRAM FOR Å TILPASSE DATA FOR FRAFALLSANALYSE *; ************************************************************************************************; * BEREGNER TREKKSANNSYNLIGHETER PÅ BAKGRUNN AV NACE3 X SYSS STR:; * Tar utgangspunkt populasjonsfl og utvalgsfl fra beregnngsopplegget tl Konjunkturbarometeret; proc sort data=kurs.utvalg03k02; by b_enhet; proc sort data=kurs.pop03k02; by b_enhet; * Slår sammen populasjon og utvalgsfl og døper om enkelte varable; Data flpop_utv (drop=orgnr foretaksnr syssel: ar kvartal stratum_utv ); merge kurs.pop03k02 (n=pop) kurs.utvalg03k02 (n=utv); by b_enhet; f N > 1 then psyssel=sysselutv; rename s18=y1; * Lager responsvarable og sletter enheter som kke har sysselsettng pop; * Sletter også nærng 11 : Olje og gasutvnnng; data data_s18 (keep=nace3 b_enhet utvalg psyssel stratum y1 r frafall); set flpop_utv; f utvalg=1 and y1 > 0 then r=1; else f utvalg=1 and y1 =< 0 then r=0; f y1=0 and r=0 then frafall='p'; else f y1=. and r=0 then frafall='e'; label frafall='p=partelt fraf. E=enhetsfraf.' r='responsvarabel'; f psyssel=0 then delete; nace2=substr(nace3,1,2); f nace2='11' then delete; * Beregner trekksannsynlghetene. Ulke for alle stratum X nace3; proc sort data=data_s18; by utvalg stratum nace3; proc means data=data_s18 noprnt; class utvalg stratum nace3; output out=summer sum(psyssel)=sumsyss; data fl1; set summer; f _TYPE_=3; rename _freq_=n_pop sumsyss=sumsyss_pop; drop utvalg _type_; data fl2; set summer; f utvalg=1 and _type_=7; rename _freq_=n_utv sumsyss=sumsyss_utv; drop utvalg _type_; proc sort data=fl1; by stratum nace3; 26