NORSK ANDRESPRÅKSKORPUS KURSHEFTE ASK, kurshefte Hilde Johansen (2011) 1
KURSHEFTETS INNHOLD 1. Antall ord i ulike delkorpus (testnivå og morsmål) 2. Persondata 3. Feilkoder 4. Oslo-Bergen-taggerens taggsett 5. AKSs søkemeny 6. KWIC-konkordans 7. Distribusjon 8. Forklaring av felt for søk på språklige trekk 9. Noen regulære søkeuttrykk ASK, kurshefte Hilde Johansen (2011) 2
1. ANTALL ORD (= 100 tekster, bortsett fra * 24 tekster,** 7 tekster og *** 5 tekster) Morsmål Språkprøven Høyere nivå Albansk 24197 10966* BSK 27289 46041 Engelsk 26527 49691 Nederlandsk 26682 44871 Polsk 28857 49024 Russisk 27064 45783 Spansk 25572 45262 Somali 22881 3063** Tysk 29152 49745 Vietnamesisk 25500 2598*** Norsk 27556 44198 BSK= bosnisk-serbisk-kroatisk ASK, kurshefte Hilde Johansen (2011) 3
2. PERSONDATA Norsk språktest har hentet inn tillatelse fra datatilsynet til å samle inn og bruke personopplysninger, med spesifikke regler for hvordan innsamlingen skulle gå frem. Innsamlingen begynte uavhengig av ASK, med tanke på fremtidig forskning. Persondataene har blitt opplyst frivillig under testene og skjemaene som blir brukt har blitt utviklet med i tråd med teorier om hva som påvirker språklæring. Tekstene i korpuset er hentet fra testaviklinger i perioden 1996 til 2006, og det har underveis vært gjort noen endringer i skjemaene, derfor kan en del underkategorier av og til ikke være oppgitt. I kontrollkorpuset er bare noen få opplysninger oppgitt. Disse er merket (no) i listen nedenfor. Variabel Kategorier I O Morsmål (no) Albansk, bosnisk-serbisk-kroatisk, engelsk, nederlandsk, polsk, 0 russisk, somali, spansk, tysk, vietnamesisk (, norsk) Andre andrespråk (diverse) Engelskkunnskaper Ikke noe, begynner, grunn-nivå, mellomnivå, høyere nivå 213 Hjemland (no) (diverse) 5 Alder (no) (diverse) 7 Kjønn (no) Kvinne/mann 4 Utdanning (no) Grunnskole, videregående, høgskole/universitet, 20 forskerutdanning, annet Antall år i utdanning (lite pålitelig) Type norskkurs Kommunale kurs, AMO-kurs, grunnskole voksne, videregående 251 skole, folkeuniversitet, annet Kurslengde i < 6 mnd, 6-12 mnd, 13-24 mnd, 25-36 mnd, >36 mnd 214 måneder Kurslengde i timer < 200, 201-400, 401-500, 501-850, 851-1500, 1501-2000, 824 2001-300 Bruk av målspråket Aldri, sjelden, daglig 193 Oppholdstid < 1 år, 1-2 år, 2-3 år, 3-4 år, 4-5 år, >5 år 11 Kursmål/motivasjon Søke arbeid, søke opptak på skole, dokumentere norskkunskaper, annet Sosial omgang Ja, nei (jobb/skole, fritid) 82 Arbeid i Norge Helsearbeid, hjemmeværende, kontorarbeid, kultur, manuelt 585 arbeid, opplæring/undervisning, servicenæring, transport, annet. Tilknytning Arbeider, studerer, søker arbeid, annet 113 ASK, kurshefte Hilde Johansen (2011) 4
3. FEILKODER LEKSIKALSKE FEILKODER W ORT PART SPL DER CAP FL Galt ord Ortografisk avvik Avvikende sammensetninger (hjemmelandet) Særskrivingsfeil (barne hage) Avvikende avledninger (snillig) Gal bruk av stor/liten bokstav Ord fra andre språk MORFOLOGISKE FEILKODER F INFL Gal morfosyntaktisk katgori Rett morfosyntaktisk kategori, men avvikende form (gådde) SYNTAKTISKE FEILKODER O M R Gal ordstilling på ord- eller frasenivå INV Underinversjon (manglende subjekt/verb-inversjon) OINV Overinversjon (overgeneralisert) SCA Gal plassering av setningsadverbial i leddsetninger MCA Gal plassering av setningsadverbial i hovedsetninger Manglende ord Overflødig ord TEGNSETTINGSFEILKODER PUNC PUNCR PUNCM X AGR Galt tegn ved tegnsetting Tegnsetting mangler Tegnsetting overflødig ANDRE FEILKODER Uidentifiserbart avvik Underkode for følgefeil, eller feil oppstått pga andre korrigeringer gjort av feilkoderne ASK, kurshefte Hilde Johansen (2011) 5
4. OSLO-BERGEN-TAGGERENS TAGGSETT A. SYNTAKTISK TAGGSETT @<ADV ADVERBIAL som modifiserer noe til venstre @<DET DETERMINATIV som modifiserer noe til venstre @<P-UTFYLL PREPOSISJONSUTFYLLING som modifiserer noe til venstre @<SBU SUBJUNKSJON som modifiserer noe til venstre @<SBU-REL SUBJUNKSJONEN SOM som modifiserer noe til venstre @<SUBST SUBSTANTIV som modifiserer noe til venstre @ADJ> ADJEKTIV som modifiserer noe til høyre @ADV ADVERBIAL @ADV> ADVERBIAL som modifiserer noe til høyre @APP APPOSISJON @DET> DETERMINATIV som modifiserer noe til høyre @FV FINITT VERB @I-OBJ INDIREKTE OBJEKT @INTERJ INTERJEKSJON @IV INFINITT VERBAL @KON KONJUNKSJON @LØS-NP NP uten syntaktisk funksjon @O-PRED OBJEKTSPREDIKATIV @OBJ OBJEKT @S-PRED SUBJEKTSPREDIKATIV @SUBJ SUBJEKT @SUBST> SUBSTANTIV som modifiserer noe til høyre @TITTEL TITTEL (http://omilia.uio.no/obt/ ) ASK, kurshefte Hilde Johansen (2011) 6
B. MORFOSYNTAKTISK TAGGSETT ordklasse/tegn Kjønn tall type best tid person kasus gradbøy adj m/f nøyt fem ent fl <adv> <ordenstall> <perf-part> <pres-part> fork ub be pos kom sup adv det inf-merke interj konj prep pron sbu subst ukjent verb mask nøyt fem fem mask mask fem nøyt mask fem nøyt (http://omilia.uio.no/obt/) ent fl ent fl ent fl dem dem <adj> <adj> forst <adj> kvant kvant poss poss res poss høflig sp forst <adv> clb hum res hum sp pers pers hum pers høflig poss hum sp refl sp res <spørreartikkel> appell prop fork ASK, kurshefte Hilde Johansen (2011) 7 ub be ub be pres inf pass inf pres pret perf-part imp pass 1 2 3 nom akk gen
5. ASKs SØKEMENY ASK, kurshefte Hilde Johansen (2011) 8
6. KWIC-KONKORDANS ASK, kurshefte Hilde Johansen (2011) 9
7. DISTRIBUSJON ASK, kurshefte Hilde Johansen (2011) 10
ORD: 8. FORKLARING PÅ FELT FOR SØK PÅ SPRÅKLIGE TREKK Søker etter ordet nøyaktig slik det forekommer i originalteksten. FEILTYPE Søker etter feilkoder, som er beskrevet i kodeboka. For valg av flere feiltyper: hold inne CTRL. UNDERTYPE Søker etter undertyper, først og fremst til feiltypen O (ordstillingsfeil) AGR kan være undertype til flere ulike feiltyper (se kodeboka). KORREKSJON: Søker etter ordet nøyaktig slik det står i taggen corr=, (dvs.. den korrigerte formen av ordet.) Gjelder kun for søk etter ord som har feiltagg og korreksjon. LEMMA: Søker etter den automatiske taggerens lemma-tildeling til ordet Gir alle ulike former ordet måtte forekomme i i korpuset, også de som har ortografiske feil. Enkelte ord kan være tildelt feil lemma homonymi/polysemi ORDKLASSE De tradisjonelle ordklassene pluss noen kategorier til (forkortelser og ukjente ord) Ordklassetaggene er manuelt editert, men det kan forekomme feilkategoriseringer og ord som er tagget med flere ordklasser, som regel pga homonymi/polysemi MORFOLOGI Morfologiske tagger er ikke manuelt editert, en del feil forekommer SYNTAKS Syntaktiske tagger er ikke manuelt editert, en del feil forekommer @ markerer syntaktiske funksjoner og setningsgrenser < og > peker mot kjernen i ordets frase, for eksempel har @det> (determinativ) etterstilt kjerne ASK, kurshefte Hilde Johansen (2011) 11
5. NOEN REGULÆRE SØKEUTTRYKK Regulære søkeuttrykk kan brukes i åpne felt (de som ikke har ferdige lister over valg) og i feltet for søk med regulære uttrykk. (eller) Brukes for å søke etter flere attributter på en gang, for eksempel: o ord: bil båt o lemma: bil båt (Tilsvarer valg av flere bokser vertikalt). (vilkårlig tegn) Står for et vilkårlig tegn, og kan settes før og etter deler av ord. I kombinasjon med andre tegn angir det hvor mange vilkårlige tegn en tillater.. (punktum alene) : ett vilkårlig tegn o.om gir rom, kom, som etc.+ (punktum pluss): vilkårlig mange tegn, minst ett o.+om gir rom, from, hjemom etc.* (punktum asterisk): vilkårlig mange tegn, også ingen. o.*om gir om, rom, from, hjemom etc.? (punktum spørsmålstegn): ingen eller ett vilkårlig tegn o.? om gir om, lom, kom etc {} target (kan bare brukes i feltet for regulære uttrykk) Ved bruk av dette tegnet rundt en korpusposisjon, vil bare denne korpusposisjonen være fremhevet i konkordansen [lemma = "på" %c] {[pos = "subst"]} ASK, kurshefte Hilde Johansen (2011) 12