NORSK ANDRESPRÅKSKORPUS KURSHEFTE. ASK, kurshefte Hilde Johansen (2011) 1



Like dokumenter
En grunnleggende innføring i bruk av ASK

KODEBOK FOR ASK W - PART - DER - SPL- ORT - CAP - FL - F - INFL - R - M - O - INV - OINV - SCA - MCA - PUNC - X

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

BRUKERVEILEDNING. ::: Parallellkorpus og søkegrensesnittet. ::> Korpuset ::> Utskriftsvennlig versjon ::> Kodeboken.

Retningslinjer for morfologisk og syntaktisk annotasjon i Norsk dependenstrebank. Kari Kinn, Per Erik Solberg og Pål Kristian Eriksen

Setningsledd. Norsk som fremmedspråk Side 131

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

NoTa-taggeren: TAGGEVEILEDNING

The Oslo-Bergen-Tagger and The Nomen Nescio Project

EXFAC EURA Syntaks2 1

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

Grammatikk En innføring av Anne Lene Berge

En GRUNNLEGGENDE innføring i bruk av

Norsk minigrammatikk bokmål

Ti tips for betre nynorsk Marita Aksnes Eksamensarrangement på Sølvberget, 23. mai 2016

KORT REPETISJON AV ORDSTILLING:

Ivar Utne, ; RETTA ; forslag om oppg. II (tekstslingvistikk) FORSLAG TIL SVAR PÅ EKSAMENSOPPGAVER FOR NOSP102-F

Morfologi. Studiet av ordenes struktur Kap. 11. EXFAC EURA 2. Morfologi1 1

Innhold. 1 Innledning Semantikk Talespråk og skriftspråk 47. Forkortelser Språket som kodesystem 17 1.

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

Setningsledd. Arne Martinus Lindstad Tekstlaboratoriet Universitetet i Oslo.

Utvida rettleiing til søk i nynorskkorpuset

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

ÅRSPLAN Skoleåret: Trinn: 7.

ÅRSPLAN. Skoleåret: 2017/2018 Trinn: 7. Fag: Norsk Bøker: Zeppelin språkbok og lesebok. + Arbeidsbøker. Letelese Ordliste

2 Substantiv Genus Bøyning Substantiv med bare entallsformer Substantiv med bare flertallsformer 17 2.

Satsingsområder: Lesing, skriving og regning Tilpasset opplæring Digital kompetanse

Gordana Ili_ Holen Institutt for lingvistiske fag Det historisk-filosofiske fakultet Universitetet i Oslo g.i.holen@hfstud.uio.no

INF1820: Oppsummering

En ordbok som den du skal jobbe med nå, kan gi deg svar på mange spørsmål, og ikke bare lære deg mange nye ord.

EXFAC EURA Syntaks2 1

Kom godt i gang med. Ordboksverktøyet. mikrov.no. Kom godt i gang med Ordboksverktøyet 1 1

EXFAC EURA Syntaks2 1

Slides til 12.1 Formelt språk og formell grammatikk

INF1820 INF Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt

APPENDIKS D Geminittisk språk/grammatikk

Vårplan i norsk for 7.klasse Kaldfjord skole. Vi tar forbehold om endringer!

UNIVERSITETET I OSLO

TID TEMA KOMPETANSEMÅL ARBEIDSMETODER VURDERINGSFORMER RESSURSER

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall

Syntaks. Setningstruktur, form og funksjon, analyse Kap. 12. EXFAC EURA Syntaks1 0

RENDALEN KOMMUNE Fagertun skole. Årsplan i norsk for 7. trinn

Språk åpner dører. Eikeli videregående skole 6. januar Eskil O. Vestre Fremmedspråksenteret.

Uke 7: Små barn, små setninger I

VEDLEGG 6: STATISTIKKRAPPORTERING 2015

GRAMMATIKK.

Dere skal kunne om ordklasser.

SETNINGSLEDD... 2 Verbal... 2 Subjekt... 2 Objekt... 5 Indirekte objekt... 6 Predikativ... 8 Adverbial... 9

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

PLAN FOR DAGENE BARNEHAGENORSK: VELKOMMEN TIL 5. SAMLING! FEBRUAR

Fagplan i norsk 7. trinn

Innhold NorskPluss Kort botid

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2018 Forelesning 4, 5.2 Jan Tore Lønning

HEILSETNINGAR... 2 Ordstilling... 2 Oppsummering av ordstilling Spørjesetningar Imperativsetningar Det-setningar...

Fasit til oppgaver i Språk i skolen, kapittel 4. Versjon: 15. mai 2015

NO Norsk for mellomtrinnet

ÅRSPLAN I NORSK FOR 7. TRINN, SKOLEÅRET

IN1140: Introduksjon til språkteknologi. Forelesning #7

Register. Соседи 1. Marit Bjerkeng

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Uke 10: Jakten på de forsvunnede subjektet: Om barns tidlige subjektsløse setninger.

NORSKPRØVEN 2014 ny muntlig prøve. Sett inn sted, dato og foredragsholder Kurs i vurdering av ny muntlig prøve, i regi av Vox

INNHOLD. Innledning 12. Kapittel 1: Kommunikasjon 14. Kapittel 2: Sjanger 20. Kapittel 3: Med språket som verktøy 26

FAGPLAN I NORSK FOR 7. TRINN HØSTEN 2016

For økt elevengasjement i norsk 8 10

Arbeidsbok Nivå 1 og Nivå 2 / bokmål

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

BRUKERUNDERSØKELSEN 2015 Svarprosent: 38%

BRUKERUNDERSØKELSEN 2015 Svarprosent: 42%

BRUKERUNDERSØKELSEN 2015 Svarprosent: 45%

BRUKERUNDERSØKELSEN 2015 Svarprosent: 47%

IN1140: Introduksjon til språkteknologi. Forelesning #6

BRUKERUNDERSØKELSEN 2015 Svarprosent: 31%

Utvidet brukerveiledning

INF2820 Datalingvistikk V2017 Forelesning 4, 6.2 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Jens Haugan Høgskolen i Innlandet, Campus Hamar

En del av kildene i denne delen av oppgaven er av eldre art. Blant annet henviser jeg til Heggelund sin avhandling, med utgivelsesår 1981.

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Språk Skriving Læringsmål Vurdering

Les og lær, s Tekstboka s Ulike måter å lese på, s 8-18 Grammatikk: Dobbel konsonant, s (2 uker) Nøkkelord/Tankekart, s.

BRUKERUNDERSØKELSEN 2015 Svarprosent: 21%

TEIKNSETJING... 2 Punktum... 2 Spørjeteikn... 2 Utropsteikn... 3 Kolon... 3 Hermeteikn... 3 Komma... 5

Veiledning til utfylling av registrering til flerspråklig assistent for barn i førskolealder

DISAMBIGUERING AV HOMONYMI I NORD- OG LULESAMISK

Vedlegg 2: Statistikkrapportering årsrapport 2017

Kom godt i gang. Ordboksverktøyet 1.0

IN1140: Introduksjon til språkteknologi. Forelesning #6

Grammatiske termer til bruk i skoleverket

Møte mellom polsk og norsk i Norge

HOPPlæring i Hortenskolen AKTIVITETER TIL IDÈBANK

7. trinn Målark Chapter 1 Bokmål

norsk grammatikk 149BE6CADCAB6FFCFBAA3C DC4 Norsk Grammatikk 1 / 6

INF 2820 V2016: Innleveringsoppgave 3 del 1

IN1140: Introduksjon til språkteknologi. Forelesning #8

NO Norsk for mellomtrinnet

Jens Haugan - Høgskolen i Innlandet, Campus Hamar

Transkript:

NORSK ANDRESPRÅKSKORPUS KURSHEFTE ASK, kurshefte Hilde Johansen (2011) 1

KURSHEFTETS INNHOLD 1. Antall ord i ulike delkorpus (testnivå og morsmål) 2. Persondata 3. Feilkoder 4. Oslo-Bergen-taggerens taggsett 5. AKSs søkemeny 6. KWIC-konkordans 7. Distribusjon 8. Forklaring av felt for søk på språklige trekk 9. Noen regulære søkeuttrykk ASK, kurshefte Hilde Johansen (2011) 2

1. ANTALL ORD (= 100 tekster, bortsett fra * 24 tekster,** 7 tekster og *** 5 tekster) Morsmål Språkprøven Høyere nivå Albansk 24197 10966* BSK 27289 46041 Engelsk 26527 49691 Nederlandsk 26682 44871 Polsk 28857 49024 Russisk 27064 45783 Spansk 25572 45262 Somali 22881 3063** Tysk 29152 49745 Vietnamesisk 25500 2598*** Norsk 27556 44198 BSK= bosnisk-serbisk-kroatisk ASK, kurshefte Hilde Johansen (2011) 3

2. PERSONDATA Norsk språktest har hentet inn tillatelse fra datatilsynet til å samle inn og bruke personopplysninger, med spesifikke regler for hvordan innsamlingen skulle gå frem. Innsamlingen begynte uavhengig av ASK, med tanke på fremtidig forskning. Persondataene har blitt opplyst frivillig under testene og skjemaene som blir brukt har blitt utviklet med i tråd med teorier om hva som påvirker språklæring. Tekstene i korpuset er hentet fra testaviklinger i perioden 1996 til 2006, og det har underveis vært gjort noen endringer i skjemaene, derfor kan en del underkategorier av og til ikke være oppgitt. I kontrollkorpuset er bare noen få opplysninger oppgitt. Disse er merket (no) i listen nedenfor. Variabel Kategorier I O Morsmål (no) Albansk, bosnisk-serbisk-kroatisk, engelsk, nederlandsk, polsk, 0 russisk, somali, spansk, tysk, vietnamesisk (, norsk) Andre andrespråk (diverse) Engelskkunnskaper Ikke noe, begynner, grunn-nivå, mellomnivå, høyere nivå 213 Hjemland (no) (diverse) 5 Alder (no) (diverse) 7 Kjønn (no) Kvinne/mann 4 Utdanning (no) Grunnskole, videregående, høgskole/universitet, 20 forskerutdanning, annet Antall år i utdanning (lite pålitelig) Type norskkurs Kommunale kurs, AMO-kurs, grunnskole voksne, videregående 251 skole, folkeuniversitet, annet Kurslengde i < 6 mnd, 6-12 mnd, 13-24 mnd, 25-36 mnd, >36 mnd 214 måneder Kurslengde i timer < 200, 201-400, 401-500, 501-850, 851-1500, 1501-2000, 824 2001-300 Bruk av målspråket Aldri, sjelden, daglig 193 Oppholdstid < 1 år, 1-2 år, 2-3 år, 3-4 år, 4-5 år, >5 år 11 Kursmål/motivasjon Søke arbeid, søke opptak på skole, dokumentere norskkunskaper, annet Sosial omgang Ja, nei (jobb/skole, fritid) 82 Arbeid i Norge Helsearbeid, hjemmeværende, kontorarbeid, kultur, manuelt 585 arbeid, opplæring/undervisning, servicenæring, transport, annet. Tilknytning Arbeider, studerer, søker arbeid, annet 113 ASK, kurshefte Hilde Johansen (2011) 4

3. FEILKODER LEKSIKALSKE FEILKODER W ORT PART SPL DER CAP FL Galt ord Ortografisk avvik Avvikende sammensetninger (hjemmelandet) Særskrivingsfeil (barne hage) Avvikende avledninger (snillig) Gal bruk av stor/liten bokstav Ord fra andre språk MORFOLOGISKE FEILKODER F INFL Gal morfosyntaktisk katgori Rett morfosyntaktisk kategori, men avvikende form (gådde) SYNTAKTISKE FEILKODER O M R Gal ordstilling på ord- eller frasenivå INV Underinversjon (manglende subjekt/verb-inversjon) OINV Overinversjon (overgeneralisert) SCA Gal plassering av setningsadverbial i leddsetninger MCA Gal plassering av setningsadverbial i hovedsetninger Manglende ord Overflødig ord TEGNSETTINGSFEILKODER PUNC PUNCR PUNCM X AGR Galt tegn ved tegnsetting Tegnsetting mangler Tegnsetting overflødig ANDRE FEILKODER Uidentifiserbart avvik Underkode for følgefeil, eller feil oppstått pga andre korrigeringer gjort av feilkoderne ASK, kurshefte Hilde Johansen (2011) 5

4. OSLO-BERGEN-TAGGERENS TAGGSETT A. SYNTAKTISK TAGGSETT @<ADV ADVERBIAL som modifiserer noe til venstre @<DET DETERMINATIV som modifiserer noe til venstre @<P-UTFYLL PREPOSISJONSUTFYLLING som modifiserer noe til venstre @<SBU SUBJUNKSJON som modifiserer noe til venstre @<SBU-REL SUBJUNKSJONEN SOM som modifiserer noe til venstre @<SUBST SUBSTANTIV som modifiserer noe til venstre @ADJ> ADJEKTIV som modifiserer noe til høyre @ADV ADVERBIAL @ADV> ADVERBIAL som modifiserer noe til høyre @APP APPOSISJON @DET> DETERMINATIV som modifiserer noe til høyre @FV FINITT VERB @I-OBJ INDIREKTE OBJEKT @INTERJ INTERJEKSJON @IV INFINITT VERBAL @KON KONJUNKSJON @LØS-NP NP uten syntaktisk funksjon @O-PRED OBJEKTSPREDIKATIV @OBJ OBJEKT @S-PRED SUBJEKTSPREDIKATIV @SUBJ SUBJEKT @SUBST> SUBSTANTIV som modifiserer noe til høyre @TITTEL TITTEL (http://omilia.uio.no/obt/ ) ASK, kurshefte Hilde Johansen (2011) 6

B. MORFOSYNTAKTISK TAGGSETT ordklasse/tegn Kjønn tall type best tid person kasus gradbøy adj m/f nøyt fem ent fl <adv> <ordenstall> <perf-part> <pres-part> fork ub be pos kom sup adv det inf-merke interj konj prep pron sbu subst ukjent verb mask nøyt fem fem mask mask fem nøyt mask fem nøyt (http://omilia.uio.no/obt/) ent fl ent fl ent fl dem dem <adj> <adj> forst <adj> kvant kvant poss poss res poss høflig sp forst <adv> clb hum res hum sp pers pers hum pers høflig poss hum sp refl sp res <spørreartikkel> appell prop fork ASK, kurshefte Hilde Johansen (2011) 7 ub be ub be pres inf pass inf pres pret perf-part imp pass 1 2 3 nom akk gen

5. ASKs SØKEMENY ASK, kurshefte Hilde Johansen (2011) 8

6. KWIC-KONKORDANS ASK, kurshefte Hilde Johansen (2011) 9

7. DISTRIBUSJON ASK, kurshefte Hilde Johansen (2011) 10

ORD: 8. FORKLARING PÅ FELT FOR SØK PÅ SPRÅKLIGE TREKK Søker etter ordet nøyaktig slik det forekommer i originalteksten. FEILTYPE Søker etter feilkoder, som er beskrevet i kodeboka. For valg av flere feiltyper: hold inne CTRL. UNDERTYPE Søker etter undertyper, først og fremst til feiltypen O (ordstillingsfeil) AGR kan være undertype til flere ulike feiltyper (se kodeboka). KORREKSJON: Søker etter ordet nøyaktig slik det står i taggen corr=, (dvs.. den korrigerte formen av ordet.) Gjelder kun for søk etter ord som har feiltagg og korreksjon. LEMMA: Søker etter den automatiske taggerens lemma-tildeling til ordet Gir alle ulike former ordet måtte forekomme i i korpuset, også de som har ortografiske feil. Enkelte ord kan være tildelt feil lemma homonymi/polysemi ORDKLASSE De tradisjonelle ordklassene pluss noen kategorier til (forkortelser og ukjente ord) Ordklassetaggene er manuelt editert, men det kan forekomme feilkategoriseringer og ord som er tagget med flere ordklasser, som regel pga homonymi/polysemi MORFOLOGI Morfologiske tagger er ikke manuelt editert, en del feil forekommer SYNTAKS Syntaktiske tagger er ikke manuelt editert, en del feil forekommer @ markerer syntaktiske funksjoner og setningsgrenser < og > peker mot kjernen i ordets frase, for eksempel har @det> (determinativ) etterstilt kjerne ASK, kurshefte Hilde Johansen (2011) 11

5. NOEN REGULÆRE SØKEUTTRYKK Regulære søkeuttrykk kan brukes i åpne felt (de som ikke har ferdige lister over valg) og i feltet for søk med regulære uttrykk. (eller) Brukes for å søke etter flere attributter på en gang, for eksempel: o ord: bil båt o lemma: bil båt (Tilsvarer valg av flere bokser vertikalt). (vilkårlig tegn) Står for et vilkårlig tegn, og kan settes før og etter deler av ord. I kombinasjon med andre tegn angir det hvor mange vilkårlige tegn en tillater.. (punktum alene) : ett vilkårlig tegn o.om gir rom, kom, som etc.+ (punktum pluss): vilkårlig mange tegn, minst ett o.+om gir rom, from, hjemom etc.* (punktum asterisk): vilkårlig mange tegn, også ingen. o.*om gir om, rom, from, hjemom etc.? (punktum spørsmålstegn): ingen eller ett vilkårlig tegn o.? om gir om, lom, kom etc {} target (kan bare brukes i feltet for regulære uttrykk) Ved bruk av dette tegnet rundt en korpusposisjon, vil bare denne korpusposisjonen være fremhevet i konkordansen [lemma = "på" %c] {[pos = "subst"]} ASK, kurshefte Hilde Johansen (2011) 12