N-gram 1-6, bokmål. Eventuelle spørsmål og tilbakemeldinger kan rettes til sprakbanken@nb.no. 1. Innhold. N-grammene er basert på følgende materiale:



Like dokumenter
Delegater til landsmøtet

NJs lønnsstatistikk for 2014

NJs lønnsstatistikk for 2012

NJs lønnsstatistikk for 2011

Avisenes opplags- og lesertall 2009 Helge Holbæk-Hanssen Fagsjef i MBL

Gjennomsnittlig lønn for bedrifter i 2010

Gjennomsnittlig lønn for bedrifter i 2011

Lønnsnivået i de enkelte bedrifter i sortert etter samlet lønn

Lønnsnivået i de enkelte bedrifter i sortert etter fastlønn

Gjennomsnittslønn 2013

Gjennomsnittslønn 2013

Gjennomsnittslønn 2013

MBL Medietall februar 2012

Gjennomsnittlig lønn for bedrifter i 2010

Gjennomsnittlig lønn for bedrifter i 2010

PRESSENS FAGLIGE UTVALG Hovedstatistikk 1. halvår

Gjennomsnittslønn 2013

Avislesing 2015: Tilbakegang for papiravisene fortsetter

Lønnsnivået i de enkelte bedrifter i sortert etter samlet lønn

NJs lønnsstatistikk for 2016

Lønnsnivået i de enkelte bedrifter i sortert etter fastlønn

Opplag for norske aviser 2015 tilsluttet Mediebedriftenes Landsforening og Landslaget for lokalaviser

1 ADRESSEAVISEN 2 AFTENPOSTEN 143 AGDER FLEKKEFJORDS TIDENDE 5 AGDERPOSTEN 6 AKERS AVIS GRORUDDALEN 7 AKERSHUS AMTSTIDENDE 10 ALTAPOSTEN 11

Lønnsnivået i de enkelte bedrifter i sortert etter fastlønn

NJs lønnsstatistikk for 2018

Avislesing 2018: Tilbakegang for papiravisene fortsetter

NJs lønnsstatistikk for 2017

Hvem ble felt flest ganger? Hvilke punkt ble mediene felt på i Vær Varsom-plakaten?

PAPIRAVISER. Forbruker & Media '11/1 - TLF

Gjennomsnittlig lønnsutvikling sortert på tariffområde, fra 2003 til 2004

Avislesing 2017: Flere leser aviser på mobil enn på papir

Gjennomsnittlig lønnsutvikling sortert på tariffområde, fra 2001 til 2002

Mediehusenes lesertall

NETT/MOBIL/STREAMING Tall markert med (*) er basert på data innsamlet 2. halvår 2014

PRESSENS FAGLIGE UTVALG Hovedstatistikk 1. halvår

Avislesing 2014: Sterk tilbakegang for papiravisene

Gjennomsnittlig lønnsutvikling sortert på tariffområde, fra 2002 til 2003

Medietall Medietall 2010

Avislesing 2016/2017: Papir tilbake mobil fram

Norsk presse - kontaktinfo - Folkevalgte

Utvikling i medieomtale for Forskningsdagene per år Antall oppslag per år

Publikasjoner og presentasjoner fra prosjektet Barns levekår - betydningen av familiens inntekt for barns hverdag

Magasinopplag Totalopplaget for norske magasiner er eksemplarer. Det ble solgt 51 mill. blader i 2016

Øvingshefte. Addisjon og subtraksjon

Lønnsnivået i de enkelte bedrifter i sortert etter navn

Opplag for norske aviser 2014 tilsluttet Mediebedriftenes Landsforening og Landslaget for lokalaviser

Mediehusenes opplagstall

PRESSENS FAGLIGE UTVALG Hovedstatistikk 1. halvår

Identiske personer: Lønnsutvikling for tariffområder

Delegatfordeling til landsmøtet 2017

Avislesing 2016: Fra papir til digitalt

MAGASIN Mediehusenes opplagstall

Avislesing 2015/2016: Sterk tilbakegang for papiravisene. Knut-Arne

Avislesing 2017/2018: Tilbakegang for papiravisene fortsetter men nisjeavisene øker

Designed Sounds - File Name Size

Undersøkende journalistikk i dag. Steen Steensen, Journalistutdanningen, HiO, 13. januar 2011

Øvingshefte. Addisjon og subtraksjon

MEDIETALL 19/1. Medienes lesertall og opplagstall

PFU-statistikken 2016

Medievaner og holdninger. Landsomfattende undersøkelse 25. februar 17. mars 2009

Landsstyremøte i Norsk Journalistlag 16. og 17.september 2014

Sykepleierstillinger i Norge 1. Kvartal 2014

Opplag for norske aviser 2016 tilsluttet Mediebedriftenes Landsforening og Landslaget for lokalaviser

Medievaner og holdninger

Universitetet i Stavanger. Professor Aslaug Mikkelsen, førsteamanuensis Egil Gabrielsen prorektor. Valgt: Media:

Stiftelsen Elektronikkbransjen Uttak Elektronikkbransjen i media

Etternavn Fornavn Bedrift

Medievaner og holdninger

Mediestatistikk jan feb mar apr mai jun jul aug sep

MEDIEANALYSE Foreningen Tryggere Ruspolitikk

Last ned Å forstå avisa - Yngve Benestad Hågvar. Last ned. Last ned e-bok ny norsk Å forstå avisa Gratis boken Pdf, ibook, Kindle, Txt,

19. februar 2013 MEDIETALL

Stiftelsen Elektronikkbransjen Mai 2014 Elektronikkbransjen i media

Fasit til øvingshefte

Mediedekning juli 2013 Stiftelsen Elektronikkbransjen

A Scan Foto og NTB Pluss - ikke grunnlag for inngrep etter konkurranseloven 3-11

GrandView. Et dataprogram for samle, organisere og analysere mengder av ulike typer informasjon. Brukermanual

De offisielle online og mediehus tallene for Knut-Arne Futsæter Kantar

Postenligaen Kvinner i media Share of Voice. juli - september 2010

Last ned Senskade - Knut Faldbakken. Last ned. Last ned e-bok ny norsk Senskade Gratis boken Pdf, ibook, Kindle, Txt, Doc, Mobi

SITELISTE Desember 2015

Forskningsdagene 2007

Last ned Hulemannen - Jørn Lier Horst. Last ned. Last ned e-bok ny norsk Hulemannen Gratis boken Pdf, ibook, Kindle, Txt, Doc, Mobi

Last ned Hulemannen - Jørn Lier Horst. Last ned. Last ned e-bok ny norsk Hulemannen Gratis boken Pdf, ibook, Kindle, Txt, Doc, Mobi

Stiftelsen Elektronikkbransjen Mediedekning mars 2015

Medievaner og holdninger. Landsomfattende undersøkelse blant norske journalister 23. februar mars 2009

Medievaner og holdninger til medier

2011/925 - A- / - Spørreundersøkelsene i abonnent- og annonsemarkedet oppsummering.

Medieanalyse: Israel, FN, mediene

Medievaner og holdninger

Aviser godkjent for statsannonsering, alfabetisk

Aviser godkjent for statsannonsering, alfabetisk

Aviser godkjent for statsannonsering, alfabetisk

PR VS Journalistikk - Rune Ytreberg 1

Medievaner og holdninger

Stiftelsen Elektronikkbransjen Uttak artikler

Stiftelsen Elektronikkbransjen April artikler

Last ned Blindgang - Jørn Lier Horst. Last ned. Forfatter: Jørn Lier Horst ISBN: Antall sider: 380 Format: PDF Filstørrelse: 12.

Last ned Etterpå - Wenche Foss. Last ned. Last ned e-bok ny norsk Etterpå Gratis boken Pdf, ibook, Kindle, Txt, Doc, Mobi

DET STORE BILDET. Den digitale transformasjonen fortsetter. Samlet sett styrker mediehusene sine markedsposisjoner

Transkript:

N-gram 1-6, bokmål Disse n-grammene er laget av Knut Hofland ved Uni Research AS, med utgangspunkt i tekstene som er samlet inn til Norsk aviskorpus (avis.uib.no) og deler av tekstmaterialet som ble samlet inn til tekstkorpuset til Nordisk språkteknologi (NST). N-grammene kan benyttes fritt til språkteknologisk forskning og utvikling. Brukere oppfordres til å informere Språkbanken om hvilken nytte de har av denne ressursen. Eventuelle spørsmål og tilbakemeldinger kan rettes til sprakbanken@nb.no. 1. N-grammene er basert på følgende materiale: Kilde Tidsperiode Størrelse* Proveniens Bergens Tidende 1990-1999 107 Tekstkorpuset til NST NTB 1985-1998 121 Tekstkorpuset til NST Aftenposten 1984-1998 282 Tekstkorpuset til NST Nettaviser 1998-2011 665 Norsk aviskorpus 1 Totalt 1985-2011 1175 * Millioner ord Materialet er delt inn i to deler etter proveniens, henholdsvis NSTs tekstkorpus (510 millioner ord) og Norsk aviskorpus (665 millioner ord). Det er også laget en sammenflettet del for hele materialet samlet (1175 millioner ord). Se filoversikten under for hvordan dette er organisert. Generelt om ryddingen i tekstmaterialet <s> og </s> markerer setningsgrenser. Skilletegn er separert med blanke. Første ord i setning er erstattet med liten bokstav dersom ordet finnes skrevet slik i samme årgang av den enkelte avis. Ellers er ordene beholdt som de er skrevet. Setninger som ikke er avsluttet med stort skilletegn (.!?;:) er filtrert vekk (overskrifter o.l.). Setninger med mye tall (ofte resultatlister), oppramsinger o.l. er også filtrert vekk. For å filtrere vekk dubletter er setningene fra web-materialet sortert alfabetisk og kun ett eksemplar av hver setning er beholdt. Filene er sortert på Linux med LC_ALL=POSIX 1 Følgende nettaviser inngår i Norsk aviskorpus: Adresseavisen, Aftenposten, Bergens Tidende, Dagbladet, Dag og Tid, Dagsavisen, Dagens Næringsliv, Firda Media, Fædrelandsvennen, Gudbrandsdølen Dagningen, Hallingdølen, Hordaland Bladdrift L/L, Klassekampen, Morgenbladet, Nationen, Nordlys, Sogn Avis, Stavanger Aftenblad, Sunnhordland, Sunnmørsposten, Vest-Telemark Blad, VG, Vikebladet, Vårt Land. 1

Antall linjer (= antall n-grammer) Sammenflettet versjon Norsk aviskorpus NSTs tekstkorpus Ord: ~1.175.000.000 ~665.000.000 ~510.000.000 1-gram: 7.940.352 4.864.069 4.705.778 2-gram: 91.603.227 56.879.521 51.276.339 3-gram: 339.372.238 203.817.157 176.258.808 4-gram: 637.019.897 372.241.506 309.861.244 5-gram: 834.937.627 479.950.475 387.278.530 6-gram: 911.038.924 518.832.476 410.495.429 2. Filoversikt 2.1. Sammenflettet versjon, basert på 1175 millioner ord med løpende tekst Filarkivet ngram_nob_1000.zip (48 KB, utpakket 144 KB) inneholder de 1000 mest frekvente 1-grammer, 2-grammer, 3-grammer, 4-grammer, 5-grammer og 6-grammer, til sammen seks tekstfiler: Filarkivet 1gram_nob_abc.zip (33 MB, utpakket 179 MB) inneholder en tekstfil med en liste over alle ord (1-grammer) i materialet. Ordene er listet alfabetisk. Filarkivet 1gram_nob_f1_abc.zip (14 MB, utpakket 72 MB) inneholder en tekstfil med en liste over alle ord (1-grammer) i materialet med frekvens større enn 1. Ordene er listet alfabetisk. Filarkivet 1gram_nob_f1_freq.zip (14 MB, utpakket 72 MB) inneholder en tekstfil med en liste over alle ord (1-grammer) i materialet med frekvens større enn 1. Ordene er listet etter fallende frekvens. Filarkivet ngram_nob.tar.gz (27 GB, utpakket 128 GB) inneholder hele n-gram-samlinga, og inneholder følgende filer, alle ren tekst: 2

De 1000 mest frekvente 3-grammene De 1000 mest frekvente 4-grammene De 1000 mest frekvente 5-grammene 2.2. Norsk aviskorpus, basert på 665 millioner ord med løpende tekst Filarkivet ngram_nob_avis_1000.zip (48 KB, utpakket 144 KB) inneholder de 1000 mest frekvente 1-grammer, 2-grammer, 3-grammer, 4-grammer, 5-grammer og 6-grammer, til sammen seks tekstfiler: Filarkivet ngram_nob_avis.tar.gz (16 GB, utpakket 73 GB) inneholder hele n-gram-samlinga, med følgende filer, alle ren tekst: 3

De 1000 mest frekvente 3-grammene De 1000 mest frekvente 4-grammene De 1000 mest frekvente 5-grammene 2.3. NSTs tekstkorpus, basert på 510 millioner ord med løpende tekst Filarkivet ngram_nob_nst_1000.zip (47 KB, utpakket 145 KB) inneholder de 1000 mest frekvente 1-grammer, 2-grammer, 3-grammer, 4-grammer, 5-grammer og 6-grammer, til sammen seks tekstfiler: Filarkivet ngram_nob_nst.tar.gz (13 GB, utpakket 61 GB) inneholder hele n-gram-samlinga, med følgende filer, alle ren tekst: 4

De 1000 mest frekvente 3-grammene De 1000 mest frekvente 4-grammene De 1000 mest frekvente 5-grammene 5