Mining who said what, and when in the Norwegian newspaper corpus

Like dokumenter
EN Skriving for kommunikasjon og tenkning

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

Information search for the research protocol in IIC/IID

Neural Network. Sensors Sorter

Endelig ikke-røyker for Kvinner! (Norwegian Edition)

Den europeiske byggenæringen blir digital. hva skjer i Europa? Steen Sunesen Oslo,

Emneevaluering GEOV272 V17

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

Databases 1. Extended Relational Algebra

Slope-Intercept Formula

Han Ola of Han Per: A Norwegian-American Comic Strip/En Norsk-amerikansk tegneserie (Skrifter. Serie B, LXIX)

FIRST LEGO League. Härnösand 2012

GEO231 Teorier om migrasjon og utvikling

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Bibliotekundervisningens fremtid nytt fokus på metodikk og digitalisering

UNIVERSITETET I OSLO

Hvordan kvalitetssikre åpne tidsskrift?

Estimating Peer Similarity using. Yuval Shavitt, Ela Weinsberg, Udi Weinsberg Tel-Aviv University

Den som gjør godt, er av Gud (Multilingual Edition)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

GEOV219. Hvilket semester er du på? Hva er ditt kjønn? Er du...? Er du...? - Annet postbachelor phd

Prosjektet Digital kontaktinformasjon og fullmakter for virksomheter Digital contact information and mandates for entities

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

The Future of Academic Libraries the Road Ahead. Roy Gundersen

PATIENCE TÅLMODIGHET. Is the ability to wait for something. Det trenger vi når vi må vente på noe

Graphs similar to strongly regular graphs

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

Skjema for spørsmål og svar angående: Skuddbeskyttende skjold Saksnr TED: 2014/S

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Vurderingsveiledning SPR3008 Internasjonal engelsk Eleven gir stort sett greie og relevante svar på oppgavene i samsvar med oppgaveordlyden.

SAS FANS NYTT & NYTTIG FRA VERKTØYKASSA TIL SAS 4. MARS 2014, MIKKEL SØRHEIM

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Dialogkveld 03. mars Mobbing i barnehagen

PETROLEUMSPRISRÅDET. NORM PRICE FOR ALVHEIM AND NORNE CRUDE OIL PRODUCED ON THE NORWEGIAN CONTINENTAL SHELF 1st QUARTER 2016

Moving Objects. We need to move our objects in 3D space.

5 E Lesson: Solving Monohybrid Punnett Squares with Coding

Øystein Haugen, Professor, Computer Science MASTER THESES Professor Øystein Haugen, room D

Improving Customer Relationships

«Flerspråklighet som ressurs i engelskundervisningen» - forskningsperspektiver og didaktiske grep. Christian Carlsen, USN

UNIVERSITY OF OSLO. Faculty of Mathematics and Natural Sciences

Exercise 1: Phase Splitter DC Operation

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Hvordan føre reiseregninger i Unit4 Business World Forfatter:

Hvordan ser pasientene oss?

Dagens tema: Eksempel Klisjéer (mønstre) Tommelfingerregler

Emnedesign for læring: Et systemperspektiv

Kurskategori 2: Læring og undervisning i et IKT-miljø. vår

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

6350 Månedstabell / Month table Klasse / Class 1 Tax deduction table (tax to be withheld) 2012

Mathematics 114Q Integration Practice Problems SOLUTIONS. = 1 8 (x2 +5x) 8 + C. [u = x 2 +5x] = 1 11 (3 x)11 + C. [u =3 x] = 2 (7x + 9)3/2

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

Trigonometric Substitution

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

GYRO MED SYKKELHJUL. Forsøk å tippe og vri på hjulet. Hva kjenner du? Hvorfor oppfører hjulet seg slik, og hva er egentlig en gyro?

Presenting a short overview of research and teaching

HONSEL process monitoring

Public roadmap for information management, governance and exchange SINTEF

0:7 0:2 0:1 0:3 0:5 0:2 0:1 0:4 0:5 P = 0:56 0:28 0:16 0:38 0:39 0:23

2A September 23, 2005 SPECIAL SECTION TO IN BUSINESS LAS VEGAS

Baltic Sea Region CCS Forum. Nordic energy cooperation perspectives

TEMA LÆRESTOFF/MÅL ARBEIDSMÅTAR/OPPGÅVER EVALUERING

Call function of two parameters

Hvordan kan man holde kontakten med venner eller familie? Kan du legge til noen ideer på listen? Sende tekstmeldinger. Sende (bursdags-)kort

P(ersonal) C(omputer) Gunnar Misund. Høgskolen i Østfold. Avdeling for Informasjonsteknologi

UNIVERSITETET I OSLO

Presenting a short overview of research and teaching

C13 Kokstad. Svar på spørsmål til kvalifikasjonsfasen. Answers to question in the pre-qualification phase For English: See page 4 and forward

UNIVERSITETET I OSLO

PSi Apollo. Technical Presentation

Speed Racer Theme. Theme Music: Cartoon: Charles Schultz / Jef Mallett Peanuts / Frazz. September 9, 2011 Physics 131 Prof. E. F.

Answering Exam Tasks

1. Explain the language model, what are the weaknesses and strengths of this model?

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Andrew Gendreau, Olga Rosenbaum, Anthony Taylor, Kenneth Wong, Karl Dusen

Eksamensoppgave i SOS1000 Innføring i sosiologi Examination paper for SOS1000 Introduction to Sociology

Administrasjon av postnummersystemet i Norge Post code administration in Norway. Frode Wold, Norway Post Nordic Address Forum, Iceland 5-6.

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Hans Tømmervik, NINA Nikolai K. Winge, NMBU Inge E. Danielsen, Gåebrien Sijte, Røros

TFY4170 Fysikk 2 Justin Wells

Skog som biomasseressurs: skog modeller. Rasmus Astrup

Physical origin of the Gouy phase shift by Simin Feng, Herbert G. Winful Opt. Lett. 26, (2001)

Forbruk & Finansiering

Forecast Methodology September LightCounting Market Research Notes

Level Set methods. Sandra Allaart-Bruin. Level Set methods p.1/24

1 User guide for the uioletter package

Den som gjør godt, er av Gud (Multilingual Edition)

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

Medisinsk statistikk, KLH3004 Dmf, NTNU Styrke- og utvalgsberegning

UNIVERSITY OF OSLO DEPARTMENT OF ECONOMICS

TUSEN TAKK! BUTIKKEN MIN! ...alt jeg ber om er.. Maren Finn dette og mer i. ... finn meg på nett! Grafiske lisenser.

Digital Transformasjon

Justeringsanvisninger finnes på de to siste sidene.

FASMED. Tirsdag 21.april 2015

Nærings-PhD i Aker Solutions

Utvikling av skills for å møte fremtidens behov. Janicke Rasmussen, PhD Dean Master Tel

Trust in the Personal Data Economy. Nina Chung Mathiesen Digital Consulting

Transkript:

Mining who said what, and when in the Norwegian newspaper corpus Andrew Salway, Knut Hofland, Øystein Reigem Language and Language Technology Group Centre for Big Data Analysis

Motivation Data about the reported speech of politicians in newspapers could be used to investigate: How politicians opinions align with public opinion How different newspapers cover different politicians Evidentiality in newspapers and new media (Krestel, Bergler and Witte 2008) What politicians say about each other??? Data could also be interesting for citizens and journalists

Task Definition Quote extraction: identify the text fragments that are reported speech Quote attribution: identify the speaker So, for each quote we should have: The text of the quote, and the topic(?) Who the speaker is (and metadata about the person, e.g. political party) Metadata of the newspaper story, inc. date, newspaper, journalist(?)

Example input DET SER UT TILat det samme gjelder polakker selv om lønnsforskjellene mellom Polen og Norge er store. Finansministerens bekymring er at det kan bli for få polakker i Norge. "Jeg frykter at når den økonomiske situasjonen nå bedrer seg i Polen og Sverige, vil mange ta seg jobb i hjemlandet i stedet", sier Halvorsen. Tilgangen på importert arbeidskraft gjør norsk økonomi mer fleksibel og sikrer at høy økonomisk vekst ikke presser lønninger og rente i været. Indirekte gir hun argumenter for at det nye tjenestedirektivet i EU, som vil gjøre det lettere å tilby tjenester og arbeidskraft over landegrensene, vil gi Norge mange fordeler. Kristin Halvorsen fortjener ros når hun så åpent forteller om den nye virkeligheten hun møter som finansminister. Aftenposten, PUBLISERT: 21.FEB.2006 http://www.aftenposten.no/meninger/leder/hjelpen-fra- Polen-417238b.html

Example output Politcian: Kristin Halvorsen Party: Sosialistisk Venstreparti Newspaper: Aftenposten Date: 21-02-2006 Quote: Jeg frykter at når den økonomiske situasjonen nå bedrer seg i Polen og Sverige, vil mange ta seg jobb i hjemlandet i stedet Topic: employment; immigration

Challenges Various ways to indicate direct quotes, and other uses of quotation marks. Indirect quotes: no previous work for Norwegian, but for English direct quotes are relatively rare; most reported speech is indirect (O Keefe et al. 2012). Taking the syntactic object of speech verbs gives high precision for indirect quotes, but low recall (Pareti et al. 2013). A complete solution will require named entity recognition (changes over time!), and pronoun resolution. Classifying the topic of short text fragments could be difficult.

A simple first approach Extract and attribute direct quotes for a small set of politician names in Aviskorpus (3.4m Norwegian newspaper articles): Apply the baseline method in O Keefe et al. (2012), modified for a fixed set of names Evaluate and assess what more is needed

Method: quote extraction Take all text between each pair of quotation marks (, ), including across sentences and paragraphs: Only look for quotes if the story contains a politician s whole name Each part of a split quote gets treated as a separate quote Add a test to keep track of start and end quotes, and reset if necessary

Method: quote attribution 1. Search backwards in the text from the end of the sentence that the quote appears in for a reported speech verb; the verb could be in a previous sentence. 2. If a verb is found take the name** mentioned nearest it; distance is measured by number of words in either direction. 3. If no verb is found then take the name nearest the quote. **A name has to be one of a fixed set of politicians, otherwise we ignore the quote. So, if another name-like thing is found first we ignore the quote. Name-like means capitalised words except sentence initial words and some exclusion words.

Method: resources List of politician names, with a canonical form, unambiguous forms (versions of the whole name) and alternative forms (e.g. surname only), and with their party List of reported speech verbs (base and inflected forms)

Results From 3.4m newspaper articles: 45,173 text fragments identified as direct quotes in about 29,000 different articles Only a small set of about 50 politician names, but probably most of the common ones Recall, indirect quotes are probably much more common

Preliminary evaluation: 100 quotes Quote is reported speech Attributed correctly Correct verb found Frequency Yes Yes Yes 46 Yes Yes No 3 Yes No Yes 4 Yes No No 20 No - - 27 27% of extracted text fragments are not quotes: (i) boilerplate/html in corpus; (ii) other uses of quotation marks, e.g. titles 67% of actual quotes are attributed correctly Also need to look at recall

Number of quotes of length n 14000 12000 10000 8000 6000 4000 2000 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37

Top 10 politicians Number of direct quotes Jens Stoltenberg 4594 Erna Solberg 2780 Siv Jensen 2589 Carl I. Hagen 1896 Trond Giske 1853 Kristin Halvorsen 1661 Kjell Magne Bondevik 1263 Per Sandberg 1134 Lars Sponheim 1028 Jonas Gahr Stør 1008

Top 10 reported speech verbs Inflected form Frequency sier 12725 sa 5675 mener 3531 skriver 2823 kaller 1362 skrev 753 tror 614 uttalte 570 si 567 lover 552 Base form Frequency si 19455 mene 4105 skrive 3773 kalle 2192 uttale 944 tro 892 love 872 snakke 775 fortelle 629 hevde 610

Search interface: under development

References Krestel R., S. Bergler and R. Witte (2008). Minding the Source: Automatic Tagging of Reported Speech in Newspaper Articles. Proceedings of the Sixth International Language Resources and Evaluation Conference, LREC 2008. O Keefe et al. (2012). A Sequence Labelling Approach to Quote Attribution. Procs. 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, pp. 790 799. Pareti et al. (2013). Automatically Detecting and Attributing Indirect Quotations. Procs. 2013 Conference on Empirical Methods in Natural Language Processing, pp. 989 999.

Discussion points Is this data useful for social science research? Any past work using such data? How should the data be made accessible for analysis? How good does the data need to be in order to be useful? Is exact quote extraction important? How to improve precision and recall with more linguistic analysis and language technology? O Keefe et al. (2012) show some improvement using a large set of features for quote attribution Pareti et al. (2013) show some progress with extraction of indirect speech using a mix of linguistic features Need for more refined linguistic analysis, e.g. to distinguish assertions and beliefs (cf. Pareti et al. 2013)