INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Like dokumenter
INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #2

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF1820 INF Arne Skjærholt INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

INF INF1820 INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

INF1820: Oppsummering

IN1140: Introduksjon til språkteknologi. Forelesning #1

IN1140: Introduksjon til språkteknologi. Forelesning #1

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

LF - Eksamen i INF1820

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1800 LOGIKK OG BEREGNBARHET

Årlig programevaluering Informatikk: Språkteknologi, torsdag 7. februar 2019

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #12

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Hvordan er arbeidsmengden i forhold til omfanget i studiepoeng?

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #13

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

Dagens plan INF3170 Logikk. Obliger og eksamen. Forelesning 1: Introduksjon, mengdelære og utsagnslogikk. Christian Mahesh Hansen og Roger Antonsen

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #7

Climate change and adaptation: Linking. stakeholder engagement- a case study from

inf 1510: bruksorientert design

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

GEO326 Geografiske perspektiv på mat

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

INF2270 Datamaskinarkitektur

INF2820 Datalingvistikk V Gang 4.5 Jan Tore Lønning

Last ned Innføring i lingvistikk. Last ned. Last ned e-bok ny norsk Innføring i lingvistikk Gratis boken Pdf, ibook, Kindle, Txt, Doc, Mobi

Syntax/semantics - I INF 3110/ /29/2005 1

EN Skriving for kommunikasjon og tenkning

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Studieplan 2016/2017

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

INF2270 Datamaskinarkitektur

Planlagte studieplanendringer for lingvistikk og datalingvistikk

Eksamen ENG1002/1003 Engelsk fellesfag Elevar og privatistar/elever og privatister. Nynorsk/Bokmål

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Factoid Spørsmål Svar

Velkommen til INF5110 Kompilatorteknikk

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

INF INF1820. Lectio secunda INF1820. Arne Skjærholt. Lectio secunda

Emneevaluering GEOV272 V17

INF 2820 V2016: Innleveringsoppgave 3 hele

3/1/2011. I dag. Recursive descent parser. Problem for RD-parser: Top Down Space. Jan Tore Lønning & Stephan Oepen

1/31/2011 SAMMENHENGER FSA OG REGULÆRE UTTRYKK. Regulære språk. Fra FSA til RE. Fra regulært uttrykk til NFA REGULÆRE UTTRYKK I DATALINGVISTIKK DEL 2

Hilsen Gro Wenche, Anne Marie og Alena Tlf.mob , e-post:

UNIVERSITETET I OSLO

Introduksjon til 3290

INF3170 Forelesning 1

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Afasi og demens. Inger Moen Februar, Institutt for lingvistiske og nordiske studier (ILN)

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Velkommen til INF Kompilatorteknikk

INF1800 Forelesning 4

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF1800 LOGIKK OG BEREGNBARHET

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Transkript:

INF1820: Introduksjon til språk-og kommunikasjonsteknologi Første forelesning Lilja Øvrelid 17 januar, 2011

Tidspunkt: Mandag 12:15-14, lille aud Onsdag 10:15-12, 12:15-14, Modula OJD

Tidspunkt: Mandag 12:15-14, lille aud Onsdag 10:15-12, 12:15-14, Modula OJD Arbeidsmengde: 37,5 / 3 = 12,5 timer Etter forelesning+gruppe: 9,5 timer

Obligatoriske oppgaver, poengsystem: 3 obligatoriske oppgaver, hver delt i to deloppgaver (1a, 1b, 2a, 2b, 3a, 3b) 100 poeng per oppgave For å gå opp til eksamen: bestå alle tre obligatoriske oppgaver akkumulere min 100 poeng for hver obligatoriske oppgave Absolutte frister Kopiering/plagiat

Obligatoriske oppgaver, poengsystem: 3 obligatoriske oppgaver, hver delt i to deloppgaver (1a, 1b, 2a, 2b, 3a, 3b) 100 poeng per oppgave For å gå opp til eksamen: bestå alle tre obligatoriske oppgaver akkumulere min 100 poeng for hver obligatoriske oppgave Absolutte frister Kopiering/plagiat Tidsrammer Viktighet av gruppeundervisningen

Obligatoriske oppgaver, poengsystem: 3 obligatoriske oppgaver, hver delt i to deloppgaver (1a, 1b, 2a, 2b, 3a, 3b) 100 poeng per oppgave For å gå opp til eksamen: bestå alle tre obligatoriske oppgaver akkumulere min 100 poeng for hver obligatoriske oppgave Absolutte frister Kopiering/plagiat Tidsrammer Viktighet av gruppeundervisningen Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc.

EMNEBESKRIVELSEN Kurset gir en innføring i lingvistisk teori og relaterer denne til språkteknologiske problemområder, metoder og applikasjoner. Fokus er på å koble teori til praksis. Vi vil ta for oss morfologisk, syntaktisk, samt noe semantisk analyse av naturlige språk, formell språkteori og korpusbaserte metoder. Studentene vil få et første møte med noen datalingvistiske applikasjonsområder.

LITTERATUR Pensum: An Introduction to Language (8th Edition) by Victoria A. Fromkin, Robert Rodman, and Nina Hyams Kapittel 1-5 Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (2nd edition) by Daniel Jurafsky and James H. Martin Kapittel 1-5, 12, 19 & 20 Deler av: Natural Language Processing with Python by Steven Bird, Ewan Klein and Edward Loper (URL) Kapittel NLTK 1, 2, 5.1-5.4 Anbefalt: How to think like a computer scientist: Python, on-line URL

INTRODUKSJON TIL LINGVISTIKK

INTRODUKSJON TIL LINGVISTIKK Hva vil det si å beherske et språk? Hva vet vi om menneskelig språkprosessering? Hva mener vi med at språket er uendelig? Hva utgjør språkets byggeklosser? Hvordan settes disse sammen til meningsbærende enheter? Hvem gjør hva mot hvem i en setning? Og hvordan vet vi det?

INTRODUKSJON TIL SPRÅKTEKNOLOGI Kan vi få kunnskap om menneskelig språk ved prosessering av store tekstmengder? Hvordan kan regulære uttrykk brukes til å beskrive språklige fenomener? Hvordan kan vi tildele ordklasser automatisk og hvordan evaluerer vi systemene våre? Hvordan kan vi automatisk gruppere ord til fraser? Hvordan kan vi automatisk skille mellom forskjellige betydninger av et ord?

DU KAN...... skrive enkle programmer for å manipulere store tekstmengder i Python

DU KAN...... skrive enkle programmer for å manipulere store tekstmengder i Python... redusere alle ord i en tekst til dets baseform (oblig1) Søk på dances tango gir treff som learn to dance tango, what is tango dancing

DU KAN...... skrive enkle programmer for å manipulere store tekstmengder i Python... redusere alle ord i en tekst til dets baseform (oblig1) Søk på dances tango gir treff som learn to dance tango, what is tango dancing automatisk trekke ut datouttrykk fra en tekst (oblig1) Forslag om å legge til et møte i kalender

DU KAN...... skrive enkle programmer for å manipulere store tekstmengder i Python... redusere alle ord i en tekst til dets baseform (oblig1) Søk på dances tango gir treff som learn to dance tango, what is tango dancing automatisk trekke ut datouttrykk fra en tekst (oblig1) Forslag om å legge til et møte i kalender lage frekvenslister (oblig1) Hva er årets ord?

DU KAN...... skrive enkle programmer for å manipulere store tekstmengder i Python... redusere alle ord i en tekst til dets baseform (oblig1) Søk på dances tango gir treff som learn to dance tango, what is tango dancing automatisk trekke ut datouttrykk fra en tekst (oblig1) Forslag om å legge til et møte i kalender lage frekvenslister (oblig1) Hva er årets ord? Trekke ut entiteter fra en tekst (oblig2): The crown prince of Norway Håkon Magnus Mette Marit s husband

DU KAN... Automatisk tagge en tekst med ordklasser (Oblig2):

DU KAN... Automatisk tagge en tekst med ordklasser (Oblig2): After the social browser launched two weeks earlier, talk about it exploded.

DU KAN... Automatisk tagge en tekst med ordklasser (Oblig2): After the social browser launched two weeks earlier, talk about it exploded. 1 After 2 the 3 social 4 browser 5 launched 6 two 7 weeks 8 earlier 9, 10 talk 11 about 12 it 13 exploded

DU KAN... Automatisk tagge en tekst med ordklasser (Oblig2): After the social browser launched two weeks earlier, talk about it exploded. 1 After after 2 the the 3 social social 4 browser browser 5 launched launch 6 two two 7 weeks week 8 earlier earlier 9,, 10 talk talk 11 about about 12 it it 13 exploded explode

DU KAN... Automatisk tagge en tekst med ordklasser (Oblig2): After the social browser launched two weeks earlier, talk about it exploded. 1 After after IN 2 the the DT 3 social social JJ 4 browser browser NN 5 launched launch VVD 6 two two JJ 7 weeks week NN 8 earlier earlier RBR 9,,, 10 talk talk NN 11 about about IN 12 it it PP 13 exploded explode VVD

DU KAN... Automatisk tagge en tekst med ordklasser (Oblig2): After the social browser launched two weeks earlier, talk about it exploded.... og evaluere resultatet! 1 After after IN 2 the the DT 3 social social JJ 4 browser browser NN 5 launched launch VVD 6 two two JJ 7 weeks week NN 8 earlier earlier RBR 9,,, 10 talk talk NN 11 about about IN 12 it it PP 13 exploded explode VVD

DU KAN... forklare hva som gir opphav til flertydighet i språk og illustrere forskjeller, feks ved hjelp av syntaktiske trær (oblig3): The girls saw Bill on the beach with a telescope

Language may refer either to the specifically human capacity for acquiring and using complex systems of communication, or to a specific instance of such a system of complex communication. The scientific study of language in any of its senses is called linguistics. (Eng. Wikipedia)

Language may refer either to the specifically human capacity for acquiring and using complex systems of communication, or to a specific instance of such a system of complex communication. The scientific study of language in any of its senses is called linguistics. (Eng. Wikipedia) Vitenskapelige studiet av språk Vitenskapelig? Systematisk studie av regler, systemer og prinsipper i menneskelige språk

Hva er lingvistisk kunnskap? Ubevisst (tacit knowledge) Men det er mye kunnskap (know-how vs know-that)

Hva er lingvistisk kunnskap? Ubevisst (tacit knowledge) Men det er mye kunnskap (know-how vs know-that) Kunnskap om lyd: lydsystemet for et språk rekkefølgen på lyder

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller mening Vilkårlig (arbitrær) kobling mellom form og mening odun asa wartawan

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller mening Vilkårlig (arbitrær) kobling mellom form og mening odun : tre (mat.) Tyrkisk asa wartawan

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller mening Vilkårlig (arbitrær) kobling mellom form og mening odun : tre (mat.) Tyrkisk asa : morgen Japansk wartawan

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller mening Vilkårlig (arbitrær) kobling mellom form og mening odun : tre (mat.) Tyrkisk asa : morgen Japansk wartawan : reported Indonesisk

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller mening Vilkårlig (arbitrær) kobling mellom form og mening odun : tre (mat.) Tyrkisk asa : morgen Japansk wartawan : reported Indonesisk konvensjonalisert

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller mening Vilkårlig (arbitrær) kobling mellom form og mening odun : tre (mat.) Tyrkisk asa : morgen Japansk wartawan : reported Indonesisk konvensjonalisert Er det alt?

Kunnskap om hvordan ord settes sammen til fraser, til setninger Mengden av setninger er uendelig Evne til å forstå og skape nye setninger, språkbruk er kreativ universell egenskap ved språk

Kunnskap om hvordan ord settes sammen til fraser, til setninger Mengden av setninger er uendelig Evne til å forstå og skape nye setninger, språkbruk er kreativ universell egenskap ved språk Dette er en setning

Kunnskap om hvordan ord settes sammen til fraser, til setninger Mengden av setninger er uendelig Evne til å forstå og skape nye setninger, språkbruk er kreativ universell egenskap ved språk Dette er en setning Dette er en setning som jeg skriver akkurat nå

Kunnskap om hvordan ord settes sammen til fraser, til setninger Mengden av setninger er uendelig Evne til å forstå og skape nye setninger, språkbruk er kreativ universell egenskap ved språk Dette er en setning Dette er en setning som jeg skriver akkurat nå Dette er en setning som jeg tror at jeg skriver akkurat nå Dette er en setning som Fredrik mener at jeg tror at jeg skriver akkurat nå osv.

Kunnskap om hvordan ord settes sammen til fraser, til setninger Mengden av setninger er uendelig Evne til å forstå og skape nye setninger, språkbruk er kreativ universell egenskap ved språk Dette er en setning Dette er en setning som jeg skriver akkurat nå Dette er en setning som jeg tror at jeg skriver akkurat nå Dette er en setning som Fredrik mener at jeg tror at jeg skriver akkurat nå osv. Dette er en kjedelig setning Dette er en kjedelig kjedelig setning Dette er en kjedelig kjedelig kjedelig setning osv.

Kunnskap om hvordan ord settes sammen til fraser, til setninger Mengden av setninger er uendelig Evne til å forstå og skape nye setninger, språkbruk er kreativ universell egenskap ved språk Dette er en setning Dette er en setning som jeg skriver akkurat nå Dette er en setning som jeg tror at jeg skriver akkurat nå Dette er en setning som Fredrik mener at jeg tror at jeg skriver akkurat nå osv. Dette er en kjedelig setning Dette er en kjedelig kjedelig setning Dette er en kjedelig kjedelig kjedelig setning osv. Hva er øvre grense?

Grammatikalitet Norske sykehus bruker for mye antibiotika *Sykehus norske bruker for mye antibiotika *Norske sykehus for mye antibiotika bruker *Norsk sykehus bruker for mye antibiotika Kunnskap om regler for hvordan man danner setninger i et språk en endelig mengde regler, med et endelig vokabular en uendelig mengde setninger Grammatikalitetsbedømninger

GRAMMATIKK 1. den mentale grammatikken 2. modellen eller beskrivelsen av denne Kunnskapen om enheter og regler i et språk: Fonologi: lyder ord Morfologi: morfemer ord Syntaks: ord fraser, fraser setninger Semantikk: ord mening, setninger mening

Universal Grammar The Innateness Hypothesis Omdebattert: Steven Pinker: The Language Instinct, Geoffrey Sampson s motsvar Språktilegnelse, Poverty of the Stimulus Unik egenskap for mennesker, språk hos dyr? Honey bee dance

...the scientific study of language from a computational perspective. Computational linguists are interested in providing computational models of various kinds of linguistic phenomena (Association for Computational Linguistics) Datalingvistikk, Computational linguistics Bruk av språklig kunnskap i systemer HAL the holy grail of computational linguistics

Modellering av språklig kunnskap: Fonetikk/fonologi: kunnskap om lingvistiske lyder Fonetikk Lydlære: taleapparatets anatomi og fysiologi, uttale og lydbølgenes fysiske egenskaper Fonologi Hvordan lyder fungerer i språk, hvordan lyder forholder seg til hverandre Talegjenkjenning/talesyntese

Modellering av språklig kunnskap: Fonetikk/fonologi: kunnskap om lingvistiske lyder Fonetikk Lydlære: taleapparatets anatomi og fysiologi, uttale og lydbølgenes fysiske egenskaper Fonologi Hvordan lyder fungerer i språk, hvordan lyder forholder seg til hverandre Talegjenkjenning/talesyntese Eksempel problem: homofoner (homonymer) ord som uttales likt men har forskjellig betydelse weak week to too two

Modellering av språklig kunnskap: Morfologi: kunnskap om meningsbærende deler av ord, ordstruktur Morfologisk analyse, ordklassetagging Eksempel problem: flertydige morfemer -er-endelsen i norsk

Modellering av språklig kunnskap: Syntaks: kunnskap om strukturelle forhold mellom ord Chunking, parsing Eksempel problem: visse syntaktiske konstruksjoner, (feks kontroll, koordinering) Fredrik promised Mary to call the plumber Fredrik asked Mary to call the plumber Fredrik asked Mary to call the plumber and then the pizza place

Modellering av språklig kunnskap: Semantikk: kunnskap om mening ord, setninger Word Sense Disambiguation (WSD), textual entailment

Modellering av språklig kunnskap: Semantikk: kunnskap om mening ord, setninger Word Sense Disambiguation (WSD), textual entailment Eksempel problem: en form flere meninger Mine mål er egentlig ganske forskjellige uttalt av en fotballspiller uttalt av en modell som sammenligner seg med Kate Moss uttalt av en ISK masterstudent Alle studenter hater to kurs

Modellering av språklig kunnskap: Diskurs: kunnskap om enheter ut over enkelte ytringer Anaforresolusjon, dialogsystemer... det er diskutabelt hvor mye Watson egentlig forstår. Den driver snarere en form for etterlikning av noen av måtene menneskehjernen prosesserer språk på. (Dagbladet, 14/1/11)

Modellering av språklig kunnskap: Diskurs: kunnskap om enheter ut over enkelte ytringer Anaforresolusjon, dialogsystemer... det er diskutabelt hvor mye Watson egentlig forstår. Den driver snarere en form for etterlikning av noen av måtene menneskehjernen prosesserer språk på. (Dagbladet, 14/1/11) Vi ga bananene til apene fordi de var sultne. Vi ga bananene til apene fordi de var modne.

FLERTYDIGHET De fleste språkteknologiske applikasjoner må håndtere flertydighet ( ambiguity ) Kjennetegner naturlige språk, på alle nivåer I saw her duck Krasjet med rådyr på moped (Agderposten)

FORMELLE MODELLER Endelige tilstandsmaskiner ( finite state automata ) Formelle regelsystemer Fonologi, morfologi Syntaks

FORMELLE MODELLER Første ordens logikk Semantikk, pragmatikk Probabilistiske modeller utvidelser til probabilistiske versjoner, disambiguering vektormodeller Leksikal IR semantikk,