INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Like dokumenter
INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #2

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Oppsummering

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

LF - Eksamen i INF1820

Årlig programevaluering Informatikk: Språkteknologi, torsdag 7. februar 2019

IN1140 H2019 gruppeoppgaver Språkmodeller og Ordklasser

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

IN1140 H2018 gruppeoppgaver Sannsynlighet og språkmodeller

INF2820 Datalingvistikk V Gang Jan Tore Lønning

TDT4110 Informasjonsteknologi, grunnkurs Uke 35 Introduksjon til programmering i Python

Læringsmål og pensum. v=nkiu9yen5nc

AlgDat 12. Forelesning 2. Gunnar Misund

Skanning del I INF /01/15 1

Syntax/semantics - I INF 3110/ /29/2005 1

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #12

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

TDT4110 Informasjonsteknologi grunnkurs: Kapittel 1 Introduksjon til Programmering og Python. Professor Alf Inge Wang

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Introduksjon til programmering og programmeringsspråk. Henrik Lieng Høgskolen i Oslo og Akershus

Generell rekursjon og induksjon. at(n) + bt(n 1) + ct(n 2) = 0

Skanning del I. Kapittel 2 INF 3110/ INF

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 V2017 Oppgavesett 5 Gruppe 21.2

INF2820 V2017 Oppgavesett 5 arbeidsoppgaver

INF5820 Natural Language Processing - NLP. H2009 Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2)

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Litt om kompilering og interpretering. Dagens tema Syntaks (kapittel Komp. 47, kap. 1 og 2) Syntaks og semantikk

MAT1030 Diskret matematikk

AlgDat 10. Forelesning 2. Gunnar Misund

Introduksjon til programmering og programmeringsspråk

INF2820 Datalingvistikk V2014. Jan Tore Lønning

Dokument-embeddings / Markov-kjeder. Fredrik Jørgensen, Schibsted Media/UiO

INF2810: Funksjonell Programmering. En Scheme-evaluator i Scheme

INF2810: Funksjonell Programmering. En metasirkulær evaluator

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF2820 Datalingvistikk V forelesning, 30.1 Jan Tore Lønning

INF INF1820. Lectio secunda INF1820. Arne Skjærholt. Lectio secunda

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF2810: Funksjonell Programmering. En metasirkulær evaluator

Forkurs i informatikk Python. Andreas Færøvig Olsen

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

Velkommen til INF5110 Kompilatorteknikk

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Ifis forslag til reviderte studieprogrammer

For å sjekke at Python virker som det skal begynner vi med å lage et kjempeenkelt program. Vi vil bare skrive en enkel hilsen på skjermen.

Forelesning 14. Rekursjon og induksjon. Dag Normann februar Oppsummering. Oppsummering. Beregnbare funksjoner

INF2820 Datalingvistikk V2012

INF1820 INF Arne Skjærholt INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

INF2820 Datalingvistikk V2012. Jan Tore Lønning

INF109 - Uke 1b

MAT1030 Plenumsregning 3

INF 2820 V2018: Innleveringsoppgave 1

INF2820 Datalingvistikk V Gang 26.2 Jan Tore Lønning

Velkommen til INF Kompilatorteknikk

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

3/8/2011. I dag. Dynamic Programming. Example. Example FORMELLE EGENSKAPER VED SPRÅK (KAP. 16) Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

Transkript:

INF1820: Introduksjon til språk-og kommunikasjonsteknologi Andre forelesning Lilja Øvrelid 23 januar, 2012

...the scientific study of language from a computational perspective. Computational linguists are interested in providing computational models of various kinds of linguistic phenomena (Association for Computational Linguistics) Kjært barn: Språkteknologi ( Language Technology ) Datalingvistikk ( Computational Linguistics ) Menneskespråkprosessering ( Natural Language Processing ) Bruk av språklig kunnskap i systemer HAL the holy grail of computational linguistics

TURINGTESTEN AI: test på en maskins evne til å vise intelligens Alan Turing: Computing Machinery and Intelligence (1950) Kan en maskin tenke Finnes det en tenkelig datamaskin som kan klare Turingtesten?

TURINGTESTEN Et dialogsystem

Fonetikk/fonologi: kunnskap om lingvistiske lyder Fonetikk Lydlære: taleapparatets anatomi og fysiologi, uttale og lydbølgenes fysiske egenskaper Fonologi Hvordan lyder fungerer i språk, hvordan lyder forholder seg til hverandre Talegjenkjenning/talesyntese Eksempel problem: homofoner (homonymer) ord som uttales likt men har forskjellig betydelse weak week to too two

Morfologi: kunnskap om meningsbærende deler av ord, ordstruktur Morfologisk analyse, ordklassetagging Eksempel problem: flertydige morfemer -er-endelsen i norsk

Syntaks: kunnskap om strukturelle forhold mellom ord Chunking, parsing Eksempel problem: visse syntaktiske konstruksjoner, (feks kontroll, koordinering)

Semantikk: kunnskap om mening ord, setninger Word Sense Disambiguation (WSD), textual entailment Eksempel problem: en form flere meninger Mine mål er egentlig ganske forskjellige uttalt av en fotballspiller uttalt av en modell som sammenligner seg med Kate Moss uttalt av en ISK masterstudent Flertydighet i rekkevidde ( scope ) Alle studenter hater to kurs

Diskurs: kunnskap om enheter ut over enkelte ytringer Anaforresolusjon, dialogsystemer... det er diskutabelt hvor mye Watson egentlig forstår. Den driver snarere en form for etterlikning av noen av måtene menneskehjernen prosesserer språk på. (Dagbladet, 14/1/11)

Watson spørsmål-svar system (Q&A) utviklet ved IBM

NLP-systemer: moduler som representerer forskjellige lingvistiske nivåer Høyere nivåer avhenger typisk av lavere Feks parsing Maskinoversettelse The spirit is willing but the flesh is weak The vodka is excellent but the meat is lousy (Fra http://babelfish.altavista.com/, teknologi utviklet av SYSTRAN)

Annet eksempel (fra NLTK s babelize) 1. how long before the next flight to Alice Springs? 2. wie lang vor dem folgenden Flug zu Alice Springs? 3. how long before the next flight to Alice jump? 4. wie lang vor dem folgenden Flug zu Alice springen Sie? 5. how long before the next flight to Alice do you jump?

Question-answering (Q&A) http://www.ask.com Who was the second president of the United States? John Adams Who was the president following Washington? Hmmm.. George Washington?

Hvorfor blir resultatene dårlige? Språkforståelse er komplisert Den nødvendige kunnskapen er enorm De fleste stadier viser flertydighet Mange av algoritmene er intractable (NP-hard: komputasjonelt uløselige i mindre enn eksponentiell tid)

FLERTYDIGHET De fleste språkteknologiske applikasjoner må håndtere flertydighet ( ambiguity ) Kjennetegner naturlige språk, på alle nivåer I saw her duck Krasjet med rådyr på moped (Agderposten)

FORMELLE MODELLER Kan fange inn den språklige kunnskapen v.hj.a et lite antall formelle modeller og teorier Hentet fra informatikk, matematikk og lingvistikk Disse modellene kan prosesseres ved et lite antall algoritmer søk (feks dynamisk programmering), maskinlæring (feks klassifisere)

FORMELLE MODELLER Endelige tilstandsmaskiner ( finite state automata ): Består av tilstander, overganger ( transitions ) og en input-representasjon Variasjoner: deterministiske og ikke-deterministiske, endelige tilstandsmaskiner og endelige tilstandstransdusere Fonologi, morfologi

FORMELLE MODELLER Formelle regelsystemer feks kontekstfrie grammatikker S NP VP NP ADJ N NP Det N VP VNP Syntaks

FORMELLE MODELLER Første ordens logikk Semantikk, pragmatikk Probabilistiske modeller utvidelser til probabilistiske versjoner, disambiguering Vektormodeller Leksikal IR semantikk,

HVA ER ET PROGRAM? På et abstrakt nivå er et program en sekvens med kommandoer, som gir output for en viss input. Eksempel 1: 1. Input: en tekstfil med hele Kristin Lavransdatter 2. Program: noe skjer (Input Output) 3. Output: alle bigram (sekvenser av to ord) med frekvenser Eksempel 2: 1. Input: Lønn-og trekksoppgave 2. Program: noe skjer (Input Output) 3. Output: Hvor mye skatt du må betale

ALGORITMER Et program er en algoritme, dvs en sekvens av kommandoer Eksempel på algoritme som skriver ut alle ord som ender på -er: 1. Les inn alle ord fra teksten 1.1 Lagre hvert ord 1.2 Tell hvert ord, dvs lagre (ord,antall)-par 2. Les gjennom den lagrede informasjonen 2.1 Skriv ut hvert ord og dets frekvens Men hvordan leser vi inn noe eller lagrer dem?

PROGRAMMERINGSSPRÅK Programmeringsspråk har mye til felles Lignende datastrukturer (lister, funksjoner, moduler,... ) Krever at du bruker en eksplisitt syntaks Kun veldefinerte funksjoner kan brukes Må følge visst format Ofte forskjeller i syntaks, men god programmeringsskikk overføres ofte, samme prinsipper

HVORFOR PYTHON? for line in open("file.txt"): for word in line.split(): if word.endswith( er ): print word 1. Whitespace 2. Objektorientert: hver variabel er en entitet som har visse definerte attributter og metoder Feks line strengobjekt med bl.a. metoden split 3. Metoder har argumenter (i parentes)

HVORFOR PYTHON? Enkelt, kraftig Meget god funksjonalitet for prosessering av lingvistiske data God strengbehandling Bra for korte skript og tekstprosessering Lesbart Objektorientert: lett å kapsle inn kode og bruke om igjen Brukes mye! Organisasjoner som Google, Pixar og NSA bruker Python

NLTK Natural Language Toolkit (NLTK): Open source Python modules, linguistic data and documentation for research and development in natural language processing and text analytics, with distributions for Windows, Mac OSX and Linux. (http://www.nltk.org) Kommmer med klasser for datarepresentasjon, grensesnitt for oppgaver som ordklassetagging, parsing, tekstklassifisering Veldokumentert