IN1140: Introduksjon til språkteknologi. Forelesning #1

Like dokumenter
IN1140: Introduksjon til språkteknologi. Forelesning #1

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820 INF Arne Skjærholt INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

INF INF1820 INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Velkommen til. IN1010 Objektorientert programmering Våren 2018

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

Kort om kursene IN1900, MAT-IN1105, IN-KJM1900

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Velkommen til. INF våren 2017

INF Introduksjon til design, bruk, interaksjon Introduksjon

INF Introduksjon til design, bruk, interaksjon Introduksjon

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1010 Objektorientert programmering Våren 2019

Kort om kursene IN1900, MAT-IN1105, IN-KJM1900

Velkommen! I dag. Viktige beskjeder. Studieadministrasjonen. IN Høst Siri Moe Jensen Geir Kjetil Sandve Henrik Hillestad

Kort om kursene INF1100 og MAT-INF1100L

Årlig programevaluering Informatikk: Språkteknologi, torsdag 7. februar 2019

Ny 0 0,0% Distribuert 64 66,7% Noen svar 1 1,0% Gjennomført 31 32,3% Frafalt 0 0,0% I alt ,0%

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

Institutt for Informatikk ønsker alle nye studenter velkommen! Bachelorprogrammet Informatikk: språkteknologi

INF101 (kun et utvalg av kommentarene er med i denne rapporten)

INF112(kun et utvalg av kommentarene er med i denne rapporten)

Systemutvikling. Universitetet i Oslo, Institutt for informatikk Vår 2017

Dagens plan. INF3170 Logikk

IN1140: Introduksjon til språkteknologi. Forelesning #2

Velkommen. Torsdag 24 januar 2019 time 1. Yngve og Jo. IN 1030 Systemer, krav og konsekvenser

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

Sentimentanalyse for norsk tekst NRK

INF109 (kun et utvalg av kommentarene er med i denne rapporten)

INF1800 LOGIKK OG BEREGNBARHET

VELKOMMEN TIL MAT-INF1100 og MAT-IN1105

Dagens plan INF3170 Logikk. Obliger og eksamen. Forelesning 1: Introduksjon, mengdelære og utsagnslogikk. Christian Mahesh Hansen og Roger Antonsen

INF2270 Datamaskinarkitektur

VELKOMMEN TIL MAT-INF1100(L) Knut Mørken Rom 1033, Niels Henrik Abels hus

INF2270 Datamaskinarkitektur

VELKOMMEN TIL MAT-INF1100 og MAT-INF1105. Knut Mørken Rom Ø368, Fysikkbygget

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

FYS Kvantefysikk. Are Raklev Teoretisk fysikk, rom FØ456, ahye@fys.uio.no

INF3170 Forelesning 1

Velkommen til BIOS1100

VELKOMMEN. UKE 1: Introduksjon Plenum IN1050. Julie og Maria

Forelesning 1: Introduksjon og mengdelære Christian Mahesh Hansen januar Praktisk informasjon. 1.1 Forelesere og tid/sted

INF2810: Funksjonell Programmering. Introduksjon

Velkommen til MAT1030!

MAT1030 Diskret Matematikk

TDT4127 Programmering og Numerikk

INF1070. Velkommen til. Datamaskinarkitektur. Motto: Hvordan bygger man en datamaskin? INF1070

Thursday, August 19, Web-prosjekt

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

INF2270 Datamaskinarkitektur

Rapport IN-KJM H Audun Skau Hansen, Januar 2019

Anbefalt litteratur: Pensum-bøker: Forelesere: Velkommen til INF Introduksjon til operativsystemer og datakommunikasjon

VELKOMMEN TIL MAT-INF1100

Velkommen til INF Introduksjon til operativsystemer og datakommunikasjon

Velkommen. Velkommen til INF2270. Datamaskinarkitektur. Motto: Datamaskinen på tvers

Kunstig intelligens i biblioteket Cogito, ergo sum

TDT4110 Informasjonsteknologi, grunnkurs

BIOS1100 Innføring i beregningsmodeller for biovitenskap: erfaringer, semesterintegrering og videre utvikling

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Ifis forslag til reviderte studieprogrammer

Her finner du bl.a. oppskrifter på: - Plenumssamlingene (s3) - Skriveseminaret (s4) - Arbeidet i grupper og krav til innleveringer (s5-6)

INF2820 Datalingvistikk V2014. Jan Tore Lønning

1 av juli :07

VELKOMMEN TIL MAT-INF1100(L) Knut Mørken Rom 1033, Niels Henrik Abels hus

1 of 5 01/07/ :13 AM

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

1 of 5 07/08/ :29 PM

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

INF2810: Funksjonell Programmering. Introduksjon

VELKOMMEN TIL MAT-INF 1100

Uke 8 Eksamenseksempler + Ilan Villanger om studiestrategier. 11. okt Siri Moe Jensen Inst. for informatikk, UiO

1 av 5 01/04/ :12 PM

INF2810: Funksjonell Programmering. Introduksjon

VELKOMMEN. Til plenumstime i IN1050. Med Maria og Helle

inf 1510: bruksorientert design

INF2820 Datalingvistikk V Gang, del Jan Tore Lønning

MAT-INF 1100: Obligatorisk oppgave 1

VELKOMMEN TIL MAT-INF1100

Dagens IMT 1321 IT-LEDELSE. Faglærer : Tom Røise. IMT1321 IT-Ledelse 1. Faglærers bakgrunn

1 av 5 12/26/ :48 AM

Transkript:

IN1140: Introduksjon til språkteknologi Forelesning #1 Lilja Øvrelid Universitetet i Oslo 23. august 2018

Tema for i dag 2 Introduksjon Hva er språkteknologi? Hva er IN1140? Praktiske detaljer Grupper Obliger Lærebøker Kontakt m.m.

Screencasting 3 Tar opp screencast for hver forelesning (lyd + foiler). Egen YouTube-kanal: https://www.youtube.com/channel/ucelihv-q-puakg2fb35omiq Ment som et supplement, for repetisjon.

Hei 4 Forelesere Samia Touileb (samiat@ifi.uio.no) Lilja Øvrelid (liljao) Fra språkteknologigruppa (LTG)

Hei 4 Forelesere Samia Touileb (samiat@ifi.uio.no) Lilja Øvrelid (liljao) Fra språkteknologigruppa (LTG) Gruppelærere Tania-Adelina Bulz (taniaadb) Josephine Kjelsrud (josephkj)

Hei 4 Forelesere Samia Touileb (samiat@ifi.uio.no) Lilja Øvrelid (liljao) Fra språkteknologigruppa (LTG) Gruppelærere Tania-Adelina Bulz (taniaadb) Josephine Kjelsrud (josephkj) Tid & sted Gruppe 1: tors. 14:15 16:00, Datastue Limbo. Gruppe 2: man. 14:15 16:00, Datastue Fortress. Forelesninger: tors. 12:15 14:00 i Smalltalk (Ole-Johan Dahls hus / IFI). NB! Første gruppetime for mandagsgruppen utgår

Spørsmål og hjelp 5 Gruppetimene: Gruppelærerene er der for å hjelpe og veilede. Piazza (diskusjonsforum): https://piazza.com/uio.no/fall2018/in1140/ NB! litt ventetid på svar in1140-hjelp [at] ifi.uio.no: Felles adresse til fag-/gruppelærere.

Beskjeder 6 Husk å sjekke UiO-eposten din og beskjedlisten på semestersiden. http://www.uio.no/studier/emner/matnat/ifi/in1140/h18/

Hva er språkteknologi? 7 Mål: å få datamaskiner til å forstå naturlige språk. Aka: computational linguistics (datalingvistikk) language technology language engineering natural language processing (NLP)

Eksempler på språkteknologi? 8

Eksempler på språkteknologi? 9

Språkteknologi og tverrfaglighet 10 NLP er et tverrfaglig felt Lingvistikk Informatikk Statistikk Maskinlæring Logikk, Filosofi, Psykologi,... Del av det bredere feltet kunstig intelligens (AI).

Turingtesten 11 Alan Turing i 1950: I propose to consider the question, Can machines think? Definisjonsspørsmål. Skulle avgjøres ved Turingtesten.

IN1140 og tverrfaglighet 12 Stoffet vi dekker i IN1140 tar også for seg stoff fra flere ulike felt. Innføring i lingvistikk, grunnleggende sannsynlighetsregning, programmering, og språkteknologiske anvendelser.

IN1140 og tverrfaglighet 12 Stoffet vi dekker i IN1140 tar også for seg stoff fra flere ulike felt. Innføring i lingvistikk, grunnleggende sannsynlighetsregning, programmering, og språkteknologiske anvendelser. Gjør deg godt rustet for flere viderekommende emner, f.eks IN3060 Språkteknologiske metoder IN3050 Kunstig intelligens og maskinlæring INF3800 Søketeknologi og mange flere!

Pensumlitteratur 13 An Introduction to Language av Fromkin, Rodman & Hyams Utvalgte deler (ca 5 kapitler)

Pensumlitteratur 14 Speech and Language Processing av Jurafsky & Martin Utvalgte deler

Pensumlitteratur 15 Natural Language Processing with Python, av Bird, Klein & Loper Oppdatert for Python 3 og NLTK 3 (Natural Language Toolkit) Utvalgte deler Gratis nettbok: http://www.nltk.org/book/

Python 16 Progammering lærer dere først og fremst i IN1000, ikke IN1140. Forelesningene i IN1140 kommer til fokusere på teori. Samtidig ønsker vi å implementere stoffet i praksis, i Python. Implementasjon blir fokus på gruppene og innleveringene. Kræsjkurs i Python-programmering på de første gruppetimene. Viktig med en del egeninnsats i starten for å henge med.

Hvorfor er språkforståelse utfordrende? 17 Språk er vagt, ulike tolkninger mulig. Flertydighet overalt. Gir kompakt kommunikasjon: Samme uttrykk kan brukes i ulike kontekster. Flertydighetene er stort sett usynlige for oss, vi finner den intenderte tolkningen nærmest ubevisst. For maskiner er det motsatt: lett å finne alle mulige tolkninger, men vanskelig å se hvilken som er riktig.

Eksempel: Flertydighet på ordnivå 18 Norsk: rett. Engelsk:? Flertydig ift betydning + syntaktisk ordklasse (verb, subst., adj., adv.). Vi trenger kontekst for å avgjøre.

Eksempel: Flertydighet på ordnivå 18 Norsk: rett. Engelsk:? Flertydig ift betydning + syntaktisk ordklasse (verb, subst., adj., adv.). Vi trenger kontekst for å avgjøre. avgrenset av en rett linje tvers over kanalen Hva er rett svar? lovbestemt rett til innsyn Denne rett avsa enstemmig dom i saken 4. juli 1980 Norsk rett tilpasses EUs regelverk Vennligst rett disse prøvene! Det bar rett i fengsel De spiste en deilig rett av grønnsaker. han var rett utenfor, rett nå Slikt skjer rett som det er. straight correct, right right court law grade, correct directly, straight meal, dish just må omskrives

Eksempel: Flertydighet på ordnivå 19

Flertydighet på setningsnivå 20 Jeg spiser sushi med pinner.

Flertydighet på setningsnivå 20 Jeg spiser sushi med pinner.

Flertydighet på setningsnivå 20 Jeg spiser sushi med pinner.

Flertydighet på setningsnivå 20 Jeg spiser sushi med pinner. Jeg spiser sushi med laks.

Flertydighet på setningsnivå 20 Jeg spiser sushi med pinner. Jeg spiser sushi med laks.

Flertydighet på setningsnivå 20 Jeg spiser sushi med pinner. Jeg spiser sushi med laks.

Språkforståelse er vanskelig! 21 The main lesson of thirty-five years of AI research is that the hard problems are easy and the easy problems are hard. The mental abilities of a four-year-old that we take for granted recognizing a face, lifting a pencil, walking across a room, answering a question in fact solve some of the hardest engineering problems ever conceived... As the new generation of intelligent devices appears, it will be the stock analysts and petrochemical engineers and parole board members who are in danger of being replaced by machines. The gardeners, receptionists, and cooks are secure in their jobs for decades to come. Steven Pinker, The language instinct

Språkforståelse er vanskelig! 21 The main lesson of thirty-five years of AI research is that the hard problems are easy and the easy problems are hard. The mental abilities of a four-year-old that we take for granted recognizing a face, lifting a pencil, walking across a room, answering a question in fact solve some of the hardest engineering problems ever conceived... As the new generation of intelligent devices appears, it will be the stock analysts and petrochemical engineers and parole board members who are in danger of being replaced by machines. The gardeners, receptionists, and cooks are secure in their jobs for decades to come. Steven Pinker, The language instinct En robot som bretter et håndkle (videoen er 50 ganger normal hastighet): http://www.youtube.com/watch?v=gy5g33s0gzo

Entydiggjøring 22 Vi mennesker tolker språklige uttrykk basert på delt bakgrunnskunnskap og gjensidige forventninger i en gitt kontekst. Språkforståelse handler mye om entydigjøring. Språkteknologi, og IN1140, handler i stor grad om strategier for hvordan maskiner kan takle dette.

Språkteknologiske metoder 23 2000-tallet: manuelt utformede regeler og leksikon

Språkteknologiske metoder 24 2000-tallet : empirisk revolusjon Maskinlæring Datamaskiner kan lære fra data: fange opp mønstre og generalisere til nye eksempler

Hva kan vi bruke språkteknologi til? 25

Informasjonsekstraksjon 26

Sentiment Analyse 27 Automatisk analyse av subjektivt språk

Medieovervåkning 28

Maskinoversettelse 29

Dialogsystemer 30

Obligatoriske innleveringer 31 3 obliger. Oblig 1 og 2 har to deler hver (a + b). Dvs. 5 innleveringer tilsammen: 1a + 1b, 2a + 2b, 3. Alle obligene må bestås for å kunne ta eksamen. Ingen omlevering. Poengsystemet Man kan oppnå opptil 100 poeng per innlevering For å bestå kreves minst 100 poeng (av 200 mulige) for hver av oblig 1(a+b) og 2(a+b), og 50 poeng for oblig 3. Eksempel: 37 poeng på 2a 68 poeng på 2b = 105 poeng på oblig 2 (= bestått).

Mer om obligene 32 Absolutte frister: Utsettes kun ved egenmelding (opptil 3 dager) eller legeerklæring. Kopiering/plagiat godtas ikke. Sett deg inn i reglene. Husk at hvis du distribuerer løsningsforslaget ditt på nett (f.eks via Github), kan du bidra til juks. Styr unna. Benytt deg av gruppeundervisningen, og planlegg tiden din. Tidsregnskap: Arbeidsinnsats (minimum): 37,5 / 3 = 12,5 timer Etter forelesning+gruppe: 9,5 timer Konkurranse: den/de som får flest poeng tilsammen på obligene gjennom semesteret får en premie (overraskelse)!

Eksamen 33 Skriftlig (digital) eksamen på fire timer 6. desember kl. 09:00 Pensumlitteratur + forelesningsnotater NB! Ikke en programmeringseksamen. Fokus på teoretiske konsepter.

Suksessoppskrift 34 Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc. Lesehenvisninger: forbered deg til forelesning Still spørsmål Gruppetimer: forbered deg delta aktivt gjør oppgaver (også de ikke-obligatoriske) Benytt deg av medstudentene dine

Suksessoppskrift 34 Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc. Lesehenvisninger: forbered deg til forelesning Still spørsmål Gruppetimer: forbered deg delta aktivt gjør oppgaver (også de ikke-obligatoriske) Benytt deg av medstudentene dine lese forstå gråte