IN1140: Introduksjon til språkteknologi. Forelesning #1

Like dokumenter
IN1140: Introduksjon til språkteknologi. Forelesning #1

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V2016. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Velkommen til. IN1010 Objektorientert programmering Våren 2018

Kort om kursene IN1900, MAT-IN1105, IN-KJM1900

Velkommen til. INF våren 2017

INF Introduksjon til design, bruk, interaksjon Introduksjon

INF Introduksjon til design, bruk, interaksjon Introduksjon

IN1010 Objektorientert programmering Våren 2019

Kort om kursene IN1900, MAT-IN1105, IN-KJM1900

Kort om kursene INF1100 og MAT-INF1100L

Årlig programevaluering Informatikk: Språkteknologi, torsdag 7. februar 2019

Ny 0 0,0% Distribuert 64 66,7% Noen svar 1 1,0% Gjennomført 31 32,3% Frafalt 0 0,0% I alt ,0%

Institutt for Informatikk ønsker alle nye studenter velkommen! Bachelorprogrammet Informatikk: språkteknologi

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

INF101 (kun et utvalg av kommentarene er med i denne rapporten)

INF112(kun et utvalg av kommentarene er med i denne rapporten)

Systemutvikling. Universitetet i Oslo, Institutt for informatikk Vår 2017

IN1140: Introduksjon til språkteknologi. Forelesning #2

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

Velkommen. Torsdag 24 januar 2019 time 1. Yngve og Jo. IN 1030 Systemer, krav og konsekvenser

INF109 (kun et utvalg av kommentarene er med i denne rapporten)

Sentimentanalyse for norsk tekst NRK

INF1800 LOGIKK OG BEREGNBARHET

VELKOMMEN TIL MAT-INF1100 og MAT-IN1105

Dagens plan INF3170 Logikk. Obliger og eksamen. Forelesning 1: Introduksjon, mengdelære og utsagnslogikk. Christian Mahesh Hansen og Roger Antonsen

VELKOMMEN TIL MAT-INF1100(L) Knut Mørken Rom 1033, Niels Henrik Abels hus

VELKOMMEN TIL MAT-INF1100 og MAT-INF1105. Knut Mørken Rom Ø368, Fysikkbygget

INF2270 Datamaskinarkitektur

INF2270 Datamaskinarkitektur

ÅMA110 Sannsynlighetsregning med statistikk, våren 2010

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

FYS Kvantefysikk. Are Raklev Teoretisk fysikk, rom FØ456, ahye@fys.uio.no

INF3170 Forelesning 1

VELKOMMEN. UKE 1: Introduksjon Plenum IN1050. Julie og Maria

Velkommen til BIOS1100

Velkommen til MAT1030!

MAT1030 Diskret Matematikk

TDT4127 Programmering og Numerikk

INF1070. Velkommen til. Datamaskinarkitektur. Motto: Hvordan bygger man en datamaskin? INF1070

INF2270 Datamaskinarkitektur

Rapport IN-KJM H Audun Skau Hansen, Januar 2019

Velkommen til INF Introduksjon til operativsystemer og datakommunikasjon

Velkommen. Velkommen til INF2270. Datamaskinarkitektur. Motto: Datamaskinen på tvers

TDT4110 Informasjonsteknologi, grunnkurs

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

BIOS1100 Innføring i beregningsmodeller for biovitenskap: erfaringer, semesterintegrering og videre utvikling

Ifis forslag til reviderte studieprogrammer

1 av juli :07

VELKOMMEN TIL MAT-INF1100(L) Knut Mørken Rom 1033, Niels Henrik Abels hus

INF2810: Funksjonell Programmering. Oppsummering og eksamensforberedelser

INF2810: Funksjonell Programmering. Introduksjon

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

VELKOMMEN TIL MAT-INF 1100

Uke 8 Eksamenseksempler + Ilan Villanger om studiestrategier. 11. okt Siri Moe Jensen Inst. for informatikk, UiO

Mannen min heter Ingar. Han er også lege. Han er privatpraktiserende lege og har et kontor på Grünerløkka sammen med en kollega.

1 av 5 01/04/ :12 PM

VELKOMMEN. Til plenumstime i IN1050. Med Maria og Helle

MAT-INF 1100: Obligatorisk oppgave 1

VELKOMMEN TIL MAT-INF1100

inf 1510: bruksorientert design

1 av 5 12/26/ :48 AM

Mekanikk FYS MEK 1110

Transkript:

IN1140: Introduksjon til språkteknologi Forelesning #1 Lilja Øvrelid Universitetet i Oslo 23. august 2018

Tema for i dag 2 Introduksjon Hva er språkteknologi? Hva er IN1140? Praktiske detaljer Grupper Obliger Lærebøker Kontakt m.m.

Screencasting 3 Tar opp screencast for hver forelesning (lyd + foiler). Egen YouTube-kanal: https://www.youtube.com/channel/ucelihv-q-puakg2fb35omiq Ment som et supplement, for repetisjon.

Hei 4 Forelesere Samia Touileb (samiat@ifi.uio.no) Lilja Øvrelid (liljao) Fra språkteknologigruppa (LTG) Gruppelærere Tania-Adelina Bulz (taniaadb) Josephine Kjelsrud (josephkj) Tid & sted Gruppe 1: tors. 14:15 16:00, Datastue Limbo. Gruppe 2: man. 14:15 16:00, Datastue Fortress. Forelesninger: tors. 12:15 14:00 i Smalltalk (Ole-Johan Dahls hus / IFI). NB! Første gruppetime for mandagsgruppen utgår

Spørsmål og hjelp 5 Gruppetimene: Gruppelærerene er der for å hjelpe og veilede. Piazza (diskusjonsforum): https://piazza.com/uio.no/fall2018/in1140/ NB! litt ventetid på svar in1140-hjelp [at] ifi.uio.no: Felles adresse til fag-/gruppelærere.

Beskjeder 6 Husk å sjekke UiO-eposten din og beskjedlisten på semestersiden. http://www.uio.no/studier/emner/matnat/ifi/in1140/h18/

Hva er språkteknologi? 7 Mål: å få datamaskiner til å forstå naturlige språk. Aka: computational linguistics (datalingvistikk) language technology language engineering natural language processing (NLP)

Eksempler på språkteknologi? 8

Eksempler på språkteknologi? 9

Språkteknologi og tverrfaglighet 10 NLP er et tverrfaglig felt Lingvistikk Informatikk Statistikk Maskinlæring Logikk, Filosofi, Psykologi,... Del av det bredere feltet kunstig intelligens (AI).

Turingtesten 11 Alan Turing i 1950: I propose to consider the question, Can machines think? Definisjonsspørsmål. Skulle avgjøres ved Turingtesten.

IN1140 og tverrfaglighet 12 Stoffet vi dekker i IN1140 tar også for seg stoff fra flere ulike felt. Innføring i lingvistikk, grunnleggende sannsynlighetsregning, programmering, og språkteknologiske anvendelser. Gjør deg godt rustet for flere viderekommende emner, f.eks IN3060 Språkteknologiske metoder IN3050 Kunstig intelligens og maskinlæring INF3800 Søketeknologi og mange flere!

Pensumlitteratur 13 An Introduction to Language av Fromkin, Rodman & Hyams Utvalgte deler (ca 5 kapitler)

Pensumlitteratur 14 Speech and Language Processing av Jurafsky & Martin Utvalgte deler

Pensumlitteratur 15 Natural Language Processing with Python, av Bird, Klein & Loper Oppdatert for Python 3 og NLTK 3 (Natural Language Toolkit) Utvalgte deler Gratis nettbok: http://www.nltk.org/book/

Python 16 Progammering lærer dere først og fremst i IN1000, ikke IN1140. Forelesningene i IN1140 kommer til fokusere på teori. Samtidig ønsker vi å implementere stoffet i praksis, i Python. Implementasjon blir fokus på gruppene og innleveringene. Kræsjkurs i Python-programmering på de første gruppetimene. Viktig med en del egeninnsats i starten for å henge med.

Hvorfor er språkforståelse utfordrende? 17 Språk er vagt, ulike tolkninger mulig. Flertydighet overalt. Gir kompakt kommunikasjon: Samme uttrykk kan brukes i ulike kontekster. Flertydighetene er stort sett usynlige for oss, vi finner den intenderte tolkningen nærmest ubevisst. For maskiner er det motsatt: lett å finne alle mulige tolkninger, men vanskelig å se hvilken som er riktig.

Eksempel: Flertydighet på ordnivå 18 Norsk: rett. Engelsk:? Flertydig ift betydning + syntaktisk ordklasse (verb, subst., adj., adv.). Vi trenger kontekst for å avgjøre. avgrenset av en rett linje tvers over kanalen Hva er rett svar? lovbestemt rett til innsyn Denne rett avsa enstemmig dom i saken 4. juli 1980 Norsk rett tilpasses EUs regelverk Vennligst rett disse prøvene! Det bar rett i fengsel De spiste en deilig rett av grønnsaker. han var rett utenfor, rett nå Slikt skjer rett som det er. straight correct, right right court law grade, correct directly, straight meal, dish just må omskrives

Eksempel: Flertydighet på ordnivå 19

Flertydighet på setningsnivå 20 Jeg spiser sushi med pinner. Jeg spiser sushi med laks.

Språkforståelse er vanskelig! 21 The main lesson of thirty-five years of AI research is that the hard problems are easy and the easy problems are hard. The mental abilities of a four-year-old that we take for granted recognizing a face, lifting a pencil, walking across a room, answering a question in fact solve some of the hardest engineering problems ever conceived... As the new generation of intelligent devices appears, it will be the stock analysts and petrochemical engineers and parole board members who are in danger of being replaced by machines. The gardeners, receptionists, and cooks are secure in their jobs for decades to come. Steven Pinker, The language instinct En robot som bretter et håndkle (videoen er 50 ganger normal hastighet): http://www.youtube.com/watch?v=gy5g33s0gzo

Entydiggjøring 22 Vi mennesker tolker språklige uttrykk basert på delt bakgrunnskunnskap og gjensidige forventninger i en gitt kontekst. Språkforståelse handler mye om entydigjøring. Språkteknologi, og IN1140, handler i stor grad om strategier for hvordan maskiner kan takle dette.

Språkteknologiske metoder 23 2000-tallet: manuelt utformede regeler og leksikon

Språkteknologiske metoder 24 2000-tallet : empirisk revolusjon Maskinlæring Datamaskiner kan lære fra data: fange opp mønstre og generalisere til nye eksempler

Hva kan vi bruke språkteknologi til? 25

Informasjonsekstraksjon 26

Sentiment Analyse 27 Automatisk analyse av subjektivt språk

Medieovervåkning 28

Maskinoversettelse 29

Dialogsystemer 30

Obligatoriske innleveringer 31 3 obliger. Oblig 1 og 2 har to deler hver (a + b). Dvs. 5 innleveringer tilsammen: 1a + 1b, 2a + 2b, 3. Alle obligene må bestås for å kunne ta eksamen. Ingen omlevering. Poengsystemet Man kan oppnå opptil 100 poeng per innlevering For å bestå kreves minst 100 poeng (av 200 mulige) for hver av oblig 1(a+b) og 2(a+b), og 50 poeng for oblig 3. Eksempel: 37 poeng på 2a 68 poeng på 2b = 105 poeng på oblig 2 (= bestått).

Mer om obligene 32 Absolutte frister: Utsettes kun ved egenmelding (opptil 3 dager) eller legeerklæring. Kopiering/plagiat godtas ikke. Sett deg inn i reglene. Husk at hvis du distribuerer løsningsforslaget ditt på nett (f.eks via Github), kan du bidra til juks. Styr unna. Benytt deg av gruppeundervisningen, og planlegg tiden din. Tidsregnskap: Arbeidsinnsats (minimum): 37,5 / 3 = 12,5 timer Etter forelesning+gruppe: 9,5 timer Konkurranse: den/de som får flest poeng tilsammen på obligene gjennom semesteret får en premie (overraskelse)!

Eksamen 33 Skriftlig (digital) eksamen på fire timer 6. desember kl. 09:00 Pensumlitteratur + forelesningsnotater NB! Ikke en programmeringseksamen. Fokus på teoretiske konsepter.

Suksessoppskrift 34 Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc. Lesehenvisninger: forbered deg til forelesning Still spørsmål Gruppetimer: forbered deg delta aktivt gjør oppgaver (også de ikke-obligatoriske) Benytt deg av medstudentene dine lese forstå gråte