INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning
INF2820 Datalingvistikk 16. januar 2017 2
I dag: 1. Time: Datalingvistikk: motivasjon og eksempler Praktisk informasjon 2. Time: Regulære språk OBS: Lov å stille spørsmål underveis
The game of the name 1. Datalingvistikk 1. Computational linguistics 3. Språkteknologi 3. (Human) Language Technology 2. Natural language processing 2.Språkprosessering / prosessering av naturlige språk Computer science Artificial intelligence (AI) NLP Data Science NLP Navnene har litt forskjellig opphav og tradisjon, eks. I dag brukes navnene til dels om hverandre 16. januar 2017 4
The name of the game Datalingvistikk Prosessering av naturlige språk Språkteknologi Språk: Norsk, arabisk, japansk, Naturlige: Oppstått Ikke oppfunnet Data Prosessering Teknologi 16. januar 2017 5
Hvorfor datalingvistikk? 1. Visjonen om kunstig intelligens (Artificial intelligence/ai) Modeller av mennesker Forstå Erstatte 2. Nyttig, anvendelser: Supplere mennesker Redskap
Skjønner datamaskinen hva jeg sier? Visjon: Intelligente maskiner Maskiner som forstår Roboter En slik maskin må: Kunne snakke og lytte Ingen intelligens uten språk
Språkteknologi 2016 nytteaspektet Fra visjon til virkelighet Integrert i en rekke applikasjoner Drevet av: Internett/Store datamengder Mobilteknologi Anvendelser: Stave og grammatikkontroll Talegjenkjenning, diktering Syntetisk tale, eks. GPS Maskinoversettelse Dialogsystemer Søk i tekst (innholdsrelaterte) Analyse av store tekstmengder Analyse av internett Overvåkning
2017: Kunstig intelligens overalt 16. januar 2017 9
Maskinoversettelse 16. januar 2017 10
Stemmestyrte assistenter 16. januar 2017 11
Språkteknologi - tekstanalyse Twitter, Social media Do customers like the < >? Which model do people prefer? Did the electors like my last speech? Future stock prices? Danger of violent revolt? Produktanbefalinger Reklame, individualisering Overvåkning 12
Tekstanalyse, eksempler + Diagnosis? Recommended treatment? Mining the archives of the oil company Can we find more oil? 13
Modell Syntaktisk og semantisk analyse Talegjenkjenning Talesyntese Generering Typisk tre trinn Analyse (syntaktisk, semantisk, ) Utføring av oppgave (finn svar, transfer, ) Generer svar Rundt dette et større system: dialoghåndtering mm.
Fra NLTK
Flertydighet Den største utfordringen i språkteknologi Eksempel fra Youtube-video om Watson: 16. januar 2017 16
Hva skal vi gjøre i INF2820? Fokusere på grunnleggende teknikker: Språk: naturlige og formelle språk Endelige tilstandsteknikker for nat.spr. Leksiokon og morfologi Kontekstfrie grammatikker Parsing av kontekstfrie grammatikker for naturlige språk Enkel maskinlæring: sannsynlighetsbaserte metoder
Verktøy Endelige tilstandsteknikker De første ukene NLTK: The Natural Language Toolkit Programmer for ulike typer NLPoppgaver Kan kombinere med egen kode Vekt på opplæring: Men også brukt for større oppgaver Bok, dokumentasjon 16. januar 2017 18
Python Gode strukturer for tekst: Strenger Lister Read-eval-print-loop Lesbar, strukturert kode: Kompakt, nesten pseudokode Gir gode programmeringsvaner Lett å lære Objektorientert Mye brukt: tilgjengelig, bibliotek, grensesnitt Nyttig senere i livet: scripting 16. januar 2017 19
Læremidler Deler av Bøker: Jurafsky og Martin, Speech and Language Processing S. Bird, E. Klein and E. Loper: Natural Language Processing with Python (Finnes på nett) Kode Presentasjoner som blir lagt ut på nett Supplerende Erstatter ikke bøker Noen artikler/web-sider/utdelt materiale OBS: Samme bok! 16. januar 2017 20
Forelesninger Jan Tore Lønning, jtl@ifi.uio.no, Forelesninger: Mandag 10.15 12 Sted: Prolog 15 16 uker (litt mange mandager går bort til påske og 1.mai) 16. januar 2017 21
Gruppeundervisning Eivind Alexander Bergem Tirsdag 10.15 12 Fortress Første gang 24. jan. The place to be: Rom 3467 Fortran Programstue: Informatikk: språk og kommunikasjon 16. januar 2017 22
Arbeidsformer og arbeidsmengde Forelesninger 2 t/uke Gruppe 2 t/uke Teorioppgaver I Pensumlesning I I Obligs Terminalarbeid 13 +9 t/u samlet i gj.snitt Obligatoriske oppgaver: 5 sett poengsystem Men: også ikkeobligatoriske oppgaver er eksamensstoff Undervisningen er eksamensrelevant selv om den ikke er obligatorisk 16. januar 2017 23
Forkunnskaper INF1000 Grunnkurs i objektorientert programmering, INF1080 Logiske metoder for informatikk INF1820 Introduksjon til språk og kommunikasjonsteknologi Disse er ikke obligatoriske, men i undervisningen regner med at du har disse kunnskapene Hvis du mangler ett av emnene vil du kunne ta INF2820, hvis Du har gode kunnskaper på de andre områdene Er villig til å legge inn en ekstra innsats 16. januar 2017 24