INF2820 Datalingvistikk V2014 Jan Tore Lønning
INF2820 Datalingvistikk 19. januar 2014 2
I dag: 1. Time: Datalingvistikk: motivasjon og eksempler Praktisk informasjon 2. Time: Endelige tilstandsteknikker OBS: Lov å stille spørsmål underveis
The game of the name 1. Datalingvistikk 1. Computational linguistics 3. Språkteknologi 3. (Human) Language Technology 2. Natural language processing 2.Språkprosessering / prosessering av naturlige språk Computer science Artificial intelligence (AI) NLP Navnene har litt forskjellig opphav og tradisjon, eks. I dag brukes navnene til dels om hverandre 19. januar 2014 4
The name of the game Datalingvistikk Prosessering av naturlige språk Språkteknologi Språk: Norsk, arabisk, japansk, Naturlige: Oppstått Ikke oppfunnet Data Prosessering Teknologi 19. januar 2014 5
Hvorfor datalingvistikk? Visjonen om kunstig intelligens Modeller av mennesker Forstå Erstatte Nyttig, anvendelser: Supplere mennesker
Skjønner datamaskinen hva jeg sier? Visjon: Intelligente maskiner Maskiner som forstår Roboter En slik maskin må: Kunne snakke og lytte Ingen intelligens uten språk
2011-sensasjon: Watson på Jeopardy
Nytte, eks.: oversettelse Drømmen fra 16 år siden Ikke i 2003, men hvor er vi i dag? Taleoversettelse Weboversettelse
Menneske-maskininteraksjon Visjon: Kommunisere med datamaskinen som til et menneske: Eks.: 2001 en romodyssé 2011: Siri Basert på langsiktig grunnforskning: SRI
Språkteknologi 2014 Fra visjon til virkelighet Integrert i en rekke applikasjoner Drevet av: Internett Mobilteknologi Anvendelser: Stave- og grammatikkontroll Talegjenkjenning, diktering Syntetisk tale, eks. GPS Maskinoversettelse Dialogsystemer Søk i tekst (innholdsrelaterte) Web analytics Overvåkning
Modell Talegjenkjenning Syntaktisk og semantisk analyse Talesyntese Generering Typisk tre trinn Analyse (syntaktisk, semantisk, ) Utføring av oppgave (finn svar, transfer, ) Generer svar Rundt dette et større system: dialoghåndtering mm.
Fra NLTK
19. januar 2014 flertydighet 14
Hva skal vi gjøre i INF2820? Fokusere på grunnleggende teknikker: Språk: naturlige og formelle språk Endelige tilstandsteknikker for nat.spr. Kontekstfrie grammatikker Parsing av kontekstfrie grammatikker for naturlige språk Unifikasjonsgrammatikker Semantikk
Verktøy Endelige tilstandsteknikker De første ukene NLTK: The Natural Language Toolkit Programmer for ulike typer NLPoppgaver Kan kombinere med egen kode Vekt på opplæring: Men også brukt for større oppgaver Bok, dokumentasjon 19. januar 2014 16
Python Gode strukturer for tekst: Strenger Lister Read-eval-print-loop Lesbar, strukturert kode: Kompakt, nesten pseudokode Gir gode programmeringsvaner Lett å lære Objektorientert Mye brukt: tilgjengelig, bibliotek, grensesnitt Nyttig senere i livet: scripting 19. januar 2014 17
Læremidler Presentasjoner som blir lagt ut på nett Deler av Bøker: Jurafsky og Martin, Speech and Language Processing S. Bird, E. Klein and E. Loper: Natural Language Processing with Python (Finnes på nett) Kode Noen artikler/web-sider/utdelt materiale OBS: Samme bok! 19. januar 2014 18
Forelesninger Jan Tore Lønning, jtl@ifi.uio.no, Forelesninger: Torsdag10.15-12 Sted: Pascal, 2452 16 uker 19. januar 2014 19
Gruppeundervisning Bo Bjerke-Lindstrøm Tirsdag12.15-14 Sted varierer følg med: Teori: Logo 2438 Terminal: Fortress 3468 Første gang 21. jan, Fortress The place to be: Rom 3467 Fortran Programstue: - Informatikk: språk og kommunikasjon - (IT: språk, logikk, psykologi) 19. januar 2014 20
Arbeidsformer og arbeidsmengde Forelesninger 2 t/uke Gruppe 2 t/uke Teorioppgaver I Pensumlesning I Terminalarbeid 13 +9 t/u samlet i gj.snitt Obligatoriske oppgaver: 4 sett, alle må bestås Men: også ikkeobligatoriske oppgaver er eksamensstoff Undervisningen er eksamensrelevant selv om den ikke er obligatorisk 19. januar 2014 21