INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Like dokumenter
INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #2

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF1820 INF Arne Skjærholt INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

INF INF1820 INF1820. Her kan jeg godt si litt om meg selv. Arne Skjærholt

INF2820 Datalingvistikk V2018 Forelesning 1 del 1, 15. jan. Jan Tore Lønning

INF2820 Datalingvistikk V2016. Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF2820 Datalingvistikk V2017 Forelesning 1.1, 16.1 Jan Tore Lønning

IN1140: Introduksjon til språkteknologi. Forelesning #1

INF2820 Datalingvistikk V2015. Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

INF1820: Oppsummering

1/18/2011. Forelesninger. I dag: Obligatoriske oppgaver. Gruppeundervisning. Jan Tore Lønning & Stephan Oepen

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF2820 Datalingvistikk V Gang Jan Tore Lønning

LF - Eksamen i INF1820

INF1800 LOGIKK OG BEREGNBARHET

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #7

Årlig programevaluering Informatikk: Språkteknologi, torsdag 7. februar 2019

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

INF 2820 V2016: Innleveringsoppgave 3 del 1

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V Gang 19.3 del 1 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

Dagens plan INF3170 Logikk. Obliger og eksamen. Forelesning 1: Introduksjon, mengdelære og utsagnslogikk. Christian Mahesh Hansen og Roger Antonsen

INF2820 Datalingvistikk V Gang Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF Introduksjon til design, bruk, interaksjon Introduksjon

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

INF Introduksjon til design, bruk, interaksjon Introduksjon

INF2820 Datalingvistikk V2012. Jan Tore Lønning & Stephan Oepen

Nye spanskemner ved NTNU studieåret 2016/2017

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Studieplan 2016/2017

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

IN1140: Introduksjon til språkteknologi. Forelesning #13

INF109 (kun et utvalg av kommentarene er med i denne rapporten)

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Ny 0 0,0% Distribuert 64 66,7% Noen svar 1 1,0% Gjennomført 31 32,3% Frafalt 0 0,0% I alt ,0%

INF2820 Datalingvistikk V2017 Forelesning 1.2 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF2820 Datalingvistikk V2014. Jan Tore Lønning

TDT4110 Informasjonsteknologi grunnkurs: Uke 48 Oppsummering/Spørretime. Professor Alf Inge Wang

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF3170 Forelesning 1

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

LESNING AV LITTERATUR HINSIDES MISTENKSOMHETENS HERMENEUTIKK

Dagens plan. INF3170 Logikk

Kort om kursene INF1100 og MAT-INF1100L

Kort om kursene IN1900, MAT-IN1105, IN-KJM1900

Vedtatt av Styret ved NTNU , med endringer vedtatt av Fakultet for samfunnsvitenskap og teknologiledelse senest

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

INF1800 Forelesning 4

FRANSK. Pensumhefte vår Årsstudium Bachelorgrad Mastergrad Andre emner/perspektivemner

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1800 LOGIKK OG BEREGNBARHET

INF 2820 V2016: Innleveringsoppgave 3 hele

Chomskys status og teorier

Hvor mye teoretisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Velkommen til. INF våren 2017

INF112(kun et utvalg av kommentarene er med i denne rapporten)

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Deltidsstudier ved Profesjonshøgskolen

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Uke 10 TID MANDAG TIRSDAG ONSDAG TORSDAG FREDAG. Uke 11 TID MANDAG TIRSDAG ONSDAG TORSDAG FREDAG. Informasjon. Uke 10 UKE 11

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Kort om kursene IN1900, MAT-IN1105, IN-KJM1900

INF 2820 V2016: Obligatorisk innleveringsoppgave 3

Unneberg skole ÅRSPLAN I ENGELSK. 3. trinn. KOMPETANSEMÅL FRA LÆREPLANEN Eleven skal kunne LOKALE KJENNETEGN FOR MÅLOPPNÅELSE.

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

Forelesning 1: Introduksjon og mengdelære Christian Mahesh Hansen januar Praktisk informasjon. 1.1 Forelesere og tid/sted

TMA4100 Matematikk 1, høst 2013

Last ned Innføring i lingvistikk. Last ned. Last ned e-bok ny norsk Innføring i lingvistikk Gratis boken Pdf, ibook, Kindle, Txt, Doc, Mobi

Språk, tospråklighet og dari språk. Språk Tospråklighet Tospråklighet på dari

Hvor mye praktisk kunnskap har du tilegnet deg på dette emnet? (1 = ingen, 5 = mye)

Velkommen til. IN1010 Objektorientert programmering Våren 2018

INF2820 Datalingvistikk V Gang 6.3 Jan Tore Lønning

Studieplan 2011/2012

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

Årsplan engelsk 2.trinn 2018/2019

Transkript:

INF1820: Introduksjon til språk-og kommunikasjonsteknologi Første forelesning Lilja Øvrelid 16 januar, 2012

Tidspunkt: Mandag 12:15-14, lille aud Onsdag 10:15-12, 12:15-14, Chill Arbeidsmengde: 37,5 / 3 = 12,5 timer Etter forelesning+gruppe: 9,5 timer

Obligatoriske oppgaver, poengsystem: 3 obligatoriske oppgaver, hver delt i to deloppgaver (1a + 1b, 2a + 2b, 3a + 3b) 100 mulige poeng per deloppgave For å gå opp til eksamen: bestå alle tre obligatoriske oppgaver akkumulere min 100 poeng for hver obligatoriske oppgave Absolutte frister Kopiering/plagiat Tidsrammer Viktighet av gruppeundervisningen Emnesiden: timeplan, pensum, lesehenvisninger, beskjeder etc.

OPPSKRIFT FOR SUKSESS Lesehenvisninger: forbered deg til forelesning Still spørsmål Gruppetimer: delta forbered deg delta aktivt gjør oppgaver (også de ikke-obligatoriske)

EMNEBESKRIVELSEN Kurset gir en innføring i lingvistisk teori og relaterer denne til språkteknologiske problemområder, metoder og applikasjoner. Fokus er på å koble teori til praksis. Vi vil ta for oss morfologisk, syntaktisk, samt noe semantisk analyse av naturlige språk, formell språkteori og korpusbaserte metoder. Studentene vil få et første møte med noen datalingvistiske applikasjonsområder.

LITTERATUR Pensum: An Introduction to Language (8th Edition) by Victoria A. Fromkin, Robert Rodman, and Nina Hyams Utvalgte deler (ca 5 kapitler) Speech and Language Processing: an Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (2nd edition) by Daniel Jurafsky and James H. Martin Utvalgte deler Deler av: Natural Language Processing with Python by Steven Bird, Ewan Klein and Edward Loper (URL) Utvalgte deler Anbefalt: How to think like a computer scientist: Python, on-line URL

INTRODUKSJON TIL LINGVISTIKK Hva vil det si å beherske et språk? Hva vet vi om menneskelig språkprosessering? Hva mener vi med at språket er uendelig? Hva utgjør språkets byggeklosser? Hvordan settes disse sammen til meningsbærende enheter? Hvem gjør hva mot hvem i en setning? Og hvordan vet vi det?

INTRODUKSJON TIL SPRÅKTEKNOLOGI Kan vi få kunnskap om menneskelig språk ved prosessering av store tekstmengder? Hvordan kan vi formalisere vår kunnskap om språk slik at den kan benyttes i automatiske systemer? Hvordan kan regulære uttrykk brukes til å beskrive språklige fenomener? Hvordan kan vi tildele ordklasser automatisk og hvordan evaluerer vi systemene våre? Hvordan kan vi automatisk gruppere ord til fraser? Hvordan kan vi automatisk skille mellom forskjellige betydninger av et ord?

DU KAN...... skrive enkle programmer for å manipulere store tekstmengder i Python... redusere alle ord i en tekst til dets baseform (oblig1) Søk på dances tango gir treff som learn to dance tango, what is tango dancing... automatisk trekke ut datouttrykk fra en tekst (oblig1) Forslag om å legge til et møte i kalender... lage frekvenslister (oblig1) Hva er årets ord?

DU KAN...... trekke ut entiteter fra en tekst (oblig2): scientists previously unknown creature tropical island Papua New Guinea the world s smallest frog... beregne sannsynligheten for ord i en viss kontekst (Oblig 3) ja takk, det vil jeg... gjerne? hjerne?

DU KAN...... automatisk merke opp ( tagge ) en tekst med ordklasser (Oblig2/Oblig3):

DU KAN...... automatisk merke opp ( tagge ) en tekst med ordklasser (Oblig2/Oblig3): After the social browser launched two weeks earlier, talk about it exploded.

DU KAN...... automatisk merke opp ( tagge ) en tekst med ordklasser (Oblig2/Oblig3): After the social browser launched two weeks earlier, talk about it exploded. 1 After 2 the 3 social 4 browser 5 launched 6 two 7 weeks 8 earlier 9, 10 talk 11 about 12 it 13 exploded

DU KAN...... automatisk merke opp ( tagge ) en tekst med ordklasser (Oblig2/Oblig3): After the social browser launched two weeks earlier, talk about it exploded. 1 After after 2 the the 3 social social 4 browser browser 5 launched launch 6 two two 7 weeks week 8 earlier earlier 9,, 10 talk talk 11 about about 12 it it 13 exploded explode

DU KAN...... automatisk merke opp ( tagge ) en tekst med ordklasser (Oblig2/Oblig3): After the social browser launched two weeks earlier, talk about it exploded. 1 After after IN 2 the the DT 3 social social JJ 4 browser browser NN 5 launched launch VVD 6 two two JJ 7 weeks week NN 8 earlier earlier RBR 9,,, 10 talk talk NN 11 about about IN 12 it it PP 13 exploded explode VVD

DU KAN...... automatisk merke opp ( tagge ) en tekst med ordklasser (Oblig2/Oblig3): After the social browser launched two weeks earlier, talk about it exploded.... og evaluere resultatet! 1 After after IN 2 the the DT 3 social social JJ 4 browser browser NN 5 launched launch VVD 6 two two JJ 7 weeks week NN 8 earlier earlier RBR 9,,, 10 talk talk NN 11 about about IN 12 it it PP 13 exploded explode VVD

DU KAN...... forklare hva som gir opphav til flertydighet i språk og illustrere forskjeller, feks ved hjelp av syntaktiske trær (oblig3): The girls saw Bill on the beach with a telescope

Vitenskapelige studiet av språk Systematisk studie av regler, systemer og prinsipper i menneskelige språk hva har forskjellige språk til felles? og hvordan varierer de? hvordan fungerer språk? hvordan forandrer språk seg over tid? hvordan tilegner barn seg språk? hvordan er språk representert i hjernen?

Hva er lingvistisk kunnskap? Ubevisst (tacit knowledge) Men det er mye kunnskap (know-how vs know-that) Kunnskap om lyd: lydsystemet for et språk rekkefølgen på lyder

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller betydning Vilkårlig (arbitrær) kobling mellom form og betydning odun asa wartawan ciel

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller betydning Vilkårlig (arbitrær) kobling mellom form og betydning odun : tre tyrkisk asa wartawan ciel

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller betydning Vilkårlig (arbitrær) kobling mellom form og betydning odun : tre tyrkisk asa : morgen japansk wartawan ciel

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller betydning Vilkårlig (arbitrær) kobling mellom form og betydning odun : tre tyrkisk asa : morgen japansk wartawan : reporter indonesisk ciel

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller betydning Vilkårlig (arbitrær) kobling mellom form og betydning odun : tre tyrkisk asa : morgen japansk wartawan : reporter indonesisk ciel : himmel fransk

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller betydning Vilkårlig (arbitrær) kobling mellom form og betydning odun : tre tyrkisk asa : morgen japansk wartawan : reporter indonesisk ciel : himmel fransk Konvensjonell sammenheng: må læres

Kunnskap om ord: Viss lydsekvens korresponderer til et visst konsept, eller betydning Vilkårlig (arbitrær) kobling mellom form og betydning odun : tre tyrkisk asa : morgen japansk wartawan : reporter indonesisk ciel : himmel fransk Konvensjonell sammenheng: må læres Er det alt?

Kunnskap om hvordan ord settes sammen til setninger Mengden av setninger er uendelig Evne til å forstå og skape nye setninger, språkbruk er kreativ universell egenskap ved språk Dette er en setning Dette er en setning som jeg skriver akkurat nå Dette er en setning som jeg tror at jeg skriver akkurat nå Dette er en setning som Fredrik mener at jeg tror at jeg skriver akkurat nå osv. Dette er en kjedelig setning Dette er en kjedelig kjedelig setning Dette er en kjedelig kjedelig kjedelig setning osv. Hvor setter vi grensen?

Grammatikalitet Norske sykehus bruker for mye antibiotika *Sykehus norske bruker for mye antibiotika *Norske sykehus for mye antibiotika bruker *Norsk sykehus bruker for mye antibiotika Kunnskap om regler for hvordan man danner setninger i et språk en endelig mengde regler, med et endelig vokabular en uendelig mengde setninger Grammatikalitetsbedømninger Deskriptiv vs. preskriptiv grammatikk

Kunnskapen om enheter og regler i et språk: Fonetikk/fonologi: lyder ord Morfologi: morfemer ord Syntaks: ord fraser, fraser setninger Semantikk: ord betydning, setninger betydning

Lingvistikk: 1. Hva kjennetegner vår kunnskap om språk? 2. Hvordan har vi tilegnet oss denne kunnskapen? 3. Født sånn eller blitt sånn? Universal Grammar -hypotesen (Noam Chomsky) generell arkitektur språk likheter ved språk ( language universals ) kjennetegner det mentale ved språk medfødt

The Innateness Hypothesis Omdebattert: Steven Pinker: The Language Instinct, Geoffrey Sampson s motsvar Språktilegnelse Unik egenskap for mennesker, språk hos dyr? honningbiens dans sjimpanser

HVA VI VET OM SPRÅK Der vi finner mennesker, finner vi språk Det finnes ingen primitive språk Alle språk forandrer seg over tid Forholdet mellom lyd og betydning er (stort sett) arbitrær Alle menneskelige språk bruker endelig (finitt) mengde lyder og ord til å danne uendelig mengde mulige setninger Alle språk kan uttrykke negasjon, spørsmål, gi kommandoer, snakke om fortid/framtid, hypotetiske situasjoner Ethvert normalt barn er i stand til å lære morsmålet sitt

Lingvistiske disipliner