Statistisk modellering av konstruksjonsbetydning: multidimensjonal skalering?

Like dokumenter
Semantikk, pragmatikk og kontekst

Pragmatiske ressurser

Ikke bare sosial prominens: animathetskategorien i gammelkirkeslavisk

Hva er arketyper, og hvilken betydning får de i fremtiden? Gustav Bellika Institutt for Informatikk, UIT gustav@cs.uit.no

Behandling av data bli treffsikker!

Preposisjoner, rombetydninger og semantiske kart

adnominale genitivskonstruksjoner i mellomnorske diplomer

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

FASMED. Tirsdag 21.april 2015

API: Application programming interface, eller programmeringsgrensesnitt

Dynamic Programming Longest Common Subsequence. Class 27

Copula goodness-of-fit testing

Strømmodellering sannhet med modifikasjoner?

Sannsynlighetsregning og Statistikk.

Romlig datamanipulering

Gran og furu overlevde siste istid i Norge??? Mari Mette Tollefsrud, Norsk institutt for skog og landskap

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 24. november 2017

Arbeidstidsforbruk i løsdriftsfjøs for storfe

Modellering av verk Verk og uttrykk i et brukerperspektiv. Litt om modeller/modellering

Store data til dem som trenger det

Kom i gang med Stata for Windows på UiO - hurtigstart for begynnere

Hanne Solheim Hansen, Hugo Nordseth, Grete Ingemann Knudsen, Kaja Skårdal Hegstad, Jose de Pool, Just Kornfeldt,

Poststrukturalisme. SGO 4001 høst 2004 Per Gunnar Røe

Litt kontekst Topic maps er en måte å organisere informasjon på en ISO standard (ISO/IEC 13250:2000) en XML applikasjon et lag oppå XML (gjerne også o

Andre sett obligatoriske oppgaver i INF3100 V2013

UNIVERSITETET I OSLO

Statistikk for språk- og musikkvitere 1

Revegetering av steintipper i høgfjellet

Dataanalyse. Hva er en dataanalyse og hvordan gå frem for å gjennomføre en dataanalyse av det innsamlede datagrunnlaget fra en feltundersøkelse?

Tekstmining: En kort innføring

ST0202 Statistikk for samfunnsvitere Kapittel 9: Inferens om én populasjon

Skal man fortsatt opprettholde skillet mellom positiv og negativ forsterkning

Data og beskrivende statistikk Introduksjon til SPSS. 7. april 2005 Tron Anders Moger

Enkel plotting i LibreOffice/OpenOffice og Excel

Introduksjon til statistikk og dataanalyse. Arild Brandrud Næss TMA4240 Statistikk NTNU, høsten 2013

MØTEPROTOKOLL. Internasjonalt Utvalg. Dato: kl. 9:00 Sted: Skype Arkivsak: 15/01544

Hvordan avslører vi svindel?

Orienteringstekniske oppgaver og ferdigheter

Maple Basics. K. Cooper

Oppgave 1 (samlet 15%)

May legally defined terms be useful for improved interoperability in the public sector?

UNDER CONSTRUCTION! COMING 4TH QTR 2019

SAMMENDRAG KOGNITIVT SOMMERSEMINAR JUNI 2009 HAMAR

Utvikling av skills for å møte fremtidens behov. Janicke Rasmussen, PhD Dean Master Tel

BEGYNNERKURS I SPSS. Anne Schad Bergsaker 3. mai 2018

Statistikk 1. Nico Keilman. ECON 2130 Vår 2014

IN Algoritmer og datastrukturer

Kartlegging i barnehagen. Utdanningsforbundets styrerkonferanse Stavanger Monika Röthle

Informasjonsorganisering. Information Architecture Peter Morville & Jorge Arango Kapittel 4, 5 & 6

APPENDIKS D Geminittisk språk/grammatikk

SYSTEMMEDISIN SOM GRUNNLAG FOR ALLMENNPRAKSIS? - EN KRITISK ANALYSE. Henrik Vogt, PhD-kandidat, AFE Trondheim

Introduksjon, space syntax på 15 minutter

STK1100 våren Generell introduksjon. Omhandler delvis stoffet i avsnitt 1.1 i læreboka (resten av kapittel 1 blir gjennomgått ved behov)

Nyheter i Office 2016 NYHETER, FUNKSJONER, FORKLARING

Mer å hente - hva stopper oss?

LING350 Lingvistikk mastergradsoppgåve

Klasseromseksamen i. LING2111 Språkendring og språktypologi. Våren 2012

Sosiokulturelle stedsanalyser anvendelse i lokal planlegging

Introduksjon til statistikk og dataanalyse

UiA employees Students. Frank!

Erfaringer fra implementeringen av VRI Hordaland

Et treårig Interreg-prosjekt som skal bidra til økt bruk av fornybare drivstoff til persontransporten. greendriveregion.com

Erfaringer fra innsamling ved Osebergeltet

OpenEHR. Arkitektur for et strukturert EPJ? Sigurd From Utviklingsdirektør. DIPS ASA Jernbaneveien 85 Bodø

UNIVERSITETET I OSLO

Hvordan kan Norge digitalt bidra til utviklinga i fylket?

Annika Odland og Anniken S. Odland Verdal 21. oktober 2015

Summer Cup June Uken før vi reiser, vil vi trene her hjemme. Nærmere informasjon om dette kommer senere.

HIOA 16. januar NCC Prosjektstudio. Leder VDC Terje Andersen og leder BIM+ Magne Ganz NCC Construction AS

KROPPEN LEDER STRØM. Sett en finger på hvert av kontaktpunktene på modellen. Da får du et lydsignal.

Stefan Blumentrath, Nina Eide

Spredningsberegninger for PAH

Innledende arbeid i en EU-søknad Seminar UV-fakultet EUs Horisont 2020: Erfaringer fra søknadsskriving

Hvordan komme i gang med ArchiMate? Det første modelleringsspråket som gjør TOGAF Praktisk

Skille mellom teksttyper ved hjelp av ordlengder

(12) Translation of european patent specification

Kurskategori 3: Design av IKT- systemer. Normalt vår, 14/15: høst

Unit Relational Algebra 1 1. Relational Algebra 1. Unit 3.3

TextureTool med SOSI-parser

Statoils erfaringer fra CO 2 -lagring

Autismespektertilstander og personlighetsforstyrrelser

Vokabularer for læring - standarder og standardiseringsinitiativ på ontologiområdet Fra visjon til virkelighet

Grunnleggende ferdigheter i Kunnskapsløftet - en ny forståelse av kunnskap?

HIGHPOINT LOT 3. $ $15.95 psf NNN 1,780-11,943 SF COMMERCIAL FOR LEASE N 203rd St. Elkhorn, Nebraska * * CERTIFIED *

Korpuslingvisten i klasserommet: lingvistiske profiler i fremtidens språkundervisning

Du må håndtere disse hendelsene ved å implementere funksjonene init(), changeh(), changev() og escape(), som beskrevet nedenfor.

HOW TO GET TO TØI By subway (T-bane) By tram By bus By car Fra flyplassen

Tangenten: tidsskrift for matematikkundervisning. Bakken Omdreiningslegemer med 3D-printer

Statens vegvesen. Rekkverket med føringsskinne av type A er i utgangspunktet samme egenskaper som det som var fullskalatestet, type B.

International Match U 18 CZE - HUN - SLO - SVK

ECON1210 Forbruker, bedrift og marked Forelesning 5

Løft matematikkundervisningen. med Multi Gruppere ulike mengder. Telling. Lineær modell

UNIVERSITETET I OSLO

Bytte til split Collin Lanyard RSL. Obligatorisk - alle rigger skal ha dette montert ved hopping etter

Klimaforskernes suksess i EUs 6. RP. Hvordan hente ut merverdi i EUs 7. RP? Ingunn Borlaug Lid

Det står skrevet i evangeliet etter Johannes i det 1. Kapittel:

Tidlig språkutvikling hos norske barn

Sted: Glasgow. Ett turbinalternativ er vurdert: 23 x Vestas V112, 3,3 MW med 94 m navhøyde (maksimal rotorspisshøyde = 150 m)

UML 1. Use case drevet analyse og design Kirsten Ribu

Et TEMA fra - Roald's rom i rommet. B. Er vår norske formaning lik den bibelske formaning?

Transkript:

Statistisk modellering av konstruksjonsbetydning: multidimensjonal skalering? Hanne Eckhoff Universitetet i Oslo 18. juni, 2009 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 1 / 27

Diakron syntaks og semantiske kart Konstruksjoner som form betydningspar. Mange syntaktiske endringer er forskyvninger i konstruksjonsbetydning og synonymirelasjoner mellom konstruksjoner. Semantiske kart er gode redskaper til å spore og visualisere slike endringer. Croft (2001:105): diachronic changes in the distribution of a construction should follow connected paths in conceptual space Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 2 / 27

Haspelmath og Croft: store vyer Det konseptuelle rom: a universal structure of conceptual knowledge for communication in human beings (Croft 2001:105). Hypotese: Alle betydningsdistinksjoner mennesker kan gjøre og potensielt grammatikalisere, er strukturert slik at man kan tegne kart der hver konstruksjon dekker et sammenhengende område alle diakrone endringer følger sammenhengende stier Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 3 / 27

Janda 2009: kritikk av semantiske kart Semantiske kart forutsetter diskrete betydninger, og overforenkler data. Lignende kategorier er ikke nødvendigvis sammenlignbare: et språk gjør en distinksjon som et annet språk ikke har to språk kan konseptualisere samme realitet grunnleggende forskjellig Modellen er binær: språk kan ha forskjellig distribusjon selv om de gjør de samme distinksjonene (verb-framed vs. satellite-framed) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 4 / 27

På trygg grunn Sammenligne ulike stadier av samme språk Sammenligne beslektede språk Sammenligne grunnleggende like kategorier (også i svært forskjellige språk?) Sammenligning forutsetter en viss grad av forenkling, men det betyr ikke at vi ikke skal drive med det likevel. Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 5 / 27

Manuelt og komputasjonelt Håndtegning: kapasitetsproblemer MDS/Optimal Classification: krever binære, trekkbaserte data Korrespondanseanalyse: kartframstilling basert på proporsjonsdata Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 6 / 27

Datasett 2323 forekomster av gammeløstslaviske possessivkonstruksjoner (1000 1400) 1045 forekomster av mellomrussiske possessivkonstruksjoner fra 1600-tallet 1286 forekomster av gammelkirkeslaviske possessivkonstruksjoner 707 forekomster av koinégreske possessivkonstruksjoner (NT) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 7 / 27

Tidlige slaviske possessiver form og funksjon Type, adjektivkonstruksjon 2: (1) korovije moloko ku-žj.neut melk kumelk Merkelapp (label), kompleks genitiv: (2) kż til cžržkvi svjatogo Georgija kirke.dat hellig.gen Georgij.gen til St. Georgijs kirke Referansepunkt (RP), adjektivkonstruksjon 1: (3) korablž Glěbovż båt.nom Gleb-ov.nom Glebs båt Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 8 / 27

Tidlige slaviske possessiver form og funksjon Referansepunkt med intrinsisk relasjon (RPin), adjektivkonstruksjon 1: (4) žena ivanova kone.nom ivan-ov.nom Ivans kone Plassfyller (INsl), dativ: (5) na til pogublenže Glěbu dreping.acc Gleb.dat for å drepe Gleb Intrinsisk forhold uten relasjonelt hode (INad), umodifisert genitiv: (6) štit věry skjold.nom tro.gen troens skjold Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 9 / 27

Målsetninger Forstå det synkrone forholdet mellom possessivkonstruksjonene i hvert språk Beskrive den diakrone utviklingen i russisk (fra mange til få possessivkonstruksjoner) Sammenligne gammeløstslavisk og gammelkirkeslavisk Sammenligne gammelkirkeslavisk og gresk gresk bruker genitiv til alle disse funksjonene greske adnominale genitiver kan ha bestemt artikkel på hode og/eller possessor Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 10 / 27

Håndtegning Flytte rundt på funksjonene til alle konstruksjonene dekker sammenhengende områder Mindre objektivt Vanskelig å håndtere veldig store datasett Får ikke uten videre modellert semantisk avstand som fysisk avstand Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 11 / 27

constructions as much as possible. The polysemy of each construction may be illustrated by plotting its Håndtegnet distribution possessivt onto a semantic semantisk map of the possessive romconceptual space: Figure 4.9 The possessive conceptual space. strong unit status RP type relational heads RP instance/ INTRINSIC nonrelational heads RP instance INTRINSIC The possessive conceptual space consists of a cluster of interrelated schematic meanings: RP TYPE and RP INST are of course closely linked by the reference point Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 12 / 27

To sum up our survey of the possessive constructions in 11th 14th century Old Håndtegnet possessivt semantisk rom: konstruksjonssynonymi each construction. Russian, let us plot in all the constructions in the map of the possessive conceptual space in figure 5.9. The coloured lines represent the outer boundary of the distribution of each construction. The coloured fields represent the semantic centre of gravity of Figure 5.9 Distributions of all possessive constructions in the possessive conceptual space DA1 strong unit status DA2 RPtype GENRESTR GENFREE relational heads DAT RPinstance/ INTRINSIC nonrelational heads RPinstance INTRINSIC Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 13 / 27

Håndtegnet: 280 Russisk possessiv THE DEVELOPMENT IN dativ OLD RUSSIAN (1000 1700) Figure 7.13 DAT in the possessive conceptual space, period 1 and 17th century strong unit status RP type relational heads RP instance/ INTRINSIC nonrelational heads RP instance INTRINSIC 7.5 Mixed constructions Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 14 / 27

Multidimensjonal skalering Croft & Poole 2008, Clancy 2006: Semantiske kart kan modelleres matematisk med multidimensjonal skalering (Pooles Optimal Classification-algoritme) Semantisk avstand modelleres som fysisk avstand Krever binære data: enten har konstruksjonen funksjonen eller ikke Komplekse data gir flere dimensjoner enn to, som gir dårlig visualisering Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 15 / 27

MDS, binære data, over 5 % = ja Possessive semantic space, binary data -1.0-0.5 0.0 0.5 1.0 Type Labl INsl INad RPin RPni -1.0-0.5 0.0 0.5 1.0 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 16 / 27

MDS, frekvensdata En funksjon som utgjør over 20 % av forekomstene regnes som både sentral (c) og perifer (p). Utgjør den mindre, regnes den bare som perifer (p). Possessive semantic space -1.0-0.5 0.0 0.5 1.0 Type_p RPni_c Labl_p Type_c RPin_c Labl_c INad_c INad_p INsl_c RPni_p INsl_p RPin_p -1.0-0.5 0.0 0.5 1.0 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 17 / 27

MDS, gammeløstslavisk konstruksjonssynonymi Possessive semantic space, OESl -1.0-0.5 0.0 0.5 1.0 Type_p RPni_c Labl_p Type_c RPin_c Labl_c INad_c INad_p INsl_c RPni_p INsl_p RPin_p -1.0-0.5 0.0 0.5 1.0 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 18 / 27

MDS, gammeløstslavisk dativ 1000 1700 Possessive dative, East Slavic diachrony -1.0-0.5 0.0 0.5 1.0 Type_p RPni_c Labl_p Type_c RPin_c Labl_c INad_c INad_p INsl_c RPni_p INsl_p RPin_p -1.0-0.5 0.0 0.5 1.0 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 19 / 27

Korrespondanseanalyse Ikke binært, kartet plottes etter proporsjoner. Stor fordel ved omfattende semantiske overlapp, hvor nesten alle konstruksjoner har nesten alle funksjoner. Konstruksjon Type Label RPonly RPintr INTRslot INTRadd DA1 1 9 148 247 34 0 DA2 206 253 54 83 79 81 gencompl 0 45 123 267 124 62 gensimpl 0 0 15 28 57 41 dat 0 11 38 71 11 19 Table: Gammeløstslavisk datasett Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 20 / 27

Korrespondanseanalyse: forhold mellom språk Factor 2 (23.4 %) -0.5 0.0 0.5 1.0 1.5 2.0 17_dat 17_gensimp OCS_gensimp OES_gensimp OCS_dat Gr_IHDP 17_gencompl OCS_gencompl OES_gencompl Gr_IHIP Gr_DHDP OES_dat RPintr RP_only Gr_DHIP 17_DA1 OES_DA1 OCS_DA1 INTRslot INTRadd OCS_DA2 Label OES_DA2 Type 17_DA2-0.5 0.0 0.5 1.0 1.5 2.0 Factor 1 (60.6 %) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 21 / 27

Korrespondanseanalyse: diakroni Factor 2 (23.4 %) -0.5 0.0 0.5 1.0 1.5 2.0 17_dat 17_gensimp OCS_gensimp OES_gensimp OCS_dat Gr_IHDP 17_gencompl OCS_gencompl OES_gencompl Gr_IHIP Gr_DHDP OES_dat RPintr RP_only Gr_DHIP 17_DA1 OES_DA1 OCS_DA1 INTRslot INTRadd OCS_DA2 Label OES_DA2 Type 17_DA2-0.5 0.0 0.5 1.0 1.5 2.0 Factor 1 (60.6 %) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 22 / 27

Hva gir korrespondanseanalysen oss? Klart bilde av subtile forskjeller mellom veldig like systemer (gammeløstslavisk og gammelkirkeslavisk) Klart bilde av diakron utvikling av østslaviske possessivkonstruksjoner Grunn til å mistenke at kategoriseringen ikke er optimal for greske genitivskonstruksjoner: animathet og gitthet? Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 23 / 27

Gresk: animathet og gitthet? Factor 2 (23.4 %) -0.5 0.0 0.5 1.0 1.5 2.0 17_dat 17_gensimp OCS_gensimp OES_gensimp OCS_dat Gr_IHDP 17_gencompl OCS_gencompl OES_gencompl Gr_IHIP Gr_DHDP OES_dat RPintr RP_only Gr_DHIP 17_DA1 OES_DA1 OCS_DA1 INTRslot INTRadd OCS_DA2 Label OES_DA2 Type 17_DA2-0.5 0.0 0.5 1.0 1.5 2.0 Factor 1 (60.6 %) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 24 / 27

Greske eksempler IHIP, type: (7) en i endúmasin klær.dat i fåreklær probátôn sauer.gen DHIP, RP og intrinsisk forhold: (8) ho adelphós Símonôs Pétrou art bror.nom Simon.gen Peter.gen IHDP: (9) eis til broren til Simon Peter pólin tês Galilaías by.acc art Galilea.gen til en by i Galilea Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 25 / 27

Semantiske kart: et farlig våpen? Kanskje i typologenes og universalieforskernes hender. Semantiske kart: forenkler, men kaster også lys over komplekse forhold mellom delvis synonyme konstruksjoner likheter og forskjeller i nært og mindre nært beslektede språk (slaviske greiner, indoeuropeisk genitiv) syntaktisk endring: langsom drift i konstruksjonsbetydninger Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 26 / 27

Håndtegning eller statistisk modellering Ingen grunn til å ikke ta matematiske metoder til hjelp, særlig ved store og komplekse datasett. Viktig å velge modell som passer dataene. MDS/Optimal Classification er ikke nødvendigvis den beste løsningen i situasjoner med mye overlapp. Croft & Poole: MDS modellerer all variasjon, korrespondanseanalyse bare en stor andel. Semantisk kart: sannhet eller visualisering? Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 27 / 27