Statistisk modellering av konstruksjonsbetydning: multidimensjonal skalering? Hanne Eckhoff Universitetet i Oslo 18. juni, 2009 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 1 / 27
Diakron syntaks og semantiske kart Konstruksjoner som form betydningspar. Mange syntaktiske endringer er forskyvninger i konstruksjonsbetydning og synonymirelasjoner mellom konstruksjoner. Semantiske kart er gode redskaper til å spore og visualisere slike endringer. Croft (2001:105): diachronic changes in the distribution of a construction should follow connected paths in conceptual space Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 2 / 27
Haspelmath og Croft: store vyer Det konseptuelle rom: a universal structure of conceptual knowledge for communication in human beings (Croft 2001:105). Hypotese: Alle betydningsdistinksjoner mennesker kan gjøre og potensielt grammatikalisere, er strukturert slik at man kan tegne kart der hver konstruksjon dekker et sammenhengende område alle diakrone endringer følger sammenhengende stier Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 3 / 27
Janda 2009: kritikk av semantiske kart Semantiske kart forutsetter diskrete betydninger, og overforenkler data. Lignende kategorier er ikke nødvendigvis sammenlignbare: et språk gjør en distinksjon som et annet språk ikke har to språk kan konseptualisere samme realitet grunnleggende forskjellig Modellen er binær: språk kan ha forskjellig distribusjon selv om de gjør de samme distinksjonene (verb-framed vs. satellite-framed) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 4 / 27
På trygg grunn Sammenligne ulike stadier av samme språk Sammenligne beslektede språk Sammenligne grunnleggende like kategorier (også i svært forskjellige språk?) Sammenligning forutsetter en viss grad av forenkling, men det betyr ikke at vi ikke skal drive med det likevel. Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 5 / 27
Manuelt og komputasjonelt Håndtegning: kapasitetsproblemer MDS/Optimal Classification: krever binære, trekkbaserte data Korrespondanseanalyse: kartframstilling basert på proporsjonsdata Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 6 / 27
Datasett 2323 forekomster av gammeløstslaviske possessivkonstruksjoner (1000 1400) 1045 forekomster av mellomrussiske possessivkonstruksjoner fra 1600-tallet 1286 forekomster av gammelkirkeslaviske possessivkonstruksjoner 707 forekomster av koinégreske possessivkonstruksjoner (NT) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 7 / 27
Tidlige slaviske possessiver form og funksjon Type, adjektivkonstruksjon 2: (1) korovije moloko ku-žj.neut melk kumelk Merkelapp (label), kompleks genitiv: (2) kż til cžržkvi svjatogo Georgija kirke.dat hellig.gen Georgij.gen til St. Georgijs kirke Referansepunkt (RP), adjektivkonstruksjon 1: (3) korablž Glěbovż båt.nom Gleb-ov.nom Glebs båt Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 8 / 27
Tidlige slaviske possessiver form og funksjon Referansepunkt med intrinsisk relasjon (RPin), adjektivkonstruksjon 1: (4) žena ivanova kone.nom ivan-ov.nom Ivans kone Plassfyller (INsl), dativ: (5) na til pogublenže Glěbu dreping.acc Gleb.dat for å drepe Gleb Intrinsisk forhold uten relasjonelt hode (INad), umodifisert genitiv: (6) štit věry skjold.nom tro.gen troens skjold Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 9 / 27
Målsetninger Forstå det synkrone forholdet mellom possessivkonstruksjonene i hvert språk Beskrive den diakrone utviklingen i russisk (fra mange til få possessivkonstruksjoner) Sammenligne gammeløstslavisk og gammelkirkeslavisk Sammenligne gammelkirkeslavisk og gresk gresk bruker genitiv til alle disse funksjonene greske adnominale genitiver kan ha bestemt artikkel på hode og/eller possessor Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 10 / 27
Håndtegning Flytte rundt på funksjonene til alle konstruksjonene dekker sammenhengende områder Mindre objektivt Vanskelig å håndtere veldig store datasett Får ikke uten videre modellert semantisk avstand som fysisk avstand Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 11 / 27
constructions as much as possible. The polysemy of each construction may be illustrated by plotting its Håndtegnet distribution possessivt onto a semantic semantisk map of the possessive romconceptual space: Figure 4.9 The possessive conceptual space. strong unit status RP type relational heads RP instance/ INTRINSIC nonrelational heads RP instance INTRINSIC The possessive conceptual space consists of a cluster of interrelated schematic meanings: RP TYPE and RP INST are of course closely linked by the reference point Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 12 / 27
To sum up our survey of the possessive constructions in 11th 14th century Old Håndtegnet possessivt semantisk rom: konstruksjonssynonymi each construction. Russian, let us plot in all the constructions in the map of the possessive conceptual space in figure 5.9. The coloured lines represent the outer boundary of the distribution of each construction. The coloured fields represent the semantic centre of gravity of Figure 5.9 Distributions of all possessive constructions in the possessive conceptual space DA1 strong unit status DA2 RPtype GENRESTR GENFREE relational heads DAT RPinstance/ INTRINSIC nonrelational heads RPinstance INTRINSIC Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 13 / 27
Håndtegnet: 280 Russisk possessiv THE DEVELOPMENT IN dativ OLD RUSSIAN (1000 1700) Figure 7.13 DAT in the possessive conceptual space, period 1 and 17th century strong unit status RP type relational heads RP instance/ INTRINSIC nonrelational heads RP instance INTRINSIC 7.5 Mixed constructions Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 14 / 27
Multidimensjonal skalering Croft & Poole 2008, Clancy 2006: Semantiske kart kan modelleres matematisk med multidimensjonal skalering (Pooles Optimal Classification-algoritme) Semantisk avstand modelleres som fysisk avstand Krever binære data: enten har konstruksjonen funksjonen eller ikke Komplekse data gir flere dimensjoner enn to, som gir dårlig visualisering Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 15 / 27
MDS, binære data, over 5 % = ja Possessive semantic space, binary data -1.0-0.5 0.0 0.5 1.0 Type Labl INsl INad RPin RPni -1.0-0.5 0.0 0.5 1.0 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 16 / 27
MDS, frekvensdata En funksjon som utgjør over 20 % av forekomstene regnes som både sentral (c) og perifer (p). Utgjør den mindre, regnes den bare som perifer (p). Possessive semantic space -1.0-0.5 0.0 0.5 1.0 Type_p RPni_c Labl_p Type_c RPin_c Labl_c INad_c INad_p INsl_c RPni_p INsl_p RPin_p -1.0-0.5 0.0 0.5 1.0 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 17 / 27
MDS, gammeløstslavisk konstruksjonssynonymi Possessive semantic space, OESl -1.0-0.5 0.0 0.5 1.0 Type_p RPni_c Labl_p Type_c RPin_c Labl_c INad_c INad_p INsl_c RPni_p INsl_p RPin_p -1.0-0.5 0.0 0.5 1.0 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 18 / 27
MDS, gammeløstslavisk dativ 1000 1700 Possessive dative, East Slavic diachrony -1.0-0.5 0.0 0.5 1.0 Type_p RPni_c Labl_p Type_c RPin_c Labl_c INad_c INad_p INsl_c RPni_p INsl_p RPin_p -1.0-0.5 0.0 0.5 1.0 Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 19 / 27
Korrespondanseanalyse Ikke binært, kartet plottes etter proporsjoner. Stor fordel ved omfattende semantiske overlapp, hvor nesten alle konstruksjoner har nesten alle funksjoner. Konstruksjon Type Label RPonly RPintr INTRslot INTRadd DA1 1 9 148 247 34 0 DA2 206 253 54 83 79 81 gencompl 0 45 123 267 124 62 gensimpl 0 0 15 28 57 41 dat 0 11 38 71 11 19 Table: Gammeløstslavisk datasett Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 20 / 27
Korrespondanseanalyse: forhold mellom språk Factor 2 (23.4 %) -0.5 0.0 0.5 1.0 1.5 2.0 17_dat 17_gensimp OCS_gensimp OES_gensimp OCS_dat Gr_IHDP 17_gencompl OCS_gencompl OES_gencompl Gr_IHIP Gr_DHDP OES_dat RPintr RP_only Gr_DHIP 17_DA1 OES_DA1 OCS_DA1 INTRslot INTRadd OCS_DA2 Label OES_DA2 Type 17_DA2-0.5 0.0 0.5 1.0 1.5 2.0 Factor 1 (60.6 %) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 21 / 27
Korrespondanseanalyse: diakroni Factor 2 (23.4 %) -0.5 0.0 0.5 1.0 1.5 2.0 17_dat 17_gensimp OCS_gensimp OES_gensimp OCS_dat Gr_IHDP 17_gencompl OCS_gencompl OES_gencompl Gr_IHIP Gr_DHDP OES_dat RPintr RP_only Gr_DHIP 17_DA1 OES_DA1 OCS_DA1 INTRslot INTRadd OCS_DA2 Label OES_DA2 Type 17_DA2-0.5 0.0 0.5 1.0 1.5 2.0 Factor 1 (60.6 %) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 22 / 27
Hva gir korrespondanseanalysen oss? Klart bilde av subtile forskjeller mellom veldig like systemer (gammeløstslavisk og gammelkirkeslavisk) Klart bilde av diakron utvikling av østslaviske possessivkonstruksjoner Grunn til å mistenke at kategoriseringen ikke er optimal for greske genitivskonstruksjoner: animathet og gitthet? Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 23 / 27
Gresk: animathet og gitthet? Factor 2 (23.4 %) -0.5 0.0 0.5 1.0 1.5 2.0 17_dat 17_gensimp OCS_gensimp OES_gensimp OCS_dat Gr_IHDP 17_gencompl OCS_gencompl OES_gencompl Gr_IHIP Gr_DHDP OES_dat RPintr RP_only Gr_DHIP 17_DA1 OES_DA1 OCS_DA1 INTRslot INTRadd OCS_DA2 Label OES_DA2 Type 17_DA2-0.5 0.0 0.5 1.0 1.5 2.0 Factor 1 (60.6 %) Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 24 / 27
Greske eksempler IHIP, type: (7) en i endúmasin klær.dat i fåreklær probátôn sauer.gen DHIP, RP og intrinsisk forhold: (8) ho adelphós Símonôs Pétrou art bror.nom Simon.gen Peter.gen IHDP: (9) eis til broren til Simon Peter pólin tês Galilaías by.acc art Galilea.gen til en by i Galilea Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 25 / 27
Semantiske kart: et farlig våpen? Kanskje i typologenes og universalieforskernes hender. Semantiske kart: forenkler, men kaster også lys over komplekse forhold mellom delvis synonyme konstruksjoner likheter og forskjeller i nært og mindre nært beslektede språk (slaviske greiner, indoeuropeisk genitiv) syntaktisk endring: langsom drift i konstruksjonsbetydninger Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 26 / 27
Håndtegning eller statistisk modellering Ingen grunn til å ikke ta matematiske metoder til hjelp, særlig ved store og komplekse datasett. Viktig å velge modell som passer dataene. MDS/Optimal Classification er ikke nødvendigvis den beste løsningen i situasjoner med mye overlapp. Croft & Poole: MDS modellerer all variasjon, korrespondanseanalyse bare en stor andel. Semantisk kart: sannhet eller visualisering? Hanne Eckhoff (UiO) Semantiske kart og statistiske modeller 18. juni, 2009 27 / 27