Nødvendige noder i norsk Grunntrekk i en leksikalsk-funksjonell beskrivelse av norsk syntaks



Like dokumenter
INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

Parsing basert på LFG: Et MlT/Xerox-system applisert på norsk

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V gang, Jan Tore Lønning

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 23.3 Jan Tore Lønning

Norsyg en syntaksbasert dyp parser for norsk

INF2820 Datalingvistikk V Gang 6.4 Jan Tore Lønning

INF2820 Datalingvistikk V2011. Jan Tore Lønning & Stephan Oepen

Uke 7: Små barn, små setninger I

INF2820 Datalingvistikk V gang, Jan Tore Lønning

. Grammatiske problem med å beskrive ordklassen adverb og setningsleddet adverbial i norsk. Sverre Stausland Johnsen Universitetet i Oslo

2 Substantiv Genus Bøyning Substantiv med bare entallsformer Substantiv med bare flertallsformer 17 2.

UNIVERSITETET I OSLO DET HUMANISTISKE FAKULTET. Hjemmeeksamen/heimeeksamen i. LING2104 Morfologi og syntaks 2

IN1140: Introduksjon til språkteknologi. Forelesning #7

"Det er fort gjort og skrive feil." En presentasjon av en automatisk grammatikkontroll for bokmål

NORSK ANDRESPRÅKSKORPUS KURSHEFTE. ASK, kurshefte Hilde Johansen (2011) 1

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

Universelle representasjoner av norske klokkeslett

INF1820 INF Arne Skjærholt INF1820. dairoku: del 6, kougi: forelesning. Arne Skjærholt

Grammatikk En innføring av Anne Lene Berge

APPENDIKS D Geminittisk språk/grammatikk

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

3. Generell presentasjon av MT-programmet

Slides til 12.1 Formelt språk og formell grammatikk

EXFAC EURA Syntaks2 1

Setningsledd. Norsk som fremmedspråk Side 131

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF 2820 V2016: Innleveringsoppgave 3 del 1

2/6/2012. Begrensninger ved regulære språk. INF2820 Datalingvistikk V2012. Formelle språk som ikke er regulære KONTEKSTFRIE GRAMMATIKKER.

En del av kildene i denne delen av oppgaven er av eldre art. Blant annet henviser jeg til Heggelund sin avhandling, med utgivelsesår 1981.

INF1820 INF Arne Skjærholt INF1820. Arne Skjærholt

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

norsk grammatikk 149BE6CADCAB6FFCFBAA3C DC4 Norsk Grammatikk 1 / 6

Verbets tider til A-1

Matematisk morfologi III

INF2820 Datalingvistikk V2012. Jan Tore Lønning

Graden av verbflytting i underordnede setninger i tre norske dialekter

Obligatorisk oppgave 4, INF2820, 2014

Morfologi. Studiet av ordenes struktur Kap. 11 Om morfer (selvsagt) og litt større ting. EXFAC EURA 2. Morfologi1 1

MAT1140: Kort sammendrag av grafteorien

IN1140: Introduksjon til språkteknologi. Forelesning #8

INF2820 Datalingvistikk V Gang 30.3 Jan Tore Lønning

UNIVERSITETET I OSLO

Uke 12: Hvem, hva, hvor II: Hv-spørsmål i underordnede setninger.

Diverse eksamensgaver

Eneboerspillet del 2. Håvard Johnsbråten, januar 2014

Mot en trebank for talespråk

Kanter, kanter, mange mangekanter

Teori om preferanser (en person), samfunnsmessig velferd (flere personer) og frikonkurranse

INF1820: Oppsummering

Introduksjon i ordklasseteori og tegnklasser

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Oppgave 1. La G1 være grammatikken med hovedsymbol S og følgende regler:

Norsk minigrammatikk bokmål

Samspillet mellom leksikon og syntaks

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Eksamen (6 timar) 29. november 2010, kl

INF2820 Datalingvistikk V Gang 16.3 Jan Tore Lønning

At-setninger uten at

NORSKPRØVEN 2014 ny muntlig prøve. Sett inn sted, dato og foredragsholder Kurs i vurdering av ny muntlig prøve, i regi av Vox

Ordklasser Inndelingen ORDKLASSEINNDELINGEN

Det vil æ ikke eller Det vil ikke æ

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

Informasjonsteori Skrevet av Joakim von Brandis,

Overblikk over komplementer i kinesisk

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

INF2820 Datalingvistikk V Gang Jan Tore Lønning

Syntax/semantics - I INF 3110/ /29/2005 1

LO118D Forelesning 3 (DM)

Oppgave 1 Vi har gitt følgende grammatikk for noe vi kan kalle speilengelsk :

Innhold. 1 Innledning Semantikk Talespråk og skriftspråk 47. Forkortelser Språket som kodesystem 17 1.

INF2820 Datalingvistikk V Gang 13.4 Jan Tore Lønning

Spørsmål 1.1 (10%) Lag en ikke-deterministisk endelig tilstandsautomat (NFA) som beskriver dette språket.

Veiledning og tilleggsoppgaver til kapittel 8 i Her bor vi 1

Uke 10: Jakten på de forsvunnede subjektet: Om barns tidlige subjektsløse setninger.

Oppgaver som illustrerer alle teknikkene i 1.4 og 1.5

Semantisk Analyse del I

Fasit til oppgaver i Språk i skolen, kapittel 4. Versjon: 15. mai 2015

INESS Infrastructure for the Exploration of Syntax and Semantics

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak

a) Sett strek mellom ordene og forklaringene som betyr omtrent det samme. b) Sett inn riktig ord uten å

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

Innhold NorskPluss Kort botid

INF1820: Introduksjon til språk-og kommunikasjonsteknologi

ETTERNAVN OG MELLOMNAVN MED FAMILIETRADISJON

INF2820 Datalingvistikk V Gang 20.3 Jan Tore Lønning

Negasjonen ikke: kategori og syntaktisk posisjon

TID TEMA KOMPETANSEMÅL ARBEIDSMETODER VURDERINGSFORMER RESSURSER

INF2820 Datalingvistikk V Gang 13.3 Jan Tore Lønning

INF2820 Datalingvistikk V Gang 9.3 Jan Tore Lønning

Argumentasjon og regnestrategier

UKE TEMA SKRIVE GRAMMATIKK VERK ARBEIDMETODER. flertall

Definisjonene og forklaringene i denne presentasjonen er hentet fra eller basert på kap. 1 (Kristoffersen: «Hva er språk?

FORBEREDELSE TIL ÅRSPRØVE I ENGELSK 7. KLASSE FREDAG 19. MAI 2017

NORSK FOR INTERNASJONALE STUDENTER

Transkript:

1 Nødvendige noder i norsk Grunntrekk i en leksikalsk-funksjonell beskrivelse av norsk syntaks Helge Dyvik 1. Innledning Etter fremveksten av generativ syntaks var det lenge vanlig å se den som et adskilt prosjekt fra deskriptiv syntaks. Generative lingvister var teoretikere, og teoretikerne studerte fragmenter av språket og formaliserte grammatiske beskrivelser av dem, eller mer vanlig nøyet seg med å skissere en formalisering. De deskriptive, derimot, som tok sikte på bredere empiriske beskrivelser, arbeidet gjerne innenfor mer tradisjonelle rammeverk, og så ikke formaliserbarhet som noe mål. Språkteknologiens behov har endret denne situasjonen. Språkteknologiske systemer som forutsetter en grad av tekstforståelse, f.eks. maskinoversettelse, tekstsammendrag, intelligent informasjonssøkning eller korrekturlesning, kan ha behov for formaliserte syntaktiske beskrivelser med bred empirisk dekning. Å utarbeide slike beskrivelser er også en teoretisk utfordring, ettersom de teoretiske analysene av grammatikkfragmenter nå må gjøres forenlige med hverandre. Sålenge fragmentet var analysehorisonten, var slik forenlighet på ingen måte garantert. Dermed er ikke språkteknologien alene om å motivere deskriptive generative prosjekter: De er også lingvistisk interessante. Utførlige regelbaserte språkbeskrivelser er tradisjonelt blitt møtt med skepsis i deler av forskningsmiljøene rundt språkprosessering, der statistiske metoder, for eksempel metoder basert på nevrale nettverk, ofte forfølges som mer lovende alternativer. Men det er langt fra sannsynliggjort at slike metoder alene vil kunne bringe oss vesentlig videre med oppgaver som forutsetter meningsbasert klassifisering, som for eksempel maskinoversettelse. Løsningen må formodentlig bli en samvirkning mellom kvantitative og regelbaserte metoder. Nyere arbeid med parsing av komplekse grammatikkformalismer, som arbeidet med plattformen 'Xerox Linguistic Environment' (XLE) ved Xerox PARC i Palo Alto, viser forøvrig at effektiviteten av slik parsing kan bli overraskende god, og at det fremdeles er ny innsikt å vinne på dette feltet. Den empiriske dekningen av en formalisert syntaktisk beskrivelse behøver ikke å bli særlig stor før datamaskinen blir et uunnværlig arbeidsredskap. Bare ved hjelp av datamaskinelle plattformer som for eksempel XLE er det mulig å holde rede på konsekvensene av selv ganske fragmentariske grammatikker. I prosjektet NorGram, finansiert av NFR, utvikler dr.art. Victoria Rosén og forfatteren grammatikker for norsk bokmål og nynorsk på XLE, med sikte på bred empirisk dekning. NorGram inngår i paraplyprosjektet ParGram, der vi samarbeider med grupper i Palo Alto, Grenoble og Stuttgart, som utvikler grammatikker for henholdsvis engelsk, fransk og tysk. XLE-plattformen bygger på den lingvistiske teorien leksikalsk-funksjonell grammatikk (LFG), og i denne artikkelen vil noen grunntrekk i vår LFG-baserte syntaktiske analyse av norsk bli presentert. 2. Bakgrunn: X'-syntaks og f-struktur En LFG-grammatikk tilordner en setning en konstituentstruktur (c-struktur) og en trekkstruktur (f-struktur). X'-syntaks er en vanlig modell for konstituentstrukturer innenfor

2 ulike syntaktiske teorier. Det grunnleggende regelskjemaet for en projeksjon XP av en kategori X 0 er som i (1), der YP er "spesifikator" og ZP "komplement": (1) a. XP YP, X' b. X' X 0, ZP I det følgende skal vi kalle XP og X' for 'c-projeksjoner' av X 0, ettersom termen 'projeksjon' også brukes om relasjonen mellom c-struktur og f-struktur i LFG. X 0 kan være en leksikalsk eller en funksjonell kategori. Intuitivt er en funksjonell kategori et grammatisk element uten leksikalsk innhold, men hvordan dette konkret skal forstås varierer noe mellom ulike teorier. Innenfor Prinsipp- og parameterteorien (P&P) uttrykkes seleksjonsbegrensninger og thetarolle-tildeling i konstituentstrukturen, mens dette uttrykkes i f-strukturen i LFG. Denne ulikheten medfører at X'-teori appliseres på ulike måter i de to teoriene. I P&P blir X'- analysen nødvendigvis mer abstrakt i den forstand at trestrukturen ofte vil inneholde mange tomme noder, siden thetaroller tilordnes faste posisjoner i trestrukturen, posisjoner som derfor må representeres også når de syntaktiske elementene ikke selv befinner seg der. Videre analyseres ofte bøyningskategorier som egne funksjonelle kategorier i P&P, altså som X 0 - elementer som kan c-projisere sine egne XPer. Dette innebærer analyser der det som opptrer som én ordform på overflaten, kan være distribuert mellom flere ulike terminale noder i trestrukturen, f.eks. slik at et leksikalsk element flytter fra en kanonisk posisjon til en posisjon der en funksjonell kategori med et morfologisk relevant trekk befinner seg. Arbeidsdelingen mellom c-struktur og f-struktur i LFG tillater mer "konkrete" X'- representasjoner enn i P&P, med få eller ingen tomme noder, og med bare én terminal node for hver ordform. Forholdet mellom c-struktur og f-struktur er ikke derivasjonelt, men "sambeskrivende": Partielle beskrivelser av f-struktur assosieres med c-strukturregler og leksikalske oppslag i form av ligninger, og c-strukturer 'projiserer' de f-strukturene som defineres av de partielle beskrivelsene. Formelt legger slik sambeskrivelse forholdsvis få begrensninger på forholdet mellom c- og f-struktur. Det er en oppgave for den substansielle lingvistiske teorien å formulere slike begrensninger; den mindre begrensede LFGformalismen i seg selv har lite empirisk innhold. Joan Bresnan (Bresnan 2000) foreslår slike begrensninger på forholdet mellom c- og f-struktur, og legger en versjon av X'-syntaks til grunn for c-strukturen. Vi søker å gjennomføre Bresnans prinsipper i den norske syntaksen, og skal derfor gi et kort resymé av hovedpunktene her. I. "Economy of expression: All syntactic phrase structure nodes are optional and are not used unless required by independent principles (completeness, coherence, semantic expressivity)." (Op. cit.:103.) Prinsippet innebærer at regler som de under (1) ovenfor må forstås som begrensninger på mulige trær snarere enn som genererende regler. Hvis en node ikke direkte dominerer noe leksikalsk materiale og heller ikke tilføyer annen f-struktur-informasjon, utelukkes den av dette prinsippet. En konsekvens av prinsippet er for eksempel at følgende subtre er mulig: (2) VP NP I (2) dominerer en VP sitt objekt uten å dominere noen V, og uten noen mellomliggende V'. En slik VP har ikke noe c-struktur-hode, men den kan likevel være motivert fordi den projiserer en f-struktur med et verbalt hode; se nedenfor om 'utvidet hode'.

3 II. "Lexical integrity: Morphologically complete words are leaves of the c-structure tree and each leaf corresponds to one and only one c-structure node." (Op. cit.:105.) Prinsippet innebærer at ordstruktur er uavhengig av frasestruktur. Det utelukker at bøyningskategorier kan bli egne funksjonelle c-projeksjoner i trestrukturen, slik som i P&P. III. Det skilles mellom funksjonelle X 0 -kategorier (F 0 ) og leksikalske X 0 -kategorier (L 0 ): a. F 0 : C 0, I 0, D 0 b. L 0 : N 0, V 0, A 0, P 0 (Op. cit.: 115) De funksjonelle kategoriene er f.eks. subjunksjoner (C 0 ) som eng. 'that', finitte hjelpeverb (I 0 ) som eng. 'will', og determinativer (D 0 ) som eng. 'the'. I 0, også kjent som 'infl', representerer i P&P verbets finitte kategorier, men ifølge integritetsprinsippet (II ovenfor) kan kategorien bare omfatte komplette ordformer i LFG, f.eks. hjelpeverb. Med X'-teorien følger et begrep om 'syntaktisk hode' som er formelt distinkt fra det tradisjonelle hodebegrepet i LFG. I X'-teorien er hodet i en frase XP lik X' og i X' lik X 0. I LFG er et hode i en frase en konstituent som er annotert med ligningen =, en ligning som unifiserer konstituentens f-struktur med morens f-struktur. Den første typen kan kalles 'cstruktur-hode', og den siste 'f-struktur-hode'. Bresnan foreslår følgende begrensninger på forholdet mellom de to: IV. a. C-structure heads are f-structure heads. b. Specifiers of functional categories are the grammaticalized discourse functions. [Dvs. TOP, FOC og SUBJ) c. Complements of functional categories are f-structure co-heads. d. Complements of lexical categories are the non-discourse argument functions. [Dvs. OBJ, OBJ θ, OBL θ og COMPL] e. Constituents adjoined to phrasal constituents are optionally non-argument functions. [Dvs. TOP, FOC og ADJUNCT] (Op. cit.:118) (3) eksemplifiserer noe av dette: IP ( SUBJ)= PRON = I' we = I do = = ( OBJ)= V VP Prop (3) like Kirsti I (3) er IP en c-projeksjon av den funksjonelle kategorien I. I' har en VP som komplement, annotert = ettersom projeksjonen er funksjonell (kfr. IV c). VP selv er derimot en leksikalsk projeksjon, og dens Prop-komplement har derfor en argumentfunksjon:

4 OBJ (kfr. IV d). Både I', I og V er annotert = fordi de alle er c-struktur-hoder (kfr. IV a). We er SUBJ i overensstemmelse med IV b. Konsekvensen av dette er at både do og like blir f-struktur-hoder i IP: Begges f- strukturer blir unifisert med toppnodens f-struktur. Derfor kan ikke begge ha leksikalsk innhold, altså et attributt PRED med en semantisk form som verdi, siden dette ville føre til en inkonsistent f-struktur. I eksempel (3) er det like som har PRED, mens hjelpeverbet do analyseres som et grammatisk element uten egen PRED. Hvis vi tenker oss en konfigurasjon som i (3) der det isteden er elementet i I som har leksikalsk innhold, kan da ikke VPkomplementet ha et hode med leksikalsk innhold, og kan for eksempel ha strukturen i (2) ovenfor. Denne muligheten vender vi tilbake til i forbindelse med analysen av norsk. Akkurat som både do og like er f-struktur-hoder i IP, er de det også i VP, siden VPens f-struktur er identisk med IPens. Med andre ord, VP har et f-struktur-hode som ikke domineres av VP, men som isteden c-kommanderer VP. Et slikt hode kalles et 'utvidet hode' ('extended head'); se Bresnan 2000:154. I (3) er do VPens utvidede hode. X'-teorien slik vi hittil har fremstilt den, tillater bare endosentriske fraser, altså fraser med c-struktur-hoder. Bresnan inkorporerer også eksosentriske fraser fraser uten c-strukturhoder som en mulighet i sin LFG-tilpasning av X'-teorien (Bresnan 2000:128 ff.). Et eksempel på en eksosentrisk frase er S, for eksempel aktuell i ikke-konfigurasjonelle språk, altså språk som ikke har VP, og dermed ikke grunnlag for å definere SUBJ og OBJ konfigurasjonelt. I ikke-konfigurasjonelle språk kan SUBJ- og OBJ-annotasjonene være assosiert med kasusformer av nomina snarere enn med syntaktiske regler. En slik eksosentrisk S kan da dominere en sekvens av ulike kategorier (for eksempel NP* V), uten at X'-skjemaet legger begrensninger på hvilke kategorier dette kan være. Når denne muligheten for eksosentriske fraser først er tilgjengelig, kan den også benyttes i analysen av konfigurasjonelle språk på områder der dette er motivert. Vi skal se at en slik S-frase synes motivert i analysen av norsk. 3. Analysen av norsk 3.1 Innledning I motsetning til de øvrige grammatikkene i ParGram-prosjektet definerer den norske grammatikken (NorGram) en projeksjon i tillegg til f-strukturen. Denne projeksjonen, s- strukturen, er en semantisk representasjon i form av et situasjonsskjema, etter mønster av Fenstad & al. (1987). (Om forholdet mellom f-struktur og semantisk representasjon, se Dyvik (1999)). Som en innledende illustrasjon kan vi betrakte den c-struktur, f-struktur og s-struktur bokmålsgrammatikken for tiden tilordner setningen "Denne fødselsdagen trodde Per at Kirsti ikke hadde feiret":

5 (4) C-struktur: (5) F-struktur:

6 (6) S-struktur: 3.2 IP-analysen I motsetning til engelsk er norsk et V2-språk: Det finitte verbet står alltid på 2. plass i deklarative helsetninger. Begge språk skiller mellom en "tidlig" verbal posisjon i setningen og "senere" verbale posisjoner, men kriteriene for plassering i den "tidlige" posisjonen er ulike. Hvis vi kaller den tidlige posisjonen for "I" og de senere for "V" i begge språk, kan forholdet illustreres som i (7): (7) XP YP I ZP SADV V Kirsti does not celebrate Kirsti will celebrate Kirsti celebrates then Kirsti does not celebrate Kirsti feirer ikke Kirsti vil feire Kirsti feirer da feirer Kirsti ikke En grunnleggende forskjell mellom de to språkene er at engelsk har hjelpeverb i I og hovedverb i V, uavhengig av om hovedverbene er finitte eller ikke, mens norsk har finitte

7 verb i I og ikke-finitte verb i V, uavhengig av om verbene er hjelpeverb eller hovedverb. Videre har norsk en egen posisjon (kalt ZP i (7)) for subjektet når noe annet står foran det finitte verbet, mens man neppe behøver å anta en slik posisjon for subjektet i engelsk; dette er uansett ikke temaet her. Ved å analysere det finitte verbet i norske helsetninger som hodet i en projeksjon IP som i (4) griper man den første av disse egenskapene. Samtidig reiser dette spørsmålet hvordan kategorien "I" skal forstås. De preterminale nodene i c-strukturen skal betegne leksikalske og funksjonelle kategorier altså, etter tradisjonelle antagelser, "ordklasser". I engelsk, der det er hjelpeverb som står i I-posisjonen, er det mulig å analysere modalverb som will, can, may, shall osv. som tilhørende en egen ordklasse I, distinkt fra V. Modalverbene har bare finitte former i engelsk og opptrer ikke som annet enn hoder i IP. Men selv i engelsk er det vanskelig å betrakte I konsekvent som en ordklasse, ettersom også verb som have og be opptrer som hjelpeverb, samtidig som de også kan stå i V: "John has probably left", "John will probably have left" (kfr. også Bresnan 2000:126 f.). Dette viser at skillet mellom I og V kan løpe tvers igjennom et leksem allerede i engelsk, der man kan si at finitte former av have og be er I, mens andre former er V. En slik konklusjon antyder at I snarere kunne betraktes som en kombinasjon av leksikalske og morfologiske trekk enn som en egen ordklasse, f.eks. [+ V, + aux, + fin]. Dette ville være i overensstemmelse med Bresnan: "In other words, functional categories are specialized subclasses of lexical categories which have a syncategorematic role in the grammar (such as marking subordination, clause type, or finiteness)." (Bresnan 2000:117 f.) En forutsetning for en slik analyse synes å være at det alltid er mulig å analysere finitte former av hjelpeverbene som hoder i IP. Det er mulig at dette ville fungere for engelsk, men det synes vanskeligere for norsk. Grunnen til det er den spesielle leddfølgen i norske leddsetninger ("... at Kirsti ikke feiret fødselsdagen" vs. "Kirsti feiret ikke fødselsdagen"). Slike leddsetninger har ikke V2-struktur, og gir ikke noe syntaktisk grunnlag for å anta noen I-posisjon, og dermed noen IP-projeksjon: Det finitte verbet i norske leddsetninger med normal leddfølge er hode i VP (sml. posisjonen til hadde i (4) ovenfor). Analysen eksemplifisert i (4) synes dermed å reise et grunnleggende problem. Den innebærer at nøyaktig samme formkategori finitt verb noen ganger er hode i VP, og andre ganger hode i IP. Dette synes å støte an mot X'-teoriens antagelse at en X 0 -kategori c- projiserer en unik XP selv om vi altså med Bresnan tillater at en funksjonell X 0 er en "spesialisert subklasse" av en leksikalsk kategori, f.eks. finitt verb. Det er to måter å løse dette problemet på: (a) Vi forkaster den foreslåtte analysen av norsk og sørger for at når finitte verb er c-struktur-hoder i en XP, så er X alltid samme kategori, eller (b) vi modifiserer den versjonen av X'-teori vi legger til grunn. Alternativ (a) er lite fristende. Et argument for å bruke den universelle kategorien IP i analysen av norske helsetninger et at den på en overbevisende måte griper V2-fenomenet og likheter og forskjeller mellom norsk og andre språk, for eksempel engelsk, som diskutert ovenfor. Et avgjørende argument mot å bruke kategorien IP i analysen av norske leddsetninger (med normal leddfølge), gitt prinsippene 'Economy of expression' og 'Lexical integrity', er at det ikke finnes noe syntaktisk argument for en IP der. Det finitte verbet har ikke noen spesiell syntaktisk status i slike leddsetninger. Vi blir dermed stående ved alternativ (b). Som nevnt ovenfor tillater også Bresnans versjon av X'-teorien fraser som ikke er c-projisert av leksikalske eller funksjonelle kategorier, nemlig eksosentriske fraser som for eksempel S. Vår modifikasjon vil være å utvide denne egenskapen til noen endosentriske fraser, nemlig de funksjonelle, som for eksempel IP. Dette betyr da en X'-teori som tillater at såkalte 'funksjonelle c-projeksjoner' (IP, CP, DP,...), ikke alltid er egentlige 'c-projeksjoner', altså projisert fra leksikon, men i likhet med eksosentriske fraser kan være generert av syntaktiske regler som ikke lar seg eliminere. Dermed vil verb V 0 alltid projisere VP, når de overhodet projiserer en XP. I tillegg kan de opptre i regelgenererte fraser S i ikke-konfigurasjonelle språk, eller IP i norsk når frasens regler spesifiserer det, og da altså uten å 'c-projisere' den frasen de opptrer i. En forskjell på norsk og engelsk blir da at engelsk har leksikalske former av kategorien I, altså

8 former som er reservert for hodeposisjonen i IP og dermed kan sies å c-projisere IP, nemlig modalverb som can, may, shall, will osv., mens norsk ikke har slike leksikalske former, men derimot en IP som aldri er leksikalsk projisert: IP i norsk er isteden generert av regler som i (8) (sterkt forenklet), der XP er en variabel: (8) a. IP XP: ( TOP)= ( {COMP XCOMP}* {SUBJ OBJ OBJben})= I' : = b. I' V: = ( FORM)=c fin S: = Det finitte V kan likevel sies å være c-struktur-hode i IP (slik at IP forblir endosentrisk) hvis vi som vanlig antar at symbolene "V" og "I" er forkortelser for matriser av kategoritrekk. Etter Bresnans analyse er både V og I [+ predicative, + transitive]; forskjellen er bare at I er markert som 'funksjonell' og V som 'leksikalsk' (Bresnan 2000:116 f.) Det denne analysen av norsk intuitivt uttrykker, er da at den syntaktisk "funksjonelle" finitt-kategorien i norske helsetninger, som en egenskap ved setningen, er rent syntaktisk uttrykt. Norske helsetninger har en egen finitt-posisjon, men ingen leksikalske størrelser som er reservert for denne posisjonen (i motsetning til engelsk, som har sine obligatorisk finitte modalverb og IP såvel i hel- som i leddsetninger). Derimot er posisjonen reservert for finitte former, som uttrykt i (8 b). Forskjellen mellom leksikalsk projiserte og regelgenererte fraser angår den teoretiske analysen av grammatikken. På XLE-plattformen må alle fraser genereres av syntaktiske regler, men det blir i denne sammenheng et implementeringsteknisk anliggende. 3.3 S-analysen og CP-analysen I engelsk er [SPEC, IP] den kanoniske posisjon for subjektet; sml. we i (3) ovenfor. Hvis andre ledd enn subjektet opptrer først i setningen, forblir subjektet i sin preverbale posisjon; sml. (7): "Then Kirsti doesn't celebrate". I norsk er den kanoniske subjektposisjon i helsetninger postverbal (sml. "Da feirer Kirsti ikke"/"da feirer ikke Kirsti"), mens posisjonen XP i (7) kan fylles av ulike syntaktiske funksjoner hvorav SUBJ bare er én; sml. "denne fødselsdagen" i (4)-(5), som er OBJ i leddsetningen CP (= COMP i f-strukturen) og samtidig TOP i IP. Dette medfører at komplementet til I' blir ulikt i de to språkene. I engelsk kan komplementet være VP, som vist i (3). Norsk må dessuten tillate et subjekt etter det finitte verbet. Hvis man betrakter det postverbale subjektets leddstillingsmuligheter i forhold til setningsadverb som ikke, og dessuten sammenligner med forholdene i leddsetninger, fremstår det som klart motivert å anta en eksosentrisk S her, slik det allerede er antydet i (8 b) ovenfor. S kan ekspanderes etter den forenklede regelen i (9), der notasjonen A B, C betyr at døtrene B og C har uspesifisert innbyrdes rekkefølge. NOM er en variabel som dekker {NP, DP, PRON, Prop,...} og flere nominale frasetyper; se 3.5 nedenfor. (For enkelhets skyld ser vi blant annet bort fra andre mulige adverbialer under S i denne fremstillingen.) (9) S (NOM: ( SUBJ)= ), (SADV: ( ADJUNCT)) (VP: = ( FORM)=c fin) Hvis subjektet er pronominalt og trykkløst, må det komme foran setningsadverb: Vi har "Da vil [ S Kirsti ikke [ VP feire]]", "Da vil [ S ikke Kirsti [ VP feire]]", "Da vil [ S hun ikke [ VP feire]]", men neppe?"da vil [ S ikke hun [ VP feire]]". Hvis vi fremdeles ser bort fra det trykksterke alternativet, kan vi uttrykke dette ved å utvide (9) til (10), der '{A B}' uttrykker at A og B er alternativer, og '~' uttrykker negasjon:

9 (10) S { (NOM: ( SUBJ)= ( PRONOMINAL)= +), (SADV: ( ADJUNCT)) (PRON: ( SUBJ)= ( PRONOMINAL)=c +) (SADV: ( ADJUNCT)) } (VP: = ( FORM)=c fin) Annet alternativ i (10), med pronomen, har da ikke uspesifisert leddfølge mellom de to første døtrene. Alle døtrene i (10) er markert som fakultative i overensstemmelse med prinsippet om 'Economy of expression'; XLE-plattformen forutsetter at slik fakultativitet markeres uttrykkelig. Innenfor X'-teorien blir adverbialer som 'ikke' vanligvis "adjungert" til en frase ved at en ekstra node X n med adverbet som datter "spleises inn" over X n (innenfor LFG nødvendigvis med annotasjonen = på nederste X n ), slik at en binær struktur opprettholdes. For vårt eksempel ville dette gi (11): (11) eller NOM S SADV VP NOM VP Som det fremgår av (10), har vi isteden valgt en flat struktur der adverbet er en tredje datter av S. Dette kan om ønskelig betraktes som en praktisk motivert notasjonell variant av (11): Reglene blir enklere og parsingen antagelig mer effektiv slik. Den foreslåtte S-analysen støttes av at vi nå får den samme S-noden, med de samme ekspansjonsmulighetene, både i helsetninger og i leddsetninger. Leddsetninger, som innledes med en fakultativ funksjonell kategori C, kan analyseres med regelen i (12): (12) CP (C: = ) S: = VP SADV I leddsetninger har vi den samme relative leddfølge mellom subjekt, setningsadverbial og VP, med de samme restriksjoner knyttet til trykklette pronomen, som i helsetninger: "at [ S Kirsti ikke [ VP vil feire]]", "at [ S ikke Kirsti [ VP vil feire]]", "at [ S hun ikke [ VP vil feire]]", men?"at [ S ikke hun [ VP vil feire]]". Forskjellen mellom de to setningstypene er at S i helsetninger, men ikke i leddsetninger, har en I med finitt verb foran seg, mens øverste VP i leddsetninger, men ikke i helsetninger, har finitt hode. Videre har helsetninger muligheter for å ha subjektet i [SPEC, IP], mens leddsetninger bare har én subjektposisjon, slik at subjektet under S blir obligatorisk i leddsetninger som en følge av kompletthetskravet til f-strukturer, selv om NOM er fakultativ i regel (10). Selve S-nivået er dermed det samme i hel- og leddsetninger, slik at regel (10) kan brukes i begge setningstyper. Det som skiller leddsetninger med normal leddfølge fra helsetninger blir da hovedsakelig at leddsetningene ikke inneholder noen IP; de øvrige egenskapene følger av dette. Dette gjelder også muligheten for finitt verb i VPen i leddsetninger, i motsetning til i helsetninger. Finitthetskravet i leddsetninger ivaretas ved at ligningen ( FORM)=c fin er assosiert med VP-datteren i S-regelen (regel (10)). I leddsetninger, som ikke har noen IP, medfører dette at hodet i VP må være finitt. I helsetninger, som har en IP med finitt hode, og der IPens f- struktur er unifisert med VPens f-struktur, utelukker konsistenskravet at også VP har en leksikalsk V-datter, finitt eller ikke-finitt. Hodet i IP blir VPens 'utvidede hode' i helsetninger, og tilfredsstiller dermed finitthetskravet assosiert med VP. Analysen i (4) eksemplifiserer dette: VP i helsetningen har ikke noe c-struktur-hode, men finitthetskravet er ivaretatt av formen trodde under I', ettersom både S og VP har annotasjonen = ; kfr. FORM = fin i substruktur 21 i (5), som er projisert av IP, I', S og VP i helsetningen. Den finitte verbformen S S

10 hadde under CP i (4), derimot, både kan og må være c-struktur-hode i VP, ettersom intet 'utvidet hode' i noen IP ivaretar finitthetskravet assosiert med VP (sml. substruktur 39 i (5), som er projisert av CP, S og VP i leddsetningen). Annotasjonen ( FORM)=c fin på VP overflødiggjør ikke den samme annotasjonen på V-datteren til I', ettersom vi kan ha setninger uten VP: (13) Visse typer leddsetninger i norsk, først og fremst nominale leddsetninger hvis innhold kan tolkes som påstått av den talende, kan også ha "hovedsetnings leddfølge". Vi kan ha både "Jeg vet at hun ikke vil feire" og "Jeg vet at hun vil ikke feire", men bare "Jeg tviler på at hun ikke vil feire" neppe??"jeg tviler på at hun vil ikke feire". Denne muligheten kan ivaretas ved at CP alternativt får ekspansjonen CP (C) IP, og at muligheten for å velge IP istedenfor S gjøres avhengig av faktivitet og positiv polaritet ved det styrende verbet. 3.4 Analysen av hjelpeverbkonstruksjoner Analysen av hjelpeverbkonstruksjoner diskuteres mer utførlig i Dyvik (1999), og skal bare skisseres kort her. Hjelpeverb analyseres som verb med egne PRED-verdier og med VPkomplementer med funksjonen XCOMP, og ikke som funksjonelle kategorier som bare bidrar med tempus- og modus-trekk til f-strukturen, slik det foreslås for enkelte hjelpeverb i engelsk, tysk og fransk i Butt & al. (1999). (14) er et eksempel, som samtidig illustrerer analysen av interrogativer ("Har professoren kunnet jubilere?"): (14) I c-strukturen i (14) er har det utvidede hodet i øverste VP, mens de to øvrige VPene har egne c-struktur-hoder som f-struktur-hoder. F-strukturen viser hvordan de to nedre VPene projiserer hver sin XCOMP-struktur, og at hjelpeverbene har PRED-verdier som 'PERF' og

11 'ROOT-KUNNE'. PERF er subkategorisert for SUBJ (= substruktur 8) og XCOMP (= substruktur 19), men bare XCOMP er også et argument (står innenfor '<...>'). Etter 'ha' er bare rot-lesningen av modalverbet 'kunne' mulig (habilitativ eller permissiv), og den er analysert som et to-plass-predikat i f-strukturen: Både SUBJ og XCOMP er argumenter til ROOT-KUNNE. I s-strukturen, derimot, bidrar hjelpeverbene ikke med egne semantiske relasjoner, men bare med trekk under 'temp' ([relative [expast +]]) og 'mod' ([root [habil-perm +]]). 'Expast' står for "existential past": Perfektum analyseres semantisk som en kategori som kvantifiserer eksistensielt over fortidige tidsrom ('Det finnes et fortidig tidsrom t slik at...'), og der 'fortidig' er relativt i forhold til setningens deiktiske tempus. Preteritum, derimot, refererer til et kontekstuelt gitt fortidig tidsrom, der 'fortidig' dessuten betyr fortidig i forhold til utsagnsøyeblikket: "Jeg gratulerte Kirsti", i motsetning til "Jeg har gratulert Kirsti", kan bare sies i situasjoner der det er (eller umiddelbart blir) klart hvilket fortidig tidsrom det tales om. S-struktur-nivået griper således oversettelsesmessig relevante egenskaper ved setningene: På f-struktur-nivå kan f.eks. analysen av perfektum tenkes å arte seg likt for norsk, engelsk, fransk og tysk, mens s-struktur-nivået vil gripe den ulikhet at perfektum i tysk og fransk er referensielle tempuskategorier, i likhet med norsk preteritum ("Ich habe ihn gestern gesehen"), mens den i norsk og engelsk kvantifiserer eksistensielt, som nevnt. 3.5 Analysen av nominale fraser Nominale fraser i norsk kan ha varierende struktur. I tillegg til egennavn og pronomen har vi f.eks. konstruksjoner som i 15: (15) året et år mange år de mange årene alle de mange årene dine alle disse dine seksti år som gikk alle som går mange Vangsnes (1999) analyserer nominale fraser i skandinavisk innenfor P&P, og foreslår en høyreforgrenet analyse der de ulike determinativene er funksjonelle kategorier som c- projiserer sine egne XPer. Vi følger grunnidéen i hans analyse, mutatis mutandis, innenfor vårt LFG-rammeverk. Det er klart at determinativene opptrer som syntaktiske hoder i endosentriske fraser: De kan stå alene som nominaler (alle, disse, mange), og de legger forholdsvis lett spesifiserbare begrensninger på egenskapene ved sine komplementer. Det er langt vanskeligere å formulere begrensingene "motsatt vei", som begrensninger substantiver legger på mulige foranstilte determinativer. Dermed er det bare det første eksemplet under 15 som eksemplifiserer en NP; bare der er substantivet hode.

12 Determinativene, som funksjonelle kategorier, har ikke egne PRED-verdier, og deres komplementer er annotert =. Dette innebærer at f-strukturen bare får ett nivå, der determinativene bidrar med trekk under attributtet SPEC. Som et eksempel kan vi betrakte analysen grammatikken gir av frasen "alle disse dine mange gode år som gikk": (16) a. C-struktur: b. S-struktur: c. F-struktur: Som nevnt i forbindelse med regel (9) er NOM en syntaktisk variabel som dekker et antall ulike nominale frasekategorier. Strukturen i (16 a) antyder hvordan disse utgjør et hierarki: AllQP kan ta som komplement alle de øvrige kategoriene ("alle disse...", "alle dine...", "alle seksti...", "alle årene", men ikke *"alle begge..."), DP kan ta alle unntagen AllQP og DP ("disse dine...", "disse seksti" osv., men ikke *"disse alle...", *"disse de..."), PossP kan ta alle unntagen AllQP, DP og PossP ("dine mange..." osv., men ikke *"dine disse..." osv.), osv. Dette hierarkiet kan beskrives ved hjelp av et hierarkisk system av syntaktiske variabler, der variabelen ALLQCOMP, som varierer over kategorier som kan være komplementer i AllQP, omfatter alle unntagen AllQP, osv. (REFP er en variabel som omfatter også AllQP):

13 (17) NOM = {Prop PRON REFP}. REFP = {AllQP ALLQCOMP}. ALLQCOMP = {DP DCOMP}. DCOMP = {PossP POSSCOMP}. POSSCOMP = {QuantP NP}. QUANT = {QP Num Art}. (18): Ved hjelp av disse variablene kan så de syntaktiske reglene formuleres som skissert i (18) AllQP AllQ: = ; (ALLQCOMP: = ) DP D: = ; (DCOMP: = ) PossP {Poss: = NOM: ( SPEC POSS)= ( CASE)=c gen } (POSSCOMP: = ) QuantP QUANT: = ; (NP: = ) NP AP*: ( ADJUNCT) N: = ; (Poss: = ) (CP: ( ADJUNCT)) Reglene i (18) er sterkt forenklet i forhold til den implementerte grammatikken, men de viser for eksempel at et alternativ til Poss-hodet i PossP kan være en nominal frase i genitiv. Dette er enda ett eksempel på at en frase XP ikke er projisert av et element fra leksikon (sml. diskusjonen av IP i norsk); med en slik genitivsfrase som datter må frasen PossP være generert av ikke-eliminerbare syntaktiske regler. Videre blir genitivsfrasen hverken f-struktur-hode eller c-struktur-hode i frasen: Den er ikke annotert =, og den tilhører en annen kategori enn mornoden PossP. Formelt blir således PossP eksosentrisk i slike tilfeller. I s-strukturen analyseres kvantifiserte fraser som generaliserte kvantorer. Således introduserer 'alle' en relasjon all, forstått som en determinativrelasjon som tar en mengde som argument, i s-strukturen representert av substruktur -5. Denne strukturen har den normale oppbygningen for refererende uttrykk i situasjonsskjemaer. Attributtet 'ind' (historisk en forkortelse for 'indeterminate', men man kan også se det som en forkortelse for referensiell 'indeks') tar en verdi som representerer selve den referensielle variabelen, i eksempelet markert som type GROUP på grunn av flertallsformen. På denne variabelen uttrykkes det så en serie betingelser under attributtet 'cond'. Selv om det ikke fremgår tydelig av notasjonen i (16 b), er verdien av 'ind' i hver av disse betingelsene identisk med (unifisert med) verdien av 'ind' i substruktur -5. Slik uttrykkes betingelsene på variabelen gjennom en serie relasjoner som den begrenses til å være argument til: go, year, many, belong-to (med HEARER som koargument), og good. I denne frasen fungerer altså 'mange' på linje med et adjektiv. I frasen "mange år", derimot, der 'mange' ikke c-kommanderes av andre determinativer, ville many bli en relasjon i en generalisert kvantor, på linje med all i (16 b). Dette ivaretas av annotasjoner som, i likhet med alle andre s-struktur-annotasjoner, er utelatt fra (18) av plasshensyn.

14 4. Konklusjon Joan Bresnans tilpasning av X'-teorien til LFG og prinsippene om 'Economy of expression' og 'Lexical integrity' gir et velegnet grunnlag for en formell beskrivelse av norsk syntaks som på én gang beholder en forankring i teoretisk lingvistikk og kan oppnå bred empirisk dekning. Samtidig er det klart at oppgaven å utvikle en slik grammatikk på flere måter er ulik teoretikerens oppgave, også når teoretikeren benytter samme teoretiske apparat. I en komparativ teoretisk studie som Vangsnes 1999 der riktignok et noe annet teoretisk apparat benyttes viser forfatteren for eksempel hvordan tilsynelatende sterkt varierende egenskaper ved nominalfraser i nordiske dialekter kan gripes gjennom en generalisering som angår uttrykk for genus og definitthet, og hvordan en mekanisme som redegjør for generaliseringen så kan innbakes i den grammatiske analysen av hver enkelt dialekt. Dette er en innsiktsgivende analyse, men det er likevel ikke selvsagt at den beste deskriptive grammatikk for hver dialekt, f.eks. standard norsk, vil inkorporere denne generaliseringen eller mekanismen bak den. Det kan være tilstrekkelig at den fellesnordiske generaliseringen er sann om den deskriptive grammatikken som er noe annet enn at grammatikken selv formulerer generaliseringen. Selv om vi antar at 'selve grammatikken' i en dialekt forblir én og den samme, finnes det ikke bare én universelt korrekt måte å formalisere den på: Valg av formalisering vil blant annet avhenge av hensikt. Denne erkjennelsen vil kunne lette kommunikasjonen mellom teoretisk og deskriptiv grammatikk. 5. Referanser Bresnan, J. (2000): Lexical-Functional Syntax. Blackwell (under trykning). Butt M., T. H. King, M.-E. Niño og F. Segond. (1999): A Grammar Writer's Cookbook. = CSLI Lecture Notes no. 95. CSLI Publications, Center for the Study of Language and Information, Stanford, California. Dyvik, H. (1999): The Universality of F-structure: Discovery or Stipulation? The Case of Modals. I: M. Butt and T. H. King (eds.): Proceedings of the LFG99 Conference. CSLI Publications. Fenstad, J.E., Halvorsen, P.-K., Langholm, T. & Benthem, J. v. (1987): Situations, Language and Logic. Dordrecht: D. Reidel. Vangsnes. Ø. (1999): The Identification of Functional Architecture. Dr.art.-avhandling, Institutt for lingvistikk og litteraturvitenskap, Universitetet i Bergen.