Om metoder i lingvistikken. Øivin Andersen. Institutt for lingvistikk og litteraturvitenskap. 1. Innledning

Like dokumenter

Allmenndel - Oppgave 2

LP-modellen (Læringsmiljø og pedagogisk analyse)

Utdrag fra Beate Børresen og Bo Malmhester: Filosofere i barnehagen, manus mars 2008.

Samfunnsvitenskapelig metode. SOS1120 Kvantitativ metode. Teori data - virkelighet. Forelesningsnotater 1. forelesning høsten 2005

Logikk og vitenskapsteori

INF INF1820. Arne Skjærholt INF1820. Dagens språk: Russisk. dyes yataya l yektsiya. Arne Skjærholt. десятая лекция

Seminar om oppgaveskriving og gode besvarelser 2012

Forskningsmetoder i informatikk

Allmenndel opg 1 - Hermeneutikk som metode

Kommunikasjonsstil. Andres vurdering. Navn på vurdert person: Ole Olsen. Utfylt dato:

Kan vi klikke oss til

Hume Situasjon: rasjonalisme empirisme, Newtons kraftbegrep, atomistisk individbegrep Problem/ Løsning: Vil undersøke bevisstheten empirisk.

Vurdering av kvaliteten på undersøkelser om virkninger av trafikksikkerhetstiltak

Kan vi stole på sansene? Drøftet ut ifra Descartes, Hume og Kant.

Kvalitativ metode. Kvalitativ metode. Kvalitativ metode. Kvalitativ metode. Forskningsprosessen. Forelesningen

MAT1140: Kort sammendrag av grafteorien

Grunnlaget for kvalitative metoder I

KVALITATIVE METODER I

1. COACHMODELL: GROW PERSONLIG VERDIANALYSE EGENTEST FOR MENTALE MODELLER. (Noen filtre som vi til daglig benytter)...

NORSKPRØVEN 2014 ny muntlig prøve. Sett inn sted, dato og foredragsholder Kurs i vurdering av ny muntlig prøve, i regi av Vox

STUDIEÅRET 2013/2014. Individuell skriftlig eksamen. VTM 200- Vitenskapsteori og metode. Fredag 25. april 2014 kl

Definisjonene og forklaringene i denne presentasjonen er hentet fra eller basert på kap. 1 (Kristoffersen: «Hva er språk?

Ulike metoder for bruketesting

BESLUTNINGER UNDER USIKKERHET

Kritisk refleksjon. Teorigrunnlag

Verktøy for design av forvaltningsrevisjonsprosjekter

LØsningsFokusert Tilnærming -hvordan bruke LØFT i PPT? Landsdelssamlinga for PP-tjenesten i Nord-Norge og StatPed Nord Alta

Metodisk arbeid. Strukturert arbeidsmåte for å nå et bestemt mål

Legg merke til at summen av sannsynlighetene for den gunstige hendelsen og sannsynligheten for en ikke gunstig hendelse, er lik 1.

Barn beviser. Andrea Hofmann og Sigurd Hals Førsteamanuensis og Stipendiat Fakultet for Humaniora, Idrettsog Utdanningsvitenskap

Fag: Norsk Trinn: 1. Periode: 1 uke Skoleår: 2015/2016 Tema Kompetansemål Læringsmål for perioden Vurderingsmåter i faget

«Litterasitetsutvikling i en tospråklig kontekst»

Hva holder vi på med? Læring eller opplæring eller begge deler?

PROGRESJONS DOKUMENT. Barnehagens fagområder. Barns læringsprosesser

Hvordan bruke Helsegris for produsenter Innhold:

Undring provoserer ikke til vold

KRISTIN OUDMAYER. Du er viktigere enn du tror

Hva kan bidra til å styrke vår emosjonelle utvikling, psykiske helse og positive identitet?

To forslag til Kreativ meditasjon

Logisk positivisme. Inspirasjon: To typer sanne utsagn:

Eneboerspillet del 2. Håvard Johnsbråten, januar 2014

Hume: Epistemologi og etikk. Brit Strandhagen Institutt for filosofi og religionsvitenskap, NTNU

Prosjektbeskrivelsen består av

Utforsking og undring med kenguruoppgaver

DRI 3001 Litteratur og metode Arild Jansen AFIN

INF INF1820. Arne Skjærholt. Negende les INF1820. Arne Skjærholt. Negende les

Moralsk relativisme. Anders Strand, IFIKK, UiO Ex.Phil. Høstsemesteret 2012

Foreldreveileder i hvordan lære å lese og å oppnå bedre leseflyt med «Tempolex bedre lesing 4.0», veilederversjon 1.0

Litterasitetsutvikling i en tospråklig kontekst

Fikk oppreisning etter å ha blitt ærekrenket

Hvordan samarbeide med bilbransjen om å utvikle helt nye opplæringsløp som dekker bransjens behov for fremtidig kompetanse, øker rekruttering og

Homo eller muslim? Bestem deg! Basert på Richard Ruben Narvesen masteroppgave 2010

INF1820: Ordklasser INF1820: Ordklasser. Arne Skjærholt. 13. februar. INF1820: Ordklasser. Arne Skjærholt. 13. februar

Bevisføring mot Menons paradoks

Vann i rør Ford Fulkerson method

Language descriptors in Norwegian Norwegian listening Beskrivelser for lytting i historie/samfunnsfag og matematikk

Steg for steg. Sånn tar du backup av Macen din

Kultur- og merkeplattform for Kunsthøgskolen i Oslo

Noen betraktninger over det ontologiske gudbevis.

Ungdomstrinn- satsing

Forskningsmetoder i informatikk

Test of English as a Foreign Language (TOEFL)

Telle i kor steg på 120 frå 120

TJORA: TIØ10 + TIØ11 FORELESNING 1 - HØSTEN 2003

Forelesning 19 SOS1002

Teori om preferanser (en person), samfunnsmessig velferd (flere personer) og frikonkurranse

SOS H KVALITATIVE METODER - FORELESNING 2 - TJORA 2007

Go with the. Niende forelesning. Mye matematikk i boka her ikke så komplisert, men mye å holde styr på.

Kritikk av den rene fornuft: Begrunne hvordan naturvitenskapen kan være absolutt sann. Redde kausaliteten.

Livet til det lykkelige paret Howie og Becca blir snudd på hodet når deres fire år gamle sønn dør i en ulykke.

ROBERT Frank? Frank! Det er meg. Å. Heisann! Er Frank inne? HANNE Det er ikke noen Frank her. ROBERT Han sa han skulle være hjemme.

Enalyzer Norge. Nice to know - ESS

2.3 Delelighetsregler

Foajegalleriet, Høgskolen i Telemark

HER STÅR SKREVET ORD DU MÅ LÆRE, SPRÅK ER VIKTIG OM VI I VERDEN SKAL VÆRE.

EUREKA Digital METODOLOGISKE ASPEKTER VED DYBDEINTERVJU I ET RADIOGRAFFAGLIG PROSJEKT

INF oktober Dagens tema: Uavgjørbarhet. Neste uke: NP-kompletthet

Vurdering FOR læring. Fra mål og kriterier til refleksjon og læring. Line Tyrdal. 24.september

INF3170 Forelesning 11

MAT1030 Diskret Matematikk

SVMET 1010: Sensorveiledning emneoppgaver høsten 2018

Intuisjonistisk logikk

INF3170 Logikk. Forelesning 11: Intuisjonistisk logikk. Roger Antonsen. 27. april Institutt for informatikk, Universitetet i Oslo

Fra mål til mening. Hvordan skape sammenheng og forståelse i læreplanarbeid og vurdering?

Bygging av mestringstillit

Moralfilosofi: Menneske som fornuftsvesen. Handle lovmessig.

168291/S20: Transport av farlig gods på veg, sjø og bane. Jørn Vatn Prosjektleder SINTEF

Å se det unike i små barns uttrykk, en etisk praksis? Tromsø, 1. februar 2013 Nina Johannesen

Poststrukturalisme. SGO 4001 høst 2004 Per Gunnar Røe

Talentutviklingsprogrammet

ETTERNAVN OG MELLOMNAVN MED FAMILIETRADISJON

Kapittel 3: Litt om representasjon av tall

Brukerundersøkelser når innvandrere er brukere (forts.) Elisabeth Gulløy Statistisk sentralbyrå 15. september 2010

Ordenes makt. Første kapittel

Forskerspiren i ungdomsskolen

ADDISJON FRA A TIL Å

3 Største felles faktor og minste felles multiplum

Kapittel 9: Samfunnsfaglig metode

Christensen Etikk, lykke og arkitektur

Kursopplegg og innleveringer på OADM 3090, vår 2009

Transkript:

Om metoder i lingvistikken Øivin Andersen. Institutt for lingvistikk og litteraturvitenskap 1. Innledning Vi forskere er som folk flest på de aller fleste områder, men på ett bestemt område skiller vi oss klart ut. I det moderne samfunnet (særlig i skolesammenheng) er det en tendens til å unngå faglige problemer. Vi prøver enten å unngå å snakke om dem eller vi prøver å skyve dem under et teppe. Med andre ord: Vi prøver ikke å løse problemet før vi er nødt til det. I forskningen, og dermed også i språkforskningen prøver vi derimot å oppsøke problemer, og vi blir nærmest ulykkelige hvis vi ikke finner de problemene vi leter etter. Hvorfor gjør vi da ikke som ellers i samfunnet: puster lettet ut når vi ikke finner dem? En av de viktigste grunnene er at ethvert vitenskapelig prosjekt går ut på å løse en eller annen oppgave. Det kan være av rent praktisk art, som å lage en ordbok tilpasset en innvandrergruppe, eller det kan være av mer teoretisk karakter som å løse et faglig spørsmål som vi er opptatt av. Når studenter skal skrive en prosjektbeskrivelse for å søke på et doktorgradsprosjekt søker man som oftest hjelp av en erfaren forsker for å etablere en prosjektbeskrivelse som er realistisk og passelig avgrenset. Er man heldig blir man deltaker i et større anlagt forskningsprosjekt hvor doktorgradsprosjektet kan inngå som naturlig del. Da har man allerede det tematiske hoveddomenet på plass. I en del prosjektbeskrivelser jeg har lest er nettopp dette tematiske hoveddomenet det som omtales. Problemet er da nettopp at man ikke kan oppdage problemet. Hva er det kandidaten skal finne ut? Hva er utgangspunktet og hva skal prosjektet munne ut i? I denne forelesningen skal jeg fokusere på metoder i lingvistikken. Jeg skal omtale følgende: Forholdet mellom data og hypoteser: Hva kommer først? Hvilke datakilder bruker vi: Introspeksjon, korpus, informanter, kombinasjoner av datakilder, forholdet mellom data og fakta, ulike typer fakta, hypoteser, modeller. Hvis vi slår opp i en ordbok på metode finner vi at ordet har med systematikk og etterrettelighet å gjøre. Det å være metodisk impliserer at man er systematisk og ordentlig. I vitenskapelig sammenheng betyr det også å være etterrettelig og ikke minst: ettersporbar. Et av de mest sentrale krav til vitenskapelig metode er kravet om ettersporbarhet eller reproduserbarhet. Derfor er det et uomtvistelig krav i vitenskapelige avhandlinger at metoder som anvendes blir eksplisitt formulert og begrunnet. 2. Hva kommer først i prosjektet? Med mindre vårt doktorgradsprosjekt er av en helt spesiell karakter trenger vi det vi kaller data som vi kan bygge prosjektet vårt på. Det første spørsmålet vårt er da: Hva skal vi begynne med? Skal vi begynne med datainnsamling eller skal vi begynne med 1

problemformuleringen? Opp gjennom lingvistikkens historie har synet på dette variert, og man har prøvd begge deler. La oss først se hva som skjer hvis vi begynner med data. 2.1. Data først Induksjonsproblemet Da lingvistikken vokste frem som egen vitenskap i første del av forrige århundre var det først og fremst strukturalistenes kritikk mot den tradisjonelle latinsk baserte grammatikken som førte til nytenking. Påvirkningen fra Saussure s Course de Linguistique Generale var stor både i Europa og i USA. I USA hadde man i lengre tid arbeidet med kartlegging av de amerikanske indianerspråkene, og det ble fort klart at den tradisjonelle grammatikken var uegnet for dette formålet. Edward Sapir hadde lenge arbeidet med alternative lingvistiske teorier og metoder i sitt arbeid med indianerspråk i Canada, men det var Leonard Bloomfield som fikk gjennomslag for sin helt spesielle variant av strukturalismen med amerikansk smak. Hans bok Language fra 1933 var på 40- og 50-tallet totalt dominerende i amerikansk lingvistikk. Bloomfields strukturalistiske teori var knyttet til behaviorismen innen psykologien, en slags psykologi uten sjel, dvs en variant av en adferdspsykologisk, antimentalistisk stimulus-respons teori overført på menneskelige naturlige språk. Bloomfield var logisk positivist og beundret de metodene som naturvitenskaper som fysikk og kjemi hadde arbeidet seg frem til. Hans utgangspunkt var å redusere språklige data ned til mest mulig konkrete observerbare enheter som skulle kunne analyseres på samme måte som i naturvitenskapene. Dette var en ide som hadde vokst frem i form av en tese om enhetsvitenskap, dvs ideen om at alle vitenskaper skulle underlegges samme sett av metoder, og at de enhetene man skulle analysere skulle være konkrete erfaringsdata. For å få dette til var det naturlig å starte med de mest konkrete enhetene i språk, næmlig lydene, som han mente man kunne observere direkte. Først når lydsystemet, dvs det fonemiske inventaret i et språk var på plass kunne man kaste seg over det neste nivå, næmlig morfologien. Behavioristene med Bloomfield i spissen så på mennesket som et slags avansert dyr, dets omgivelser var viktigere enn deres arv. Dette førte til et mekanistisk og deterministisk syn på mennesket. De hadde en meget enkel observasjonsteori om stimulus, respons, betingede reflekser, tabula rasa (forestillingen om at mennesket var et helt tomt og forutsetningsløst individ ved fødselen, både kognitivt og språklig). Det som ikke kunne observeres måtte man unngå å si noe om. For Bloomfieldianerne var dette semantikken. Den ble overlatt til andre vitenskaper og til fremtidige generasjoner. Lingvistikk ble en slags steril formmekanikk. 2

Det sentrale i vår sammenheng er den nærmest naive tro behavioristene hadde på vår observasjonsevne som sikker kilde til kunnskap. Dette var en ren form for induksjon som førte mange problemer med seg. Induksjonsproblemet er kjent fra vitenskapsfilosofien. John Stuart Mill mente at man kunne anvende de samme metodene i humaniora som i naturvitenskapene, og at metodene måtte bygge på induksjon, dvs å trekke konklusjoner fra omhyggelige og systematiske iakttagelser og generalisere på grunnlag av dem (Kjørup 1996:85ff). Denne antakelsen overtok de amerikanske strukturalistene uten særlige motforestillinger. For dem var det som Chomsky senere kalte oppdagelsesanalyser av avgjørende betydning for en metodisk stringent og objektiv fremstilling av språklige strukturer. En av de mest sentrale og epokegjørende oppdagelsesanalysene som kom frem gjennom strukturalistisk fonologi var den såkalte minimale par-testen, som var veien å gå for å oppdage et språks fonologiske inventar. Metodens objektivitet har senere blitt angrepet av blant andre den generative fonologien som vokste frem i USA på 60-tallet. Metodens svakheter er glimrende illustrert i Marianne Haslev bok Lorang (1985:42ff): Hvis vi tar et enkelt ordpar som og vil vi, ut fra det vi har lært på forprøven i språk og språkvitenskap, trekke den konklusjon at og tilhører ulike fonemer i norsk fordi de opptrer i samme omgivelser og resulterer i et skifte av betydning. Videre vil vi kunne slutte at det som skiller fra fonetisk er faktorene urundet og rundet. Dermed er lepperunding et distinktivt trekk i norsk. En analyse i minimale par forutsetter at det som har distinktiv funksjon er ulikt (kalt substitutter hos Haslev) og resten er identisk (kalt rammen). Problemet er om vi kan si om rammen er identisk i de to ordene. Siden er i naboskap av, som er urundet i det første ordet og i naboskap av, som er rundet i det andre ordet, kan vi like gjerne si at vi har to ulike s-er: og. Dermed er ikke rammen konstant og vi kan ikke avgjøre om det distinktive trekket (urundet/rundet) ligger i vokalsegmentet eller i konsonantsegmentene ( samme resonnement gjelder for og. Resultatet av analysen kan like gjerne bli at og er to ulike fonemer i norsk eller at og er to ulike fonemer som at og er det. Her har vi altså ingen objektiv mulighet gjennom induktiv metode til å fastslå hva som er distinktivt og hva som er redundant. Hvis vi skal kunne gjøre det er vi nødt til å forutsette hvor det distinktive ligger. Problemet er jo at det er nettopp det vi skal oppdage gjennom den minimale par-testen. Vi er altså inne i en metodisk sirkel som vi ikke kommer ut av uten at vi forkaster induksjonsmetoden. Haslev konkluderer med at hvis vi skal finne ut noe i det hele tatt må vi med utgangspunkt i det fonetiske materialet gjette, dvs stille opp hypoteser som vi ikke er kommet frem til på strengt logisk grunnlag. Mill var klar over at induksjonsmetoden ikke var logisk holdbar, men anbefalte den likevel. 3

Som vi ser er det ingen metode som kan lede oss ut av metodesirkelen. Dette eksempelet viser at det å gå induktivismens vei for å etterape naturvitenskapelige metoder i lingvistikken fører til problemer. Det var nettopp slike argumenter den generative fonologien med Moris Halle og Noam Chomsky i spissen anførte mot de behavioristiske strukturalistene. Observasjon er ikke objektiv, men notorisk upålitelig. Riktignok er vi alle født med en viss observasjonsevne. Uten den ville vi ikke ha vært mennesker i det hele tatt. Men det er et uomtvistelig faktum at det vi faktisk observerer delvis er en funksjon av det settet av normer og kulturelle verdier som omgir oss i samfunnet. Dessuten påvirkes vi av hva vi har erfart tidligere i livet. Dette gjelder også språklig persepsjon. Vårt øre er innstilt på å oppfatte distinksjoner som er viktige for oss, som for eksempel forskjellen mellom og, men ikke mellom og eller og. Men minimalpartesten kan ikke påvise denne forskjellen på en uproblematisk måte gjennom induksjon. Vi kan altså ikke oppdage fonemdistinksjonene. Vi kan heller ikke observasjonelt avgjøre hvilken av de tre mulighetene som er riktige. Det eneste vi kan gjøre er å evaluere hvilken løsning som er mest plausibel. For å kunne gjøre det må vi blant annet konsultere vår egen intuisjon. Dette poenget er et av de mest sentrale i Chomsky s klassiske verk Syntactic Structures, som kom ut i 1957, og som etter hvert bidro til å rive vekk mye av fundamentet for Bloomfields oppdagelsesanalyser. Som Chomsky påpekte var evalureringsprosedyrer det beste man realistisk sett kunne håpe på i lingvistisk metode. Vi kan konkludere med et sitat fra Popper (1972:46): Observation is always selective. It needs a chosen object, a definite task, an interest, a point of view, a problem. And its description presupposes a descriptive language, with property words; it presupposes similarity and classification, which in its turn presupposes interests, points of view, and problems. Lydskrift Likevel, selv om vår observasjonsevne er upålitelig, er den en hovedkilde til data og vi kan ikke komme utenom den, selv om enkelte har prøvd. Derfor er det viktig å skille mellom observasjonsevne og observasjonskompetanse. Fonetikerne har vist oss at det er mulig å trene opp sin observasjonskompetanse. I det klassiske fonetikkstudiet ble dette tillagt stor vekt. De som skal bruke for eksempel lydskrift som data i sine prosjekter bør tillegge dette vekt. Tradisjonelt har lydskriftssystemer vokst frem som en metode til å notere kodeegenskaper ved språk som ikke fremkommer gjennom ortografi. Ortografien er høyst selektiv når det gjelder hvilke egenskaper ved tale som gjengis: Både norsk og vietnamesisk kan sies å ha tonemotsetninger, men i motsetning til vietnamesisk angir ikke norsk tonemotsetninger ortografisk. Skrift er altså en reduksjon av tale. Det gjelder både vår latinske ortografi og ulike lydskriftssystemer, som for eksempel IPA. 4

Lydkriftens hovedfunksjon er å produsere en gjengivelse av de aspektene ved en ytring som er relevante i en praktisk situasjon. Siden lydskrift kun angir visse aspekter av talte ytringer forutsetter lydskrift at det må være foretatt en form for analyse av talen før eller når den skrives ned. Det er altså ikke noen induktiv prosess. Skrift bygger på analysert tale. Det gjelder både vårt latinske alfabet og lydskrift som vi bruker i vitenskapelig sammenheng. Som vi husker fra forprøven skiller vi mellom fonemisk og fonetisk skrift. Den fonemiske transkripsjonen har et fastlagt abstraksjonsnivå (det fonemiske nivå), mens fonetisk transkripsjon ikke har et fastlagt abstraksjonsnivå. Fonetisk skrift kan være svært detaljert, dvs mer spesifikk enn det fonemiske nivå, men den kan også være svært generell, dvs mindre spesifikk enn det fonemiske nivå. Dette er et svært viktig poeng som har metodiske konsekvenser. Flere stort anlagte dialektundersøkelser, blant annet TUB-prosjektet (talemålsundersøkelsen for bergensdialekten) på 80-tallet, brukte blant annet båndopptak av informanter som ble brukt som utgangspunkt for fonetisk transkripsjon. Det ble satset store ressurser på dette, og mange prosjektmedarbeidere ble satt til å transkribere i størst mulig detalj alle aspekter ved informantenes tale. Et av problemene med dette var at man akkumulerte en stor mengde data som var nærmest umulig å håndtere. Denne situasjonen kan man fort havne i hvis man ikke i utgangspunktet klarer å avgrense mengden av data. Den beste måten å gjøre det på er å formulere et sett av problemer eller hypoteser som man vil finne ut noe om. Dette problemsettet vil da på en helt naturlig måte kunne sette grenser for hvilke data som er relevante og hvilke som ikke er det. Siden fonetisk skrift ikke er spesifisert med hensyn til spesifikasjonsgrad kan lydskriften være spesifikk på de områdene som omtales av hypotesene og uspesifikk eller generell på de områdene som ikke er relevante i forhold til hypotesene. Dvs.: Lydskriftsspesifikasjon er avhengig av våre utgangshypoteser. Hvis man for eksempel har til oppgave å undersøke visse aspekter ved nasaler i trøndersk til forskjell fra finnmarksdialekten, vil transkripsjonene være så detaljert som det er nødvendig på akkurat dette punktet, men generell på andre områder. Hvis man er interessert i tonelagsmotsetninger, må disse markeres, etc.: 1. 2 h 2. 3. V 4. h VV 5. KVV 5 ulike trenskripsjoner av kasse: 5

I transkripsjon 1. er man interessert i både tonelag, aspirasjon, konsonantlengde og ulike vokalkvaliteter, i 2. er man ikke interessert i tonelag, aspirasjon og vokallengde, mens vokaler i trykklette stavelser synes å være interessant. I 3. er man kun interessert i av vokalene, i 4. er man ikke interessert i vokalegenskaper i det hele tatt, mens aspirasjon er relevant, og i 5. er man utelukkende interessert i hvordan realiseres mellom to vokaler. Poenget med disse eksemplene er å vise at det kun er mulig å sile ut de relevante dataene hvis man har en klar problemstilling før man begynner å samle dem. Konklusjonen må da bli at data ikke kan komme først. Da risikerer vi å drukne i irrelevante data. 2.2. Problem først Hva er data? Uttrykket data er opprinnelig et latinsk neutrum partisipp av verbet dare, som betyr å gi. Partisippets betydning er da det som er gitt. Men er data gitt? Vi har allerede sett eksempel på at data ikke uten videre er objektivt observerbare, selv om de er offentlig tilgjengelige; noe som er et viktig krav til gyldige data. Som det fremgår av Dyviks forelesning fra 1997, Data, Facts and Concepts of Language, er data ikke uten videre gitt. Det er gitt at de eksisterer og kan prinsipielt observeres, men tolkningen av dem vil variere avhengig av hva man er interessert i å hente ut fra data. Når mennesker tar inn informasjon via sansene foregår det en utsilingsprosess. Kun en delmengde av all informasjonsmengde som potensielt er tilgjengelig blir tatt opp og registrert. Uten denne silingsegenskapen ville ikke mennesket kunne håndtere verden. Kun de data som blir manifeste for oss er data. Slik er det også på en måte med vitenskapen. Verden er uendelig rik på data. For at vi skal kunne sortere dem og nyttiggjøre oss dem må vi sile ut de data som er viktige for oss i gitte situasjoner. Slik sett er også strengt tatt en fonetisk transkripsjon, uansett hvor fingradert den måtte være, en siling av data til en delmengde av relevante data. Hvis utgangspunktet er et båndopptak vil opptaket kanskje også inneholde lydkilder som ikke er språklige, for eksempel lyden av en bil som passerer, eller en fugl som synger. Vi siler ut de språklige lyddataene og prøver å gjengi de aspektene av dem som vi antar er relevante ut fra et sett av problemstillinger og hypoteser som vi ønsker å prøve eller etterprøve. Det vi sitter igjen med da er ikke data, men fakta som er utledet fra data. Som Dyvik påpeker, med referanse til Dretskes eksempel, kunne vi også fra det samme lydbåndopptaket ha silt ut andre fakta hvis våre interesser og problemstillinger hadde vært annerledes. Den konklusjonen vi er nødt til å trekke er at problemet med datamengde og relevante data kan ikke løses induktivt. 6

Deduksjon og hypotetisk-deduktivisme De to andre klassiske metodene i lingvistikken er deduktivisme og hypotetiskdeduktivisme. Deduktivismen er eldst og kan føres tilbake til de antikke filosofene. Typiske eksempler er Euklids geometri og Aristoteles syllogismelære. Den deduktive metoden er en systematisering og klargjøring av det en allerede vet fra før. Den trekker logisk nødvendige slutninger fra premisser (kalt aksiomer). Konklusjonene kalles teoremer. Man kan utlede beviser for at slutninger er logisk gyldige. Dette er typiske metoder i matematikkens verden. Siden vår kunnskap om menneskelige naturlige språk er det Polanyi og Chomsky kalte taus kunnskap, kan den deduktive metoden hjelpe oss til å eksplikere eller bevisstgjøre deler av denne språkkunnskapen gjennom for eksempel introspeksjon. Et problem med denne metoden er at den er fullstendig formallogisk og ikke-empirisk. Matematikerne kan bruke den deduktive metoden helt uavhengig av hvordan verden ser ut. Vi språkvitere må dessverre forholde oss til den problematiske virkeligheten, dvs den verden hvor språk brukes ustanselig og hele tiden. Når man bruker hypotetisk-deduktiv metode bringes forhold fra vår erfaringsverden derimot inn. Metoden ble opprinnelig brukt i naturvitenskaper som fysikk og kjemi. Hovedformålet var å finne en metodikk for å teste og kontrollere hypoteser eller gjetninger. En hypotese skiller seg fra et aksiom ved at hypotesen antar at et utsagn om et ytre fenomen i verden er sann. Et aksiom, derimot, antas som en underliggende premiss i en formallogisk deduksjon. I den hypotetisk-deduktive metoden er kontroll av empiriske data av avgjørende betydning. Teoremer i deduktiv metode kan verifiseres og dermed bevises, mens hypoteser i den hypotetisk-deduktive metode aldri kan bevises, men kun sannsynliggjøres eller bestyrkes. Derfor snakker vi vanligvis ikke om beviser i lingvistikken. Vi drøfter heller om lingvistens hypoteser er blitt bestyrket gjennom et prosjekts sett av tester. I et hypotetisk-deduktivt system erstattes aksiomer med empirisk baserte primitiver. Et primitiv er et empirisk faktum som har status av å være uproblematisk. Det betyr at det hersker en utstrakt enighet i et forskersamfunn om hvordan dette fenomenet skal tolkes. Det vil vanligvis dreie seg om grunnleggende antakelser som at hendelser utspiller seg i tid, at objekter har en stabilitet over tid, etc. Primitivene inngår da i hypoteseformuleringene i det hypotetisk-deduktive systemet. 7

induktivisme deduktivisme hypotetisk-deduktivisme data aksiom hypotese/problem/primitiv relevante data generalisering utledning testing/kontrollering konklusjon bevis/teorem styrking/svekking/avkrefting I moderne grammatiske generative teorier brukes deduktive systemer også i empiriske sammenhenger. Det er da et krav om at de termene som brukes i de deduktive systemene er empirisk fortolket (Dyvik 1980:12ff). En ofte kritisert svakhet med Chomskys generative teorier er nettopp at grunnleggende begreper som grammatisk subjekt og grammatisk objekt defineres modellinternt og ikke søkes definert i empiriske domener utenfor modellen selv. Da mister teorien viktige empiriske forankringspunkter, noe som fører til at teorien blir mindre egnet for empirisk anlagte prosjekter. Vi kan konkludere med at de data vi søker må være tilpasset de hypotesene vi stiller opp. Jo mer man arbeider med hypoteseutforming desto større er mulighetene for at man får relevante data. Hvis data er relevante vil de som regel også være gyldige data. Gyldige data er data som potensielt sett kan bidra til at man kan ta stilling til en hypoteses status som bestyrket, avsvekket eller forkastet. I det følgende skal vi se nærmere på ulike kilder til data. 3. Kilder til data I det følgende vil de vanligste kildene til data behandles. Jeg vil behandle 1. introspeksjon 2. korpus 3. kombinasjon av introspeksjon og korpus 4. informantarbeid av forskjellig slag: a. intervju, b. spørrskjema og c. deltagende observasjon. Alle disse metodene har vært brukt med suksess i lingvistiske prosjekter, men det er mange muligheter for å begå metodiske feil som vil kunne forringe verdien av de data man får ut. Vi skal også illustrere at disse metodene ikke ekskluderer hverandre, men ofte brukes sammen. 8

3.1. Spekulasjon/introspeksjon En av de mest bemerkelsesverdige aspekter ved språk er at språkbrukere i mange tilfeller kan avgjøre om en setning er grammatisk eller ugrammatisk uavhengig av hvilken kontekst man setter setningen inn i: 1. Per måtte ikke gå. 2. *Per ikke måtte gå. 3. Ole sa at Per ikke måtte gå. 4.?Ole sa at Per måtte ikke gå. Her må vi skille mellom kunnskap om språk og ferdighet i språk. Den ferdigheten vi har som innfødte språkbrukere av norsk setter oss i stand til å avgjøre at 1. og 3. er grammatiske mens 2. ikke er det. Men hvis vi ikke har noen opplæring i grammatikk vil vi få store problemer med å forklare hvorfor 2. ikke er grammatisk. For å kunne det trenger vi også kunnskap om språket, dvs kunnskap på et metanivå. Det problematiske med det er at denne kunnskapen er taus, men prinsipielt artikulerbar (jf Johannessen 1999). Mens behavioristene forkastet introspeksjon som ubrukelig som kilde til data, mente Chomsky at nettopp introspeksjon var hovedkilden til vår kunnskap om språk. Diskusjonene rundt introspeksjonens rolle i lingvistikken har så langt munnet ut i at introspeksjon er et nødvendig innslag i all språkforskning, men at introspeksjon i seg selv er notorisk upålitelig. Introspeksjonsdata fremkommer typisk ved at språkforskeren konsulterer seg selv for å avgjøre om manipulering av visse kodeegenskaper ved konstruerte setninger resulterer i grammatiske eller ugrammatiske konstruksjoner. Antakelsen her er at både lingvisten og andre språkbrukere har en innebygget, velformet grammatikk som er tilgjengelig via introspeksjon. Men om introspeksjon er nødvendig i språkforskningen er det likevel mye som tyder på at den ikke er tilstrekkelig som kilde til data. For det første baserer introspeksjonen seg på lingvistens eget internaliserte språk (kalt i- språk i den generative lingvistikken), dvs en form for idiolekt. Som vi vet er det ofte forskjeller mellom ulike idiolekter innen samme språkområde, også når det gjelder bedømmelse av setningers grammatiske status. For det andre er det i mange tilfeller ikke mulig å avgjøre om en setning er grammatisk eller ikke. Intuisjonen kan ikke avgjøre dette i alle tilfeller. For eksempel vil 4. være grammatisk for noen, og ugrammatisk for andre: 4. Ole sa at Per måtte ikke gå. For det tredje er det mange ting som tyder på at grammatikalitet ikke bare er et spørsmål om enten eller. Noen setninger vurderes som mer grammatiske mens andre vurderes 9

som mindre grammatiske. Dette oppdager lingvisten fort hvis han/hun konsulterer andre språkbrukeres intuisjon. Derimot er introspeksjon et ypperlig utgangspunkt for hypotesedanning både når det gjelder grammatikalitet og når det gjelder andre aspekter ved språksystem og språkbruk. 3.2. Korpus Korpuslingvistikken hadde lenge et dårlig rykte på grunn av Chomskys harde kritikk mot behavioristene. Chomskys hovedpoeng var at ethvert korpus, uansett hvor stort det måtte være, består av et finitt sett av setninger/tekster. Et hvert naturlig menneskelig språk er infinitt og et hvert korpus vil da per definisjon være utilstrekkelig. Videre skilte Chomsky mellom kompetanse og utføring (senere kalt i-språk og e-språk). Det som var den generative lingvistens studieobjekt var kompetansen, mens det som fremkom i korpora var utføringsdata. I følge Chomsky var utføringsdata fulle av feil som skyldtes blant annet slurv, tretthet og uoppmerksomhet. Disse data var ikke egnet til å si noe om kompetansen hos språkbrukerne. De strukturalistiske korpuslingvistene så på korpusdata som eneste kilde til kunnskap om språket. I dag vet vi at dette langt fra er tilfelle, men korpora inneholder mange eksempler på lingvistiske fenomener som man ikke kan ha noen klar intuisjon om. Derfor sees korpusdata som et viktig supplement til andre datakilder, blant annet intuisjon. Men først må vi foreta et par grunnleggende skiller. Det er viktig å skille mellom korpus og beleggsamling. Et standardkorpus er vanligvis sett på som et sett av data, nærmere bestemt tekster (eller deler av tekster) som er samlet uten en forutgående siling av data gjennom hypoteser (med mindre man velger et skreddersydd korpus for sitt eget prosjekt). En beleggsamling, derimot, er en samling av data som er silt gjennom et sett av hypoteser. Beleggsamlinger inneholder altså ingen negative data, dvs moteksempler. Man leter etter positive data som kan bestyrke en hypotese. Vi skal her ikke si noe mer om beleggsamlinger, men konsentrere oss om korpora. Man skiller mellom elektroniske korpora og korpora i papirform. Noen elektroniske korpora er nærmest ferdig tilrettelagt med mange praktiske søkefaciliteter som gjør det mulig å hente ut relevante data på en praktisk måte. En svært vanlig og utbredt bruk av korpora i språklig sammenheng er såkalte KWICkonkordanser. Dette er et meget praktisk og nyttig verktøy i mange sammenhenger. Selv har jeg brukt det såkalte Oslokorpuset ved Tekstlaboratoriet i Oslo. Det er satt sammen av de tekstene som Tekstlaboratoriet har hatt tilgjengelige pr januar 1999. Korpuset består av 18,3 millioner ord, og omfatter tre genrer: skjønnlitteratur (1,7 mill. ord), avis/ukeblad (9,6 mill. ord) og sakprosa (6,9 mill. ord). Korpuset er fritt tilgjengelig og gratis, men man trenger et passord for å kunne bruke det. Man kan få mer informasjon på hjemmesiden: 10

http://www.tekstlab.uio.no/norsk/bokmaal/index.html Introspektivt utgangspunkt: mottak av flyktninger vs mottak for flyktninger I mitt prosjekt om verbalsubstantiver i norsk bokmål brukte jeg KWIC-konkordanser til å teste ut et par hypoteser som utkrystalliserte seg i løpet a prosjektperioden. Jeg arbeidet ut fra den hypotesen at verbalsubstantiver som har prosessbetydning er mer verbale enn verbalsubstantiver som refererer til entiteter, for eksempel steder. Mange verbalsubstantiver kan ha begge betydninger (polysemi). Videre hadde jeg en hypotese om at hvis substantivet hadde prosessbetydning ville det ofte overføre det direkte patiensobjektet ved nominalisering ved hjelp av preposisjonen av, mens hvis det samme verbalsubstantivet hadde stedsbetydning ville en annen preposisjon, ofte for, bli brukt: Prosess vs sted-polysemien er svært utbredt i verbalsubstantivsystemet i norsk. Jeg undersøkte dette i forbindelse med rotnominaler som mottak i konstruksjoner som mottak av flykninger vs mottak for flyktninger: Hypotese: Hvis det deverbale rotnominalet denoterer prosess brukes preposisjonen av, fordi av er en grammatisk markør for et overført direkte objekt. Hvis rotnominalet denoterer sted vil ikke den grammatiske markøren av forekomme, men preposisjonen for, som ikke er en grammatisk markør, som i: mottak av flyktninger vs mottak for flyktninger Ut fra denne hypotesen gikk jeg til Oslokorpuset for å sjekke preposisjonsbruken ved postnominale preposisjonsledd ved mottak: Oslokorpuset Mottak for: 2 forekomster funnet. AV/BT95/02: urt Lancaster) skal bygge et mottak for nordsjøolje i en skotsk småby. Stedet AV/Bb95/01: ere et nettverk av kombinerte mottak for skogssopp og -bær over hele landet. Øs 82 forekomster av mottak av: de 20 første: AV/Af96/01: land og landet er isolert for mottak av nabolands programmer. Kilde : Nordisk AV/BT95/02: liegjenforeningen, og øvrige mottak av asylsøkere og flyktninger på 1980-talle AV/BT96/03: rede til å ta sitt ansvar for mottak av et økt antall overføringsflyktninger ut AV/BT97/01: på sin nye beredskapsplan for mottak av flyktninger og har ikke skjerpet bereds AV/BT97/01: ordi vi fikk god erfaring for mottak av mange mennesker under Bosnia-konflikten 11

AV/BT97/01: AV/Bb95/01: AV/Fa96/01: iskarfagskulen. Her blir det mottak av fisk og et område for saltvannsakvarier rsielle aktører vedr. kjøp og mottak av korn, analyser m.v.. Disse tjenestene es av andre i forlaget? Vårt mottak av manus på papir utenfra er idag ca 18 tr AV/VG96/01: oringen var bare genial, med mottak av høy klasse, måten han vendte vekk svei SA/Lo81/01: SA/Lo81/01: SA/Lo84/01: SA/Lo84/01: SA/Lo86/01: SA/Lo86/01: SA/Lo87/01: SA/Lo87/01: nne sted. Den ansvarlige for mottak av avfallet kan kreve opplysninger om avfa nne sted. Den ansvarlige for mottak av avfallet kan kreve opplysninger om avfa r fler. Minst 90 % av samlet mottak av epler og pærer fra norske produsenter s tføring av arbeid i arkivet : mottak av post og registrering, arkivlegging, p redte rekvisisjoner. 8. Ved mottak av rekvirerte ytelser skal det forholdes p lig kjøling o.l., kan videre mottak av fisk nektes inntil allerede mottatt fis an få utstedt en erklæring om mottak av søknad. Erklæringen sammen med det ute r det utstedes bekreftelse om mottak av søknad. ==== FOR-1987-07-01-582. Fo SA/Lo87/01: fiserer hussentralen/klar for mottak av MFPB-innvalgssiffer). -- --->>" " SA/Lo87/01: Utsalgsstedene kan ikke nekte mottak av rimelige mengder returemballasje som Når vi leser oss gjennom konkordansene ser vi også andre aspekter ved mottak av, som i Scoringen var bare genial, med mottak av høy klasse,.dette eksempelet var spesielt, fordi den i motsetning til de andre eksemplene med mottak av uttrykker noe momentant, ikke noe durativt, noe som har utstrekning i tid. Eksempelet viser også at preposisjonen av har flere andre funksjoner enn å være en grammatisk markør for et overført direkte objekt. Dette førte til at jeg måtte se nærmere på polysemien ved av. Bokmålsordboken har registrert 15 betydninger av preposisjonen, og da er ikke den grammatikaliserte bruken som jeg var på jakt etter tatt med. Dessuten måtte jeg se nærmere på aspektmotsetninger som perfektivimperfektivmotsetningene. I sin tur ledet det meg til skillet mellom imperfektive konstruksjonstyper som pass og stell av barn vs et spark på ballen. Poenget her er at jeg ved å veksle mellom konstruerte eksempler fremkommet via introspeksjon fra hypoteser og KWIC-konkordanssøk i et tekstkorpus fikk frem relevante data som også ble kilde til nye hypoteser som kunne testes ved nye søk i korpuset. Men en ting er å ha velorganiserte og ferdig kodede korpora som man fritt kan bruke. En annen ting er at det aktuelle korpuset kanske ikke er egnet til å få frem de data som du er på jakt etter. Hvis man arbeider med aspekter vedrørende teknologiske tekster med teknisk innhold eller vitenskapelige tekster av ulike genre må man kanskje bygge et skreddersydd korpus selv. Men det er en vanskelig og omstendelig prosess å bygge egne korpora. Det forutsetter en tidkrevende xml-koding, en headermarkering, blant annet en DTD-beskrivelse, hvor for eksempel genrebestemmelser ofte inngår. Dette er ressurskrevende. 12

Men før man overhodet kommer så langt møter man rettighetsproblemene, som mange, inkludert meg selv, ofte undervurderer. Det viser seg ofte vanskelig å få tillatelse til å bruke mange typer tekster i korpussammenheng. Og, som om ikke det var nok: Man får vanligvis ikke pengestøtte til korpusbygging. Men hvis man får etablert et brukbart elektronisk korpus er fordelene mange: Man kan kjøre statistikk på data hvis man ønsker det. Det aktualiserer forskjellen mellom en kvantitativ og en kvalitativ metode. Jeg skal ikke si så mye om bruk av statistikk, men hvis man har tenkt å anlegge en kvantitativ metode på sine data må man bruke disse metodene hele veien. Det første man må ta stilling til ved bruk av kvantitativ metode er om man skal ha representative data. Vurderingene rundt representativitet er mange, og det vil føre for langt å gå inn på det her, men jeg vil kort nevne forskjellen mellom populasjon og utvalg. En populasjon kan være finitt eller infinitt. Det kan være hva som helst som er et forskningsobjekt i et prosjekt, for eksempel antallet ord i en tekstsamling, antallet verbalsubstantiver i en roman, antallet passivkonstruksjoner i en teknisk håndbok, antallet instruktive språkhandlinger i en bruksanvisning, antallet informanter som brukte konstruksjonen x i stedet for y i en bestemt dialekt, etc. Hvis populasjonen er meget stor må vi trekke ut et utvalg. En fordel med det er at prosessen både blir mer håndterlig og er mindre arbeidskrevende. Dessuten vil risikoen for feil bli mindre enn hvis hele populasjonen må prosesseres statistisk. Hvis man har arbeidet med informanter om akseptabilitetsholdninger til avvikende bruk av flertall ved nøytrumssubstantiver i bergensdialekten, for eksempel et fat-fater vs et fat-flere fat, så kan man ikke sjekke alle bergensere. Man må foreta et utvalg, ikke bare et hvilket som helst utvalg, men et tilfeldig utvalg. Et tilfeldig utvalg betyr ikke at man bare plukker ut bergensere tilfeldig, men at utvalget velges på en slik måte at hver informant fra populasjonen har like stor mulighet til å bli representert i utvalget som de har mulighet til ikke å bli representert i utvalget. Det fins statistiske metoder for hvordan man skal foreta et slikt utvalg, men det er ikke uten videre enkelt. I vårt eksempel er det ikke lett å definere populasjonen heller: Hvem skal telle som bergenser her? Hvor mye skal vedkommende ha bevart av sin bergensdialekt? Hva hvis det er infisert av sunnmørsk? Statistiske metoder har vært gjennomført med suksess både i forbindelse med informantdata og i forbindelse med elektroniske korpora. Et paradeeksempel er Douglas Bibers faktoranalyse i sin flerdimensjonale analyse av tekster fra London-Lund korpuset og LOB-korpuset (jf Biber 1988). En god innføringsbok i statistikk er Christopher Butlers bok fra 1985: Statistics in linguistics. Den har vært brukt av Kolbjørn Slethei i undervisningen i statistikk, og har øvingsprogrammer både for Mac og PC. Den er utsolgt fra forlaget, men Slethei har kopiert opp boken med tillatelse fra forfatteren. 13

Hvis man ønsker å ta i bruk statistiske metoder bør man følge kurser i statistikk anvendt på språklige problemstillinger. Seksjon for lingvistiske fag har ofte tilbud om slike kurs. Det mest grunnleggende å ha et våkent øye for når man bruker statistikk i sin argumentasjon er å være forsiktig med å trekke konklusjoner som det ikke er grunnlag for. Dette er typiske tabber man begår i statistikken. Statistikk kan i aller høyeste grad misbrukes. For øvrig har det nettopp kommet ut en bok om metoder i samfunnsvitenskapene av professor Sigmund Grønmo: Samfunnsvitenskapelige metoder. Fagbokforlaget 2004. Den inneholder flere metodeeksempler for både kvantitative metoder og kvalitative metoder. Boken kan anbefales. Forfatteren har lagt frem informative transparenter fra bokens ulike kapitler på nettet, jf.: <http://www.fagbokforlaget.no/boker/sv-metode/> Men tilbake til korpus: I realiteten viser det seg ofte at praktiske problemer og begrensninger på ressurser tvinger mange doktorgradskandidater til å anvende den tradisjonelle papirvarianten som korpus. Uansett, hvis man skal skreddersy et korpus for et spesielt prosjekt, må man ta stilling til hvilke tekster man skal velge. Det dikteres av settet av problemstillinger. Ofte er det slik at de tekstene man ønsker å velge ikke er tilgjengelige av ulike årsaker, eller at de tekstene man har funnet frem til ikke holder mål kvalitetsmessig. Det er selvfølgelig mulig å lete etter tekster på nettet, men de må da kvalitetssikres for prosjektformålet, fordi man ikke har noen garanti for disse tekstenes kvalitet i utgangspunktet. Det fins flere gode innføringsbøker i korpuslingvistikk: Stubbs (1996) står i den såkalte Firth-Halliday-tradisjonen, Birminghamskolen, mens McEnery et al (2. utg. 2001) tilhører Lancaster-skolen. En forskjell er at Birminghamskolen legger vekt på hele tekster, mens Lancaster-skolen også tillater tekstutdrag og deler av tekster i et korpus. Begge bøkene kan anbefales. 3.3 Informanter I mange prosjekter er det vanlig å bruke informanter. Det er mange og vanskelige spørsmål som reiser seg i forbindelse med det: Hvor mange informanter bør man ha? Hvilken bakgrunn skal informantene ha? (alder, kjønn, utdannelse, sosial tilhørighet, geografisk tilhørighet, etc). Når man anvender informanter kommer man ikke utenom introspeksjon. Introspeksjon betyr ikke bare at man spør seg selv om data, men at man spør andre språkbrukere om data. I slike tilfeller må disse språkbrukerne konsultere sin egen intuisjon. Dette er problematisk. 14

Et kjernespørsmål er: Hvordan skal jeg elisitere/uteske andres intuisjon om data? Hvordan skal jeg tolke de informantreaksjonene jeg får frem? Man kan operere med ulike typer informantarbeid: informantarbeid intervju spørreskjema opptak auditivt, visuelt deltakende observasjon +feedback - feedback - feedback + feedback Intervjuet er en vanlig måte. En fordel med intervju er at forskeren selv er til stede og kan observere informanten direkte on line så å si. Dette betyr at forskeren har muligheter for feedback, dvs han/hun har muligheter til å påvirke informanten underveis i prosessen. Dessuten kan forskeren ut fra de svarene som informanten gir, skyte inn tilleggsspørsmål for å følge opp gitte svar. Dette står i kontrast med spørreskjemaet, hvor forskeren vanligvis ikke har mulighet til å være til stede. Ved denne metoden kan man nå flere informanter enn ved intervjumetoden, men man har færre muligheter for feedback, dvs til å følge opp de data man ha samlet inn. Begge disse metodene krever nøye planlegging både når det gjelder hvilke spørsmål man skal stille, hvor mange spørsmål man skal stille, og ikke minst hvordan man skal utforme spørsmålene på en slik måte at man virkelig får de data man er interessert i. Ikke lag spørsmål som legger svarene i munnen på informanten. Ikke lag spørsmål som kan tolkes på flere måter. Da får du helt sikkert den tolkningen du ikke intenderte. Bruk god tid til å komponere spørsmålene. Opptak av informanter, gjerne kombinert med et intervju, kan få frem tilleggsinformasjon som man lett kan gå glipp av ellers, for eksempel prosodiske forhold ved ytringer som intonasjonsmønstre (som jo gir viktig ekspressiv informasjon) og trykkplassering. Ved visuelle opptak får man også et bedre bilde av den situasjonen som forskeren og informanten befinner seg i. Man får også informasjon om paralingvistiske fenomener som gester, kroppspositur og ansiktsuttrykk. Dette kan være viktig informasjon for bedømmelse av informantreaksjoner, ikke bare på språk, men på hele intervjusituasjonen. 15

De situasjonene som intervjuer forekommer i, er nemlig av en litt spesiell karakter. Den berømte amerikanske sosiolingvisten William Labov har i et av sine hovedverk Sociolinguistic Patterns fra 1972 beskrevet flere av de problemene man kommer opp i. Det mest omtalte metodeproblemet kalles the Oberserver s Paradox, kapittel 8 The Study of Language in its Social Context. Det mange lingvister er opptatt av er å finne ut hvordan folk bruker språket i dagligdagse situasjoner. Dette kaller Labov the vernacular, eller hjertespråket, som enkelte kaller det på norsk: -the style in which the minimum attention is given to the monitoring of speech. Ut fra dette blir da Observer s Paradox: The aim of linguistic research in the community must be to find out how people talk when they are not being systematically observed; yet we can only obtain these data by systematic observation. Intervjusituasjonen er en formell situasjon hvor informanten ventelig vil gi maximum attention to speech. Hvis vernacular ikke står på dagsorden i intervjuet er ikke dette nødvendigvis et uløselig problem, men man må da være klar over at man får en mer formell, kanskje mer preskriptivt korrekt variant av språkbruk enn den man kanskje er ute etter. I seg selv er the Oberserver s Paradox et uløselig problem, men Labov har en rekke gode råd å gi for å kunne komme forbi dette paradokset. Det kan dere lese mer om selv. En måte å unngå the Observer s Paradox på er å selv delta i språk og diskurssamfunnet som man skal hente data fra. Denne metoden, kalt deltakende observasjon, har vært brukt med suksess av blant andre Leslie Milroy ved hennes berømte Belfastundersøkelser (Milroy 1980). Hun gjorde seg kjent med språksamfunnet og sosialiserte seg inn i det slik at hun, uten å kunne mistenkes for å pay attention to speech, kunne observere den språkbruken hun var ute etter å analysere. Ellers er jo denne metoden kjent fra antropologien, og mange antropologiske lingvister, som Edward Sapir, brukte slike metoder i sine studer av indianerspråk i Canada. Men denne metoden er tidkrevende, og folk flest har jo både familie, slekt og et sosialt nettverk som i praksis hindrer dem i å bruke en slik metode. En annen form for deltakende observasjon er såkalte longitudinelle studier. Dette er mye brukt innenfor førstespråkslæring. Det har ofte vært populært å bruke sine egne spedbarn som informanter for å finne ut hvordan vi lærer vårt morsmål. Hvilke faser/nivåer man kan identifisere og hvordan disse fasene kan korrelere med allmenn kognitiv utvikling. Bruk av spedbarn er en svært krevende oppgave, og spesielle, mer indirekte elisitasjonsmetoder må tas i bruk i den grad det overhodet er mulig å elisitere i det hele tatt. Tålmodighet er svært viktig her. 16

3.4 Kombinasjoner av datakilder Det vi alt har sagt understreker at vi hele tiden må spørre oss selv: Hvor sikre er våre kilder til data? Hvilke data er relevante? Er data gyldige? For å kunne diskutere disse spørsmålene mer inngående må vi se på hvordan vi kombinerer ulike datakilder, og hvilke implikasjoner det har. Som vi allerede har vært inne på kan ikke korpusdata eller informantdata brukes uten et innslag av introspeksjon. Stubbs (1996:4) skiller i forbindelse med korpusarbeid mellom 3 ulike datakilder: 1. attesterte, autentiske data, 2. modifiserte data og 3. konstruerte, intuitive, introspektive data. Vi har allerede påpekt at introspeksjon er involvert både i forbindelse med korpusdata og med forskerens egne intuitive data. Måten vi henter ut data på er også avhengig av hvordan vi betrakter studieobjektet. Mange språkforskere ser på språk som en sosial institusjon som er styrt av normer. Noen er interessert i språkbruk i forskjellige domenetyper mens andre er interessert i å studere grammatiske egenskaper ved språk. Med andre ord er det språkbruk eller språksystem vi forsker på. Hvis vi er interessert i språksystemets syntaks, for eksempel, bør vi ta stilling til grunnleggende begreper som setning og ytring. Ytringer er observerbare mens setninger ikke er direkte observerbare. En ytring er konkret og utspiller seg i tid og rom, mens en setning kan betraktes som en abstraksjon av et sett av ytringer med felles egenskaper. En setning kan sies å være en generalisering over et sett av ytringer. En ytring har alltid en kontekst, mens en setning prinsipielt er kontekstfri, nettopp fordi den er en abstraksjon, en generalisering. Lyons sier at den er maksimalt avkontekstualisert (Lyons 1977:570ff). I følge generativ grammatikk har vi intuisjon om både setninger og ytringer. Setninger hører til språksystemet og ytringer hører til språkbruken. Setninger kan deles i grammatiske og ugrammatiske, mens ytringer deles i akseptable og uakseptable: setninger språksystem grammatiske vs ugrammatiske ikke direkte observerbare maksimalt avkontekstualiserte ytringer språkbruk akseptable vs uakseptable direkte observerbare kontekstavhengige Chomsky har påpekt at vi kan skille mellom grammatiske og ugrammatiske setninger selv om begge er uakseptable: 17

5. Colorless green ideas sleep furiuosly. 6. *Colorless sleep green ideas furiously. Når vi spør en informant om en setning er grammatisk eller ikke, er det slett ikke sikkert at det vi får til svar er et utsagn om grammatikalitet. Høyst sannsynlig er det et utsagn om akseptabilitet. En viktig grunn til at vi ikke aksepterer setning 5. som en akseptabel setning er at vi ikke kan forestille oss en kontekst hvor det ville være naturlig eller vellykket å bruke en slik setning. Setning 5. ligger der som et grammatisk potensiale som ikke har noe ytringsmessig nedslagsfelt. Likevel kan vi konstatere at 5. er grammatisk mens 6. ikke er grammatisk. Abstraksjonsforskjellen mellom setning og ytring kan vi ikke forvente at vår informant kan ta høyde for. Evnen til å kunne tenke seg en mulig situasjon/kontekst hvor en gitt ytring kan tenkes brukt krever både fantasi og forestillingsevne. La oss sette opp en oversikt slik at vi kan drøfte dette mer inngående: metoder empiriske ikke-empiriske korpus informantreaksjoner introspeksjon Denne modellen overforenkler forholdet mellom datakildene. Det er snarere slik at distinksjonen mellom empirisk og ikke-empirisk er en graduell distinksjon, ikke en enteneller distinksjon (eller diskret distinksjon). Hvis man i hovedsak stoler på egen intuisjon, og eventuelt diskuterer med et par kolleger, er den empiriske forankring lav. Denne metoden kan brukes i hypotesedanningsfasen, men ikke i testfasen av hypoteser, i alle fall i følge manges oppfatning. Hvis man ønsker å studere grammatiske egenskaper ved et språksystem, vil alle de tre kildene i modellen være aktuelle. Det ideelle er kanskje å konfrontere informanters 18

reaksjoner med egne intuitive introspeksjonsdata. Denne konfrontasjonen er svært problematisk, nettopp fordi det ideelle er naive språkbrukere som skal anvendes. Det fins ingen enkel metode for å foreta en slik konfrontasjon, fordi man vanskelig kan diskutere informantenes reaksjoner med informantene selv. Dette krever en ferdighet som innebærer å kunne bruke språket på et metanivå. Hva skal vi da gjøre? Skal vi trene opp informanten, slik enkelte har foreslått? Dette står i så fall i sterk kontrast til det som er idealet: den naive språkbrukerens intuisjon. Dessuten: Hvis vi trener opp informantene, hvilke data får vi da frem? Risikerer vil å få ugyldige data? Hvem er de beste informantene i ditt prosjekt? Dette lar seg ikke besvare på noen enkel måte. Vi risikerer i alle fall å få en annen type data enn det vi er ute etter. Hvis vi leter etter egenskaper ved grammatiske setninger, opererer vi på et mer abstrakt plan enn ytringsplanet. Mennesker har en evne til å kunne bedømme avkontekstualiserte ytringers grammatiske status, men det er ikke enkelt for en utrent informant. Hvis vi er interessert i ytringer i visse typer kontekst virker det hele mer overkommelig, men da må vi ta stilling til hva kontekst er. Dette er et begrep som i mange tekstlingvistiske sammenhenger betraktes som et logisk primitiv, dvs som et fenomen som det er utstrakt enighet om fortolkningen av. Kontekstbegrepet er dessverre ikke noe logisk primitiv, og er et av de vanskeligste begrepene innen lingvistikken. Det fins ingen objektiv typologi for kontekster. Hvor slutter én kontekst og hvor begynner en annen? Det samme problemet har man om man opererer med begrepet situasjon som et logisk primitiv. Man tror at kontekster er noe som er gitt i data, men det er ikke tilfelle. Kontekst er ikke gitt, kontekst skapes. Deidre Wilsons relevansteori (Sperber et al 1986) påpeker at kontekster ikke er statiske, gitte størrelser. De skapes av forfatter og leser i fellesskap. Når vi leser er vi ikke passive observasjonsmottakere, som positivistene mente, men aktive fortolkere. Vårt mål er å oppnå forståelse. Hvis vi ikke forstår prøver vi å presse frem koherens ved å aktivere inferenser ved lesning. Vi prøver å sette oss i avsenderens sted for å søke å få tak i avsenderens intensjoner. Kontekst skapes i denne prosessen. Dette er et sentralt punkt i relevansteorien. Alle data er situert i kontekst. Det kommer vi ikke forbi. Tekster er i utgangspunktet kun en bestemt konstellasjon av bokstaver og ord satt sammen på en spesiell måte med tegnsetting og avsnitt etc. Dette er våre ufortolkede data. Mening er ikke manifest i korpusdata. Mening fortolkes inn i teksten sammen med kontekstetablering og vår verdenskunnskap. Det er klart at elementer av introspeksjon også er involvert i en slik prosess. Når det gjelder innhold må vi skille mellom eksplisitt, kodet innhold og implisitt innhold, dvs implikasjoner, eller implikaturer, som Searle kaller dem. Implikaturer må også 19

relateres til kontekstbegrepet. Konteksten er jo grovt sett den delen av meningen som varierer fra situasjon til situasjon. Noen implikaturer er kontektstuelle mens andre er uavhengige av kontekst, såkalte konvensjonelle implikaturer. Begrepet kontekst er også forbundet med begrepet subspråk (Thompson 1996). Det er vanlig å beskrive språk i allmennspråklig forstand som et system fullt av mangetydigheter og uklarheter. Mange av disse mangetydighetene disambigueres i kontekst på en rimelig måte. En viktig type subspråk er det vi kaller fagspråk, dvs faglig kommunikasjon vanligvis i en yrkesmessig og spesialisert sammenheng. Mange forskere hevder at denne type kommunikasjon er preget av entydighet, særlig på ordnivå i form av terminologi. En vesentlig grunn til at faglig kommunikasjon er mer entydig på ordnivå er ikke bare de preskriptive anbefalingene som unngå polysemi ved termdanning, men også det faktum at rammene for mange typer kontekster i større grad er fastlagte og i større grad identifiserbare enn rammene for kontekster i allmennspråket. Dessuten er ulike fagspråksvarianter mer spesialiserte enn i dagligspråket. Dette har selvsagt med intensjonsdybde å gjøre, men det er viktig å påpekte at jo mer man snevrer inn settet av mulige kontekster for kommunikasjon, desto mindre polysemi får man. Det synes klart at i juridiske tekster vil rett være en grunnterm og brukes på en mer systematisk måte enn i allmennspråket, og rett i kulinariske sammenhenger vil også være en term som brukes med større intensjondybde enn i allmennspråklige kommunikative situasjoner hvor dette ikke er potensielt tematisert. Derfor vil forutsigbarheten med hensyn til tolkningen av potensielt polyseme termer avhenge av hvilket subspråk man opererer innenfor. Det som er mangetydig i allmennspråket er ikke uten videre mangetydig innen et subspråk. Siden allmennspråket åpner opp for mye større deler av skalaen av mulige kontekster, vil polysemien nettopp blomstre der, fordi det ikke settes a priori kontekstuelle begrensinger på det. Når det gjelder litteratur om polysemi kan jeg anbefale James Pustejovskys arbeider, særlig hans monografi om det generative leksikon (1998), en form for leksikalsk semantikk som er godt tilrettelagt for datalingvistiske problemstillinger. 20