BIO 1000 LAB-ØVELSE 3

Like dokumenter
BIO 1000 LAB-ØVELSE 1

BIO 1000 LAB-ØVELSE 2. Populasjonsgenetikk 20. september 2005

Mer om Markov modeller

UNIVERSITETET I OSLO

UNIVERSITETET I OSLO Biologisk institutt. Grunnkurs i biologi BIO Informasjon til studentene

Første sett med obligatoriske oppgaver i STK1110 høsten 2015

2. Forklar med egne ord de viktigste forutsetningene for regresjonen og diskuter om forutsetningene er oppfylt i oppgave 1.

UNIVERSITETET I OSLO Biologisk institutt. Grunnkurs i biologi BIO Informasjon til studentene

Bilateria - dyrene med tosidig symmetri. De ekte dyr - Eumetazoa. Protostome dyr. Rekke Platyhelmintes -Flatormer

Det matematisk-naturvitenskapelige fakultet

Eksamensoppgave i TMA4240 Statistikk

PED228 1 Forskningsmetoder

Skoleeksamen i SOS Kvantitativ metode

TDT4102 Prosedyre og Objektorientert programmering Vår 2015

BIO 1000 LAB-ØVELSE 5

Fruktfluen er glad i moden frukt og fruktsaft, og finner ofte veien inn i hus og leiligheter på høsten. De fleste fruktfluer er gule eller lysebrune,

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

Beskrivende statistikk.

English Notice! Start your answer to every main question on a new page.

Tiden går og alt forandres, selv om vi stopper klokka. Stoffet i dette kapittelet vil være en utømmelig kilde med tanke på eksamensoppgaver.

Del 2 KRAVSPESIFIKASJON. Skytesimulator

Lynkurs i hvordan komme i gang med Studentweb3. Kathy Haugen 15. april 2015

Kundesamtale teste hypoteser

Datamatrisen: observasjoner, variabler og verdier. Variablers målenivå: Nominal Ordinal Intervall Forholdstall (ratio)

MAT1030 Forelesning 25

EKSAMEN I SOS1120 KVANTITATIV METODE 5. MAI 2004 (6 timer)

Forelesning 25. MAT1030 Diskret Matematikk. Litt repetisjon. Litt repetisjon. Forelesning 25: Trær. Dag Normann

UNIVERSITETET I OSLO

MAT1030 Diskret Matematikk

SKOLEEKSAMEN I SOS KVANTITATIV METODE. 27. februar 2017 (4 timer)

UNIVERSITETET I AGDER

Utstyr. Ferskvannshåv med maskevidde

SKOLEEKSAMEN 29. september 2006 (4 timer)

SPED4010/eksamen i statistikk: Fredag 30.september 2011 kl

Eksamensoppgave i TDT4120 Algoritmer og datastrukturer

LABØVELSER BIO 1000 H-2003 MENDELSK GENETIKK OG POPULASJONSGENETIKK. Tirsdag 2 sept og tirsd 9 sept

EKSAMEN I SOS4020 KVANTITATIV METODE (MASTER) 14. MAI 2004 (4 timer)

Forelesninger: Av 20 studentene som svarte på emne-evalueringen har 19 vært på alle eller noen

Tlf.: 2 i et kurs OPPGAVEARK BRUKTE

ESERO AKTIVITET DE ÅTTE PLANETENE. Lærerveiledning og elevaktivitet. Klassetrinn 5-6

E K S A M E N. Algoritmiske metoder I. EKSAMENSDATO: 11. desember HINDA / 00HINDB / 00HINEA ( 2DA / 2DB / 2EA ) TID:

OPPGAVEHEFTE I STK1000 TIL KAPITTEL Regneoppgaver til kapittel 7. X 1,i, X 2 = 1 n 2. D = X 1 X 2. På onsdagsforelesningen påstod jeg at da må

EKSAMEN. Emne: Statistikk og økonomi Eksamenstid: kl til kl (4 timer)

LABORATORIEØVELSER BIO 1000 H-2003 PROKARYOTER OG PROTISTER MIKROORGANISMER FINNES OVERALT PROTIST DIVERSITET EVOLUSJON AV DEN EUKARYOTE CELLE

UNIVERSITETET I OSLO

SKOLEEKSAMEN 8. januar 2008 (4 timer)

MA2501 Numeriske metoder

MA2501 Numeriske metoder

Læringsstiler. Hvordan lærer jeg best?

HØGSKOLEN I SØR-TRØNDELAG Avdeling for lærer- og tolkeutdanning

Sensorveiledning nasjonal deleksamen

SMARTcamp! Hvordan gjennomføre en SMARTcamp?

MAT1030 Diskret Matematikk

UNIVERSAL TENNIS RATING SPØRSMÅL OG SVAR

Forelesning 23. Grafteori. Dag Normann april Oppsummering. Oppsummering. Oppsummering. Digresjon: Firefarveproblemet

Problemløsning og utforsking i geometri

Hvem er hvem blant dinosaurene? Petter Bøckman

Dynamisk programmering

MAT1030 Diskret matematikk

PED519 1 Vitenskapsteori og forskningsmetoder

Oppsummering. MAT1030 Diskret matematikk. Oppsummering. Oppsummering. Forelesning 23: Grafteori

MAT-INF 2360: Obligatorisk oppgave 3

BLAST. Blast. Noen mulige sammenstilling av CHAEFAP og CAETP. Evolusjonær basis for sekvenssammenstilling. Sekvenssammenstilling og statistikken brukt

EKSAMEN ST0202 STATISTIKK FOR SAMFUNNSVITERE

TMA4100 Matematikk 1, høst 2013

Den komplette DNA sekvens fra en organisme.

Veien til å få bedre karakterer: 1. avgrense, 2. mestre og 3. bruke ferdigheter for å lære.

H 12 Eksamen PED 3008 Vitenskapsteori og forskningsmetode

SARĀÖSTLUND NILSSON ILLUSTRERT AV SAM KLEIN OG FORFATTEREN

EKSAMEN I FAG TMA4275 LEVETIDSANALYSE Lørdag 4. juni 2005 Tid: 09:00 13:00

Stroop Farge-ord test (Golden,1978/1998)

INF 2820 V2015: Obligatorisk innleveringsoppgave 3

Fakultet for lærerutdanning og internasjonale studier

MAT1030 Forelesning 25

Last ned Historien om oss - Torfinn Ørmen. Last ned

Evalueringsraport BIO101 Organismebiologi I vår 2014

MAT1030 Forelesning 24

UNIVERSITETET I OSLO ØKONOMISK INSTITUTT

Sekventkalkyle for utsagnslogikk

STK1000 Uke 36, Studentene forventes å lese Ch 1.4 ( ) i læreboka (MMC). Tetthetskurver. Eksempel: Drivstofforbruk hos 32 biler

Evalueringsrapport BIO101 vår 2016

Andre sett med obligatoriske oppgaver i STK1110 høsten 2010

TMA4240 Statistikk Eksamen desember 2015

TDT4102 Prosedyreog objektorientert programmering Vår 2016

EKSAMEN I SOSIOLOGI SOS KVANTITATIV METODE. ORDINÆR SKOLEEKSAMEN 4. april 2011 (4 timer)

Transkript:

Navn: Parti: Journalen leveres senest tirsdag 4. oktober 2005 i kassen utenfor labben. BIO 1000 LAB-ØVELSE 3 Fylogenetisk analyse 27. september 2005 Faglig ansvarlig: Hovedansvarlig for lab-øvelsen: Øystein Flagstad Øystein Flagstad Gruppe Gruppeansvarlig Hjelpelærer 1 Peder Haugen Nemanja Jevremovic 2 Øystein Flagstad Kjetill Voje 3 Øystein Flagstad Kjetill Voje 4 Pål Trosvik Beatriz Decenciere 5 Peder Haugen Nemanja Jevremovic 6 Pål Trosvik Beatriz Decenciere Kontakt-adresser Øystein Flagstad Peder Haugen Pål Trosvik Beatriz Decenciere Kjetill Voje Nemanja Jevremovic oflagsta@ulrik.uio.no p.m.haugen@bio.uio.no Pal.Trosvik@matforsk.no, paltr@student.matnat.uio.no beatriz.decenciere@bio.uio.no kjetillv@student.matnat.uio.no njevremovic@gmail.com NB! HUSK KALKULATOR 1

Bakgrunn Fylogenetisk analyse søker å rekonstruere den evolusjonære historien til en art eller en gruppe av arter. Selve analysen leder fram til et fylogenetisk tre som representerer en spesifikk hypotese om evolusjonshistorien til gruppen av arter som studeres. Vi skal i denne laboratorieøvelsen bruke både morfologiske og molekylære karakterer til å illustrere to sentrale fylogenetiske metoder: (1) Parsimoni, (2) Maximum Likelihood. Kort om metodene (1) Parsimoni (MP) søker å minimere det totale antall evolusjonære endringer i en fylogeni. Blant alle mulige fylogenetiske trær, vil treet med færrest evolusjonære endringer reflektere den korrekte hypotesen. Et fylogenetisk tre basert på denne metoden kalles for et kladogram. (2) I henhold til maximum likelihood (ML)-prinsippet finnes det et tre blant alle mulige fylogenetiske trær som reflekterer det mest sannsynlige scenariet av evolusjonære hendelser. For å finne dette mest sannsynlige scenariet må vi bruke en såkalt substitusjonsmatrise, der visse mutasjoner kan være mer sannsynlige enn andre. Mer detaljerte metodebeskrivelser er gitt i Appendix A og B. Her finner du beskrivelser av hvordan man manuelt kan konstruere fylogenetiske trær i henhold til de to metodene. Praktisk Alle partier får utdelt representanter for seks insektordener [Odonata (øyenstikkere), Hemiptera (teger), Diptera (fluer og mygg), Hymenoptera (veps etc), Coleoptera (biller) og Lepidoptera (sommerfugler)]. Edderkoppen (Araenae) skal brukes som utgruppe. Oppgave 1 Vi skal undersøke de åtte morfologiske karakterene som er gitt i tabellen på side 3. (a) Fullfør karaktermatrisen over primitive (opprinnelige) og avledete karakterer (se Fig 25.11 i boka). Anta at utgruppen alltid har den opprinnelige karakteren (b) Bruk metoden som er beskrevet i Appendix A for å lage et kladogram. (c) Hvor mange monofyletiske grupper finner du totalt i treet (se Fig 25.10 i boka), og hvilke karakterer skiller hovedgruppene blant insektene? (d) Kladogrammet dere kom fram til inneholder en såkalt polytomi, dvs at det ikke er fullstendig løst opp. Er polytomier alltid et unønsket resultat av for lite informasjon? Hvis ikke, hva kan slike ufullstendig oppløste trær indikere? Diskuter hvordan denne formen for evolusjon kan oppstå (hint: tenk på det dere lærte i kapittel 24). 2

Oppgave 2 Kladogrammet i oppgave 1 representerer flere ulike trær siden innbyrdes slektskap mellom alle taxa i polytomien kan permuteres på flere ulike måter. I denne oppgaven skal vi bruke den molekylære datamatrisen gitt nedenfor for å teste to av hypotesene som er representert i kladogrammet. Karakternummer 000000000111111111 123456789012345678 Araneae ACTCAACTTGAGAAATTG Odonata CCCGGACTTACCAGGCTA Hemiptera CCCAGAATTAACCAGCGA Coleoptera CTAATTATTACCGTCAAC Hymenoptera CCAAGTAAGACCCACATC Lepidoptera CCAATTATCACCGGCACT Diptera CCAAATACCACCGTCAAC (a) Permuter polytomien på ulike måter, og velg ut to fullstendig oppløste trær som du synes virker som sannsynlige hypoteser for innsektfylogenien. Tegn inn de evolusjonære hendelsene (mutasjonene) på begge trærne. (b) Avgjør hvilken av de to hypotesene som er mest sannsynlig ved å bruke MLprinsippet (Appendix B). Baser utregningene dine på substitusjonsmatrisen nedenfor. Substitusjonsmatrise til bruk i ML-analysen fra / til A C G T A 0,8 0,1 C 0,8 0,1 G 0,1 0,8 T 0,1 0,8 3

Oppgave 1 (a) Karaktermatrisen Karakter Araneae Odonata Hemiptera Hymenoptera Lepidoptera Diptera Coleoptera 1) Tre beinpar 2) Fasettøyne 3) 0 0 0 1 1 1 1 Larve 4) 0 0 0 1 1 1 1 Puppe 5) Vinger 6) Dekkvinger 7) Andre vingepar tilbakedannet 8) Skjellkledte vinger (b) Matrise over ant. felles avledete karakterer (kun inngruppe-taxa; se Appendix A) Kladogram med de evolusjonære endringene inntegnet 4

(c) Monofyletiske grupper (se Fig 25.10 i boka) (d) Polytomier 5

Oppgave 2 (a) Tegn to av trærne som er representert i kladogrammet fra oppgave 1. Hvis du har noen formening, velg gjerne de to trærne som du mener best reflekterer innsektfylogenien. Kartlegg alle evolusjonære hendelser på trærne. (b) ML-estimat av dine to hypoteser. Du behøver ikke vise alle utregningene i detalj. Eksemplifiser imidlertid prosedyren gjennom å vise evolusjonære scenarier [trær og transisjons-sannsynligheter (p cd )] for én karakter fra hver hypotese. For begge hypotesene skal du også vise det endelige produktet av sannsynligheter for alle karakterer, samt de totale ML-estimatene. Sett hypotesene opp mot hverandre ved å vurdere størrelsesforholdet mellom de to estimatene. 6

Appendix A - Parsimoni Parsimoni (MP) er en såkalt søkemetode, der et optimalitetskriterium ligger til grunn for å finne det beste treet blant alle mulige fylogenetiske trær. Optimalitetskriteriet i denne sammenhengen søker å minimere det totale antall evolusjonære endringer i en fylogeni. Blant alle mulige fylogenetiske trær, vil treet med færrest evolusjonære endringer reflektere den korrekte hypotesen. Et fylogenetisk tre basert på denne metoden kalles for et kladogram. Manuell utarbeidelse av et kladogram Utarbeidelsen av kladogrammet baserer seg på felles avledete trekk fra en utgruppe, i vårt tilfelle felles avledete trekk fra edderkoppen. Et felles avledet trekk er et karaktertrekk som deles av minst to taxa i inngruppen og som samtidig skiller seg fra utgruppen. I datasettet nedenfor er alle felles avledete trekk uthevet. For karakter 9 ser vi at taxon 1 og 2 deler en variant av et avledet trekk, mens taxon 3 og 4 deler en annen variant. Utgruppe GAGCTATTGA Taxon1 GAACTAATAA Taxon2 GAACCAATAA Taxon3 CAACCAATCG Taxon4 CAACCGATCA 1) Begynn med å konstruere en matrise over felles avledete trekk for alle par av taxa i datasettet deres. For datasettet ovenfor, vil denne matrisen se slik ut. Taxon2 Taxon3 Taxon4 Taxon1 3 2 2 Taxon2 3 2 Taxon3 5 2) Finn det taxon-paret som deler flest avledete karakterer; i eksempelet vårt er dette Taxon 3 og 4. Bind disse sammen i form av to grener på et tre (Fig A). Dersom mer enn to taxa deler det maksimale antall avledete karakterer, knytt sammen alle disse taxa i en såkalt polytomi (Fig B). Taxon3 Taxon4 X Y Z Fig A Fig B 7

3) De såkalte terminale taxa (Taxon 3 og 4 ovenfor) har en felles forfar, symbolisert med sirkelen. Denne felles forfaren har også de samme fem felles avledete trekk. Forfaren har imidlertid ikke avledete trekk som Taxon 3 og 4 har alene (f.eks. karakter 6 for Taxon4 og karakter 10 Taxon3). Konstruer et nytt taxon (Taxon A nedenfor) som representerer denne felles forfaren. Lag en ny karaktermatrise der de første taxa som ble gruppert erstattes av deres felles forfar. Utgruppe GAGCTATTGA Taxon 1 GAACTAATAA Taxon 2 GAACCAATAA Taxon A CAACCAATCA 4) Fortsett prosedyren beskrevet under punkt 2 og 3 til alle taxa har fått sin plass i fylogenien. Utgruppe Taxon1 Taxon2 Taxon3 Taxon4 5) Sett på de evolusjonære endringene i treet, og indiker hvilke karakterer som endrer seg på de ulike plassene i treet. Utgruppe Taxon1 Taxon2 Taxon3 Taxon4. 10 6 1 9 5 3 7 9 8

Appendix B - Maximum Likelihood (ML) Maximum Likelihood (ML) er i likhet med parsimoni en søkemetode, der et optimalitetskriterium ligger til grunn for å finne det beste treet blant alle mulige fylogenetiske trær. Optimalitetskriteriet for denne metoden søker å finne det treet som reflekterer det mest sannsynlige scenariet av evolusjonære hendelser. Et ML-estimat av en fylogeni forutsetter tre elementer: (1) En modell som reflekterer sekvens-evolusjon (altså selve mutasjonsprosessen). Denne modellen kan representeres i en såkalt substitusjonsmatrise (se nedenfor). (2) Et fylogenetisk tre (hypotesen) (3) Et datasett For å forstå ML-prinsippet, bør vi se for oss evolusjonshistorien som en tilfeldig prosess der, (1) Inngruppens felles forfar har karakteren c med sannsynlighet p c (2) Alle evolusjonære endringer er uavhengige av hverandre. Karakter c endres til d med sannsynlighet p cd i henhold til substitusjonsmatrisen. Vi kan kalle p cd for transisjons-sannsynligheten. (3) Hver karakter evolverer uavhengig av hverandre Gitt hypotesen (det fylogenetiske treet), kan vi således tegne inn et evolusjonært scenario for hver karakter i datamatrisen, som eksemplifisert for én karakter nedenfor. Utgruppe Taxon A Taxon B Taxon C A C A G p cd = 0,1 p cd = 0,8 felles forfar for inngruppen p cd = A G p cd = 0,1 A p c = 0,8 Substitusjonsmatrise fra / til A A 0,8 C G 0,1 T C 0,8 0,1 G 0,1 0,8 T 0,1 0,8 Gitt det fylogenetiske treet (hypotesen), er altså sannsynligheten for at Taxon A, B og C skal ha henholdsvis C, A og G for denne karakteren 0,8 x x 0,1 x 0,1 x 0,8 = 0,00032 eller 3,2 x 10-4 9

Vi kan så fortsette å tegne evolusjonære scenarier for hver av karakterene i datamatrisen vår, og regne ut en sannsynlighet for hvert av disse scenariene. Siden vi forutsetter at alle karakterer evolverer uavhengig av hverandre, kan vi til slutt bruke produktregelsen, og multiplisere alle sannsynlighetene med hverandre. Sluttproduktet blir det endelige MLestimatet av den spesifikke hypotesen vi har lagt fram for den aktuelle fylogenien. Maximum likelihood er regneteknisk uhyre krevende siden metoden i prinsippet skal søke seg gjennom alle mulige trær, og generere et ML-estimat for hvert av disse trærne. I en fylogeni som inneholder 50 taxa, finnes det for eksempel 3 x 10 78 mulige trær. Det sier seg selv at en slik formidabel oppgave blir tung selv for en uhyre kraftig datamaskin. Men dersom formålet er å sette et begrenset antall hypoteser opp mot hverandre, blir oppgaven langt mer overkommelig. I sammenligningen av to eller flere hypoteser, kan det være hensiktmessig å vurdere MLestimatene i størrelsesordener på 10. Man kan således stille seg spørsmålet om en bestemt hypotese er tilnærmet like sannsynlig som en alternativ hypotese, om den er ca 10 ganger mer sannsynlig, 100 ganger, 1000 ganger eller enda mer sannsynlig i forhold til den alternative hypotesen. Dette, kjære studenter, blir en av mange spennende oppgaver i denne krevende, men forhåpentligvis lærerike laboratorieøvelsen. Lykke til... 10