Kunstig intelligens (IT-2702) - høst 2006. Forelesning 10 Emner: Tolking av naturlig språk - Kontekst-frie gramatikker Maskinlæring symbolorientert - Induktiv symbol-prosessering - Læring i versjonsrom Subsymbolske metoder (1) - Nevrale nett - Perceptron
Fig 14.1 A blocks world, adapted from Winograd (1972). Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 2
To manage this complexity, linguists have defined different levels of analysis for natural language: Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 3
Tolkning av naturlig språk (NL) Fonologi Morfologi Syntaks Semantikk Pragmatikk studie av lydene (fonemene) som bygger ord studie av komponentene (morfemene) som bygger opp ord studie av kombinasjon av ord i gramatikalsk lovlige setninger studie av ords og setningers mening studie av språks bruk og effekter i praksis
Trinn i (datamaskin-basert) språktolkning Setningstruktur analyse (parsing) - syntaktisk struktur, genererer et parse-tree Semantisk tolkning - ords og kombinerte ords mening, representert i en eller annen KR-formalisme Kontekstuell tolkning - utvidet semantisk tolkning, resonnering ved bruk av en kunnskapsbase av verdens/domene-kunnskap
Basis-begreper Gramatikk-regler S = NP VP NP = N NP = A N N = man N = dog A = a A = the Ikke-terminaler er lingvistiske termer (setning, verb, ) - f. eks. 3 øverste linjer over Terminaler er ord i språket - f. eks. 4 nederste linjer over
Fig 14.3 Parse tree for the sentence The man bites the dog. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 5
Fig 14.2 Stages in producing an internal representation of a sentence. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 4
Chomsky-hierarkiet Rekursivt tellbare språk - frie produksjons-regler Kontekst-sensitive språk - flere ikke-terminaler på venstre side (men færre enn på høyre siden) av gram.regel Kontekst-frie språk - transisjonsnett, sammenkoblede tilstandsmaskiner, kun én ikke-terminal på venstresiden av gram.regel Regulære språk - en enkelt tilstandsmaskin, ikke flere sammenkoblet
Maskinlæring Hva er læring? Any process by which a system improves performance (H. Simon) Making useful changes in our minds (M. Minsky) The organisation of experience (M. Scott) Constructing or modifying representations of what is being experienced (R. Michalski)
Hva er maskinlæring? Metoder og teknikker som gjør datasystemer i stand til selv å oppdatere sin kunnskap og problemløsnings-evne
Hvorfor maskinlæring? Modellere menneskers læring Studere læring og intelligens som fenomen Automatisere utvikling av kunnskapsbaserte systemer det siste er mest vektlagt i dette kurset
Maskinlæring - kort historikk 1950 1960 1970 1980 1990 2000 Nevrale modeller, Rosenblatt s PERCEPTRON, Selvorganiserende systemer, Adaptive systemer, Læring som mønstergjenkjenning, Parameterjustering Samuel s Checkers Player Kunnskapsbaserte metoder, Winston s Analogy system, Symbolske teknikker for eksempelbasert læring, Michalski s AQ system, Mitchell s Version Space metode, Quinland s ID3 system, Discovery systemer, Langley s BACON, Lenat s AM. Kunnskapsrike metoder, Buchanan s Meta-Dendral, læring ved instruksjon, Davis Teresias, Ny giv for nevrale modeller, Forklaringsbasert læring (EBL), læring under problemløsning, case-basert læring, integrerte læremetoder Kunstig liv, Statistiske metoder, Data mining, Induktiv logikk-programmering, Genetiske algoritmer, Reinforcement læring, Bayesianske nett Integrerte læringsmetoder, læring under problemløsing
Maskinlæringmetoder kan klassifiseres utifra flere perspektiver Grad av selvlæring - pugging (rote learning) - instruksjon - læring ved eksempler - læring ved analogi - læring ved oppdagelse Læringsmål -begrepslæring - problemløsning - situasjonsforståelse - produsere forklaringer Representasjonsspråk - attributt-verdi vektor - beslutningstrær -regler - predikatlogiske uttrykk - semantiske nett, rammer Grad av bakgrunnskunnskap - kunnskapsfattige metoder - kunnskapsrike metoder Grad av lærerstyring - veiledet læring - ikke-veiledet læring Grad av inkrementalitet - alle eksempler samtidig - inkrementell læring - læring gjennom problemløsing - lærlingteknikker
Fig 10.1 A general model of the learning process Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 2
Fig 10.2 Examples and near misses for the concept arch. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 3
Fig 10.3 generalization of descriptions to include multiple examples. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 4
Fig 10.3 generalization of descriptions to include multiple examples (cont d) Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 5
Fig 10.4 Specialization of a description to exclude a near miss. In 10.4c we add constraints to 10.4a so that it can t match with 10.4b. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 6
Eksempelbasert læring instansrommet: begrepsrommet: Generaliseringsbasert læring: - + + - + + - - - - - + + + -- -- eksempler - + + + + - - - + + + - +++++ - - - - - + ----- + + -- + + - + + hypoteser kandidater begrep Instansbasert læring: - + + - + + - - - - - + + + -- -- eksempler - + + + + - - - + + + - +++++ - - - - - + ----- + + -- + + - + + - + - + - - + + - eksempler - + - + - + + - - + - - + - - + - +
Generalisert-basert læring Generality Lattice - Example (??) (? circle) (red?) (blue?) (? square) (red circle) (blue circle) (red square) (blue square)
Example, basic method: Version Space The version space is the set of all generalizations which are consistent with all of the examples It is described by the S and G sets: S is a generalization which is consistent with the examples and no other consistent generalization is more specific than it G is a generalization which is consistent with the examples and no other consistent generalization is more general than it
Version Space G more general consistent generalizations S more specific + examples move S up - examples move G down
Fig 10.5 A concept space. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 7
Defining specific to general search, for hypothesis set S as: Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 8
In this algorithm, negative instances lead to the specialization of candidate concepts; the algorithm uses positive instances to eliminate overly specialized concepts. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 9
Fig 10.6 The role of negative examples in preventing overgeneralization. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 10
Fig 10.7 Specific to gerneral search of the version space learning the concept ball. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 11
The algorithm specializes G and generalizes S until they converge on the target concept. The algorithm is defined: Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 12
Fig 10.8 General to specific search of the version space learning the concept ball. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 13
Fig 10.9 The candidate elimination algorithm learning the concept red ball. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 14
Fig 10.10 Converging boundaries of the G and S sets in the candidate elimination algorithm. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 15
Kandidateliminerings-algoritmen (Versjonsrom-algoritmen) S summerer info fra de positive exempler G summerer info fra de negative exempler Når S=G er begrepet lært - dvs. flere eksempler tilfører ikke noe nytt Ikke nødvendig å ta vare på enkelteksemplene
Kandidateliminerings-algoritmen (Versjonsrom-algoritmen) er en prinsipielt sterk læringsalgoritme - garanterer konsistens - er inkrementell men har store begrensninger i representasjonens uttrykkskraft - dvs. i hva som kan læres - kun konjunktive uttrykk - over-ivrig generalisering (mister muligheter)
? (version-space example1) Example: (+ (BIG RED CIRCLE)) S= ((BIG RED CIRCLE)) G= ((???)) Example: (- (SMALL RED SQUARE)) S= ((BIG RED CIRCLE)) G= ((?? CIRCLE) (BIG??)) Example: (+ (SMALL RED CIRCLE)) S= ((? RED CIRCLE)) G= ((?? CIRCLE)) Example: (- (BIG BLUE CIRCLE)) S= ((? RED CIRCLE)) G= ((? RED CIRCLE)) Convergence. Concept must be: (? RED CIRCLE)
? (version-space example2) Example: (+ (BIG RED CIRCLE)) S= ((BIG RED CIRCLE)) G= ((???)) Example: (- (SMALL BLUE TRIANGLE)) S= ((BIG RED CIRCLE)) G= ((?? CIRCLE) (? RED?) (BIG??)) Example: (+ (SMALL RED CIRCLE)) S= ((? RED CIRCLE)) G= ((?? CIRCLE) (? RED?)) Example: (- (MEDIUM GREEN SQUARE)) S= ((? RED CIRCLE)) G= ((?? CIRCLE) (? RED?)) Did not converge S= ((? RED CIRCLE)) G= ((?? CIRCLE) (? RED?))
? (version-space example5) Example: (+ (BIG RED CIRCLE)) S= ((BIG RED CIRCLE)) G= ((???)) Example: (- (BIG BLUE CIRCLE)) S= ((BIG RED CIRCLE)) G= ((? RED?)) Example: (+ (SMALL BLUE SQUARE)) S= NIL G= NIL Langauage is insufficient to describe the concept
Emne: Biologisk-baserte modeller (subsymbolske metoder) Nevrale nett - Biologisk basis - Perceptron
(Fra første forelesning) INFORMATIKK STUDIE AV INTELLIGENTESYSTEMER RELATERT TIL KOMPUTASJONELLE PROSESSER er delfelt av REALISEREDATASYSTEMERSOM KAN SIES Å OPPVISE INTELLIGENT ADFERD - DVS. ' SMARTERE' SYSTEMER har vitenskapelig perspektiv er koblet via empirisk vitenskapelig metode KUNSTIG INTELLIGENS (AI) har teknologisk perspektiv MATEMATIKK bygger bl.a. på har har metoder FILOSOFI KOGNITIV PSYKOLOGI BIOLOGI KUNNSKAPSBASERTE SUBSYMBOLSKEMETODER ADFERDSORIENTERTEMETODER METODER
SUBSYMBOLSKE METODER NEVRALE NETT Distribuert representasjon i et nettverk av noder koblet sammen via lenker (konneksjonisme). Ingen eksplisitt, direkte representasjon av begreper og sammenhenger. GENETISKE ALGORITMER Representasjon i form av bit-strenger som maniplueres vha. genetiske operatorer. Bit-strengene kan representere begreper, men ikke nødvendigvis.
Kunstige Nevrale nett (ANN) Alternativt AI-paradigme til kunnskapsbaserte systemer Distribuert - ikke-eksplisitt - representasjon er det mest typiske, men NN trenger ikke være det (lokalistiske nettverk) Kunnskapsrepresentasjons-hypotesen og fysisk-symbol-system hypotesen gjelder ikke for rene NN systemer Relaterte begreper: - Konneksjonsisme - Parallell distribuert prosessering (PDP)
Biologisk bakgrunn (løs): Et nettverk av nerveceller Cell body
NEVRALE NETT - struktur og læringsprinsipp Et nettverk av noder delvis koblet i sammen via lenker. Lenkene som går inn til en node kan medføre at noden aktiveres, som igjen medfører at lenken ut fra noden gis en verdi. En node i nettet: o f x1 w1 w2 w3 w4 Aktiveringsverdien for en node (o) bestemmes av en aktiveringsfunksjon (f) der styrken på inn-lenkene (x..) samt av vektingen av hver av dem (w..) er input-parametre. Nevrale nett trenes opp ved at inndata gis inn, utdata registreres og avvikende resultatet tilbakeføres til nettet slik at vektene på lenkene blir justert i riktig retning x2 x3 x4
Fig 11.1 An artificial neuron, input vector x i, weights on each input line, and a thresholding function f that determines the neuron s output value. Compare with the actual neuron in fig 1.2 Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 2
Fig 11.2 McCulloch-Pitts neurons to calculate the logic functions and and or. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 3
Perceptron - enkelt-lags nett - binære input- og aktiverings-verider (-1 +1) - vekter er reelle tall - aktiveringsfunksjonen er er en trappe-terskelfunksjon - lærings-regel for å oppdatere vektene: w i = w i + c(d - o)x i w i = w i + c(d - sign(sum i x i w i ))x i - konvergerer hviss input-verdiene danner lineært separerbare klasser
Table 11.1 The McCulloch-Pitts model for logical and. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 4
Table 11.2 The truth table for exclusive-or. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 5
Fig 11.3 The exclusive-or problem. No straight line in two-dimensions can separate the (0, 1) and (1, 0) data points from (0, 0) and (1, 1). Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 6
Fig 11.4 A full classification system. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 7
Table 11.3 A data set for perceptron classification. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 8
Fig 11.5 A two-dimensional plot of the data oints in Table 11.3. The perceptron of Section 11.2.1 provides a linear separation of the data sets. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 9
Fig 11.6 The perceptron net for the example data of Table 11.3. The thresholding function is linear and bipolar (see fig 11.7a) Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 10
Fig 11.7 Thresholding functions. Luger: Artificial Intelligence, 5 th edition. Pearson Education Limited, 2005 11