Dette er vår andre obligatoriske oppgave i kurset Moderne Databaseteknologi.

Like dokumenter

Mange definisjoner. Hva er datagruvedrift (data mining)?

Policy vedrørende informasjonskapsler og annen tilsvarende teknologi

SERO - Brukervennlighet i fokus

Visma SuperOffice. Effektiviserer bedriftens salg og kundedialog

Visma Rapportering og Analyse Selvbetjente rapporter som dekker behovene til hele bedriften

Hvis kurset du trenger ikke finnes i oversikten under, ta kontakt med oss. Vi tilrettelegger gjerne kurs etter behov.

The Battery Replacement Programme

Slik skaper du Personas og fanger målgruppen. White paper

Visma.net. Redefining business solutions

Guide. Valg av regnskapsprogram

Presentasjon 1, Requirement engineering process

SUSOFT RETAIL FOR MOTEBUTIKKER

Kursoversikt Kurskalender halvår. Kurskalender halvår

Om 8 minutter kommer du til å smile som disse gjør! De neste 8 minuttene vil forandre ditt liv!

Vil du at jeg personlig skal hjelpe deg få en listemaskin på lufta, som får kundene til å komme i horder?

8 myter om datasikkerhet. du kan pensjonere i

Bruk av data kan deles i data for transaksjonsbruk og data for analyse bruk:

Nordens ledende vikarsystem.

Avdekke virksomhetens kunnskap, velge systemet fornuftig og unngå marerittene. ERP ABBATE UK LIMITED 1

Modellering og prediksjon av kundeavgang

FÅ KONTROLL PÅ DE USTRUKTURERTE DATAENE

HVORDAN KAN MÅLINGER BIDRA TIL FORBEDRING? ved Maria Fornes

INF1300 Introduksjon til databaser

AUTOMATISK HENDELSESANALYSE. Av Henrik Kirkeby SINTEF Energi AS

Emballasje er en samlebetegnelse på innpakningsmateriale du kan bruke til å pakke produktet ditt i.

INTELLIGENT SERVICE FOR EN ENKLERE HVERDAG KONE 24/7 CONNECTED SERVICES

Characteristics of a good design

Minnebasert mønstergjenkjenningssystem

En bedre måte å håndtere prosjekt, team, oppgaver og innhold

Steg for steg. Sånn tar du backup av Macen din

Oppsummering. Thomas Lohne Aanes Thomas Amble

Optimalisering av bedriftens kundeportefølje

2015 GLOBAL THREAT INTELLIGENCE REPORT SAMMENDRAG

Litt kontekst Topic maps er en måte å organisere informasjon på en ISO standard (ISO/IEC 13250:2000) en XML applikasjon et lag oppå XML (gjerne også o

Skriveradministrasjonsløsninger Skriveradministrasjonsløsninger

Velkommen til minikurs om selvfølelse

Ville du kjøpt en TV som viste kun en kanal?

IT Service Management

Planning & Forecasting. retning / ansvar / verdi

SPSS Statistics-kurs 2014

Steg for steg. Sånn tar du backup av Macen din

Humanware. Trekker Breeze versjon

Kartlegging av innovasjonstyper

Håndbok i kjøp av oversettingstjenester

Forbedret kundeopplevelse og reduserte driftskostnader ved bruk av maskinlæring i nettskyen. Heidi Brunborg IT-direktør i Lånekassen

SolidPlant er perfekt for deg som jobber med design av rørsystemer og anlegg, og er kjent med SolidWorks.

Produkt-/markedsmatrise

Oslo Uddeholm Stockholm

Hvordan bedømmer Gartner de lange linjene?

Salg! Salg av større prosjekter med lang tidshorisont og prosjektbasert leveranse - Leveranseprosjektet

GJENNOMGANG UKESOPPGAVER 9 TESTING

Business Intelligence og Datavarehus

Digifrokost: Digital modenhet

Intelligent digitalisering av dialogen: hvordan komme i gang?

Modellering og simulering av pasientforløp

Kommisjon & Avgift Versjon mars 07- Side 1 av 7

Velkommen, spendanalyse! Rapport

En robust BI-løsning; hva må til?

Hva legges i begrepet Big Data Hvilke muligheter eller betydning vil dette ha for den enkelte virksomhet Bruksområder Oppsummering. Arild S.

Bolig i både gode og gode dager. Forsikring mot doble bokostnader Hele 10 års reklamasjonsfrist Dette er Trygg Handel fra Skanska Bolig

GETINGE ONLINE FÅ TILGANG TIL INFORMASJON UANSETT HVOR DU ER. Always with you

Kompleksitetsanalyse Helge Hafting Opphavsrett: Forfatter og Stiftelsen TISIP Lærestoffet er utviklet for faget LO117D Algoritmiske metoder

Hjelp til oppfinnere. 01 Beskyttelse av dine ideer 02 Patenthistorie 03 Før du søker et patent 04 Er det oppfinnsomt?

ETABLERER- BANKEN I TANA

2.3 Valg av marked og kunde

IBM3 Hva annet kan Watson?

Markedets mest intelligente sikring av nødstrøm

En internett basert og fleksibel database som kan tilpasses til ethvert behov, og som vil vokse med bedriften/institusjonen.

webcrm banet vei for etablering av virksomhet og vekst for ny smykkedesigner

Men som i så mye annet er det opp til deg hva du får ut. av det! Agenda

KRAFTIG, SKALERBAR SÅRBARHETSADMINI- STRASJON. F-Secure Radar

Snake Expert Scratch PDF

TENK SOM EN MILLIONÆ ÆR

Enalyzer Norge. Nice to know - ESS

Romlig datamanipulering

E-postmarkedsføring ADVANCED

Fullstendig ytelsesbehandling

Så hva er affiliate markedsføring?

Datasikkerhetserklæring Kelly Services AS

Kort om evaluering og testing av It-systemer. Hvordan vurdere, verdsette, velge og teste?

Forskningsmetoder i informatikk

Algoritmer - definisjon

Skifte av fokus: ikke lenger forhold internt i bedriften, men mellom konkurrerende bedrifter. Konkurranse mellom to (eller flere) bedrifter:

White Paper Plantasjen

Hva, Hvorfor og litt om Hvordan

Canon Essential Business Builder Program. Samler alt du trenger for å oppnå forretningssuksess

FITS Tilgjengelighets- og kapasitetsstyring

Brukerdokumentasjon for registrering og rapportering beredskapsutstyr hos Post og Teletilsynet

Faktura. Hemmeligheten ligger i flyten. Best i test for fjerde år på rad

Jørgen Ask Familie Kiropraktor. Velkommen Til Oss

Referat fra Temakveld om lobbyvirksomhet Innleder: Håvard B. øvregård, leiar for Noregs Mållag

Intelle har siden starten i i leverandør av av programvare for data- og og systemintegrasjon.

år i alder x i tid y i i=1 (x i x) 2 = 60, 9

Introduksjon til evaluering av It-systemer. Hvordan vurdere og verdsette?

Fakultet for informasjonsteknologi, Oppgave 1 Flervalgsspørsmål ( multiple choice ) 15 %

Svarskjema for kurset 'Databaser' - evalueringsrunde 2 - Antall svar på eval: 13

Algoritmeanalyse. (og litt om datastrukturer)

Datastrukturer. Kevin Thon. 25 april 2017

Transkript:

Innledning Dette er vår andre obligatoriske oppgave i kurset Moderne Databaseteknologi. Vi har valgt oppgave 5, Data Mining. I denne oppgaven skal vi utarbeide en rapport der vi gir en bred fremstilling av hva Data Mining er, hvilke metoder som finnes og hvilke fordeler og eventuelle usikkerheter som gjelder for de forskjellige teknikkene. Vi starter denne rapporten med å gi en kort historikk. Deretter forklarer vi kort begrepet Data Mining og kommer med noen eksempler på bruksområder. Vi tar så for oss de fire basisoperasjonene som er knyttet til Data Mining. Disse beskrives kort og vi beskriver noen av teknikkene som er knyttet til hver operasjon. Etter dette viser vi noen eksempler på Data Miningsverktøy og kommer med noen eksempler på praktisk bruk av Data Mining. Så ser vi litt på relasjonen mellom Data Mining vs Data Warehouse og OnLine Analytical Processing (OLAP) før vi avslutter rapporten med en kort konklusjon. Moderne Databaseteknologi, Høgskolen i Østfold 2003 1

Innholdsfortegnelse 1.0 Historikk... 3 2.0 Hva er Data Mining?... 5 2.1 Motivasjonen for å bruke Data Mining... 6 2.2 Noen eksempler der Data Mining kan brukes... 7 3.0 Problemer med Data Mining... 8 4.0 Fordeler med Data Mining... 9 5.0 Data Miningsoperasjoner og teknikker... 10 5.1 Predictive Modeling (Forutsigende Modelering)... 10 5.1.1 Classification (Klassifisering)... 10 5.1.2 Value predicition (Verdi Forutsigelse)... 12 5.1.3 Eksempler på hvor man bruker Predictive Modeling... 12 5.1.4 Fordeler med Predictive Modeling... 12 5.1.5 Ulemper med Predictive Modeling... 12 5.2 Database Segmentation (Database Segmentasjon)... 13 5.2.1 Problemer med Database Segmentation... 13 5.2.2 Eksempler på bruk av Database Segmentation... 14 5.2.3 Ulemper med Database Segmentation... 15 5.2.4 Fordeler med Database Segmentation... 15 5.3 Link Analysis (Link Analyse)... 16 5.3.1 Associations Discovery (oppdage forbindelser)... 16 5.3.2 Sequential Pattern Discovery (oppdage sekvensielle mønster)... 17 5.3.3 Similar Time Sequence Discovery (oppdage liknende tidssekvenser)... 18 5.3.4 Eksempler på hvor man bruker Link Analysis... 19 5.3.5 Ulemper med Link Analysis... 19 5.3.6 Fordeler med Link Analysis... 19 5.4 Deviation Detection (Avviksoppdagelse)... 20 5.4.1 Statistics (Statistikk)... 20 5.4.2 Visualisation (Visualisering)... 20 5.4.3 Linear Regression (Lineær regresjon)... 20 5.4.4 Eksempler hvor man bruker teknikken Deviation Detection... 21 5.4.5 Fordeler ved Deviation Detection... 21 6.0 Data Miningsverktøy... 22 6.1 Kommersielle Data Miningsverktøy... 22 6.1.1 See5/C5.0... 22 6.1.2 Cubist... 22 6.1.3 Magnum Opus... 23 6.1.4 GritBot... 23 6.1.5 ODBCHook... 24 6.1.6 KnowledgeSEEKER... 24 6.1.7 Holos 7.0... 24 6.1.8 Intelligent Miner... 24 6.1.9 4Thought... 24 6.1.10 Pattern Recognition Workbench... 24 7.1 KnowledgeSEEKER... 25 7.2 Holos 7.0... 25 7.3 Intelligent Miner... 25 7.4 4Thought... 25 7.5 Pattern Recognition Workbench... 25 8.0 Data Mining vs. Data Warehouse... 26 8.1 Relasjonen mellom Data Warehouse og Data Mining... 26 9.0 Data Mining vs. OLAP... 27 10.0 Konklusjon... 28 11.0 Ordliste... 29 12.0 Kilder... 31 Moderne Databaseteknologi, Høgskolen i Østfold 2003 2

1.0 Historikk I de siste to tiår har det vært en dramatisk økning i informasjon eller data som lagres elektronisk. Det har blitt estimert at mengden med informasjon i verden dobles hver 20. måned, og at størrelsen på og antallet databaser vokser enda mer [11]. Figur 1. Økning av datamengden. Det å få lagret store mengder data ble lettere og billigere etter hvert som lagringskapasitet og maskiner ble raskere og billigere. Problemet man etter hvert måtte finne en løsning på, var hva skulle man gjøre med denne store mengden data? Selve rådataen kunne ikke brukes til mye, men bedriftene fant fort ut at den virkelige verdien av data var avhengig av hvilken informasjon man kunne trekke ut. Den vanligste måten man trakk ut verdifull informasjon fra databaser var ved å spørre databasen, for eksempel hvor mye solgte man av hvert produkt forrige måned? Så lenge man hadde en forholdsvis liten datamengde var denne måten god nok. Problemet var at datamengden i bedriftene økte raskt, og spesifikke og målrettede spørringer gav ikke de svarene og analysene bedriftene var ute etter. De trengte nye og bedre applikasjoner og verktøy. Data Mining har de verktøyene som gir bedriftene de analysene og svarene de er ute etter. Familietreet til Data Mining har 3 røtter: Klassisk statistikk Kunstig Intelligens (Artificial Intelligence - AI) Maskinlæring Statistikk brukes i de fleste Data Miningsteknikkene. Klassisk statistikk omfatter for eksempel analyse, distribusjon, forandring og avvik og brukes til å analysere data og forhold mellom dem. AI går ut på å anvende menneskelignende prosesser på statistiske problemer. Maskinlæring er forening mellom statistikk og AI. Maskinlæring går ut på å la programmer lære seg noe om dataen de studerer slik at programmene danner forskjellige avgjørelser basert på kvaliteten av dataen. Til dette bruker maskinlæring statistikk til fundamentale begreper og legger til avansert AI og algoritmer for oppnå målet sitt. Moderne Databaseteknologi, Høgskolen i Østfold 2003 3

Utviklings steg Datasamling (1960s) Dataaksess (1980s) Data Warehousing (1990s) Data Mining (Present) Gjeldene spørringer "What was my total revenue in the last five years?" "What were unit sales in New England last March?" "What were unit sales in New England last March? Drill down to Boston." "What s likely to happen to Boston unit sales next month? Why?" Teknologier Computers, tapes, disks IBM RDBMS, SQL, ODBC OLAP, Multi-dimensjonale databaser, Data Warehouse Avanserte Algoritmer, Multiprosessor maskiner, store databaser Tabell 1, Utviklingen av Data Mining. Produkter CDC Retrospective Oracle, Sybase, Informix, IBM, Microsoft Pilot, Comshare, Arbor, Cognos, IBM, SGI Ulike markedsførings-databaseapplikasjoner vil ha stor betydning for hvordan handel blir utført i fremtiden. Selv om vi allerede bruker de grunnleggende Data Miningsteknikkene i dag trenger man å videreutvikle disse teknikkene. Fremtidens suksessfulle databaseapplikasjoner vil kombinere Data Miningteknologi med en grundig forståelse av bedriften og dens problemer, og presentere resultatene på en forståelsesfull og oversiktlig måte [8]. Moderne Databaseteknologi, Høgskolen i Østfold 2003 4

2.0 Hva er Data Mining? Dagens databaser kan inneholde terrabytes med data. De kan blant annet inneholde verdifull informasjon om kunder, leverandører, ansatte eller økonomiske forhold. Det å bare lagre informasjon i Data Warehouse 1 gir ikke alle bedriftene de fordelene de ønsker. For å utnytte verdien av Data Warehouse er det nødvendig å kunne trekke ut kunnskap som er gjemt inne i Data Warehouse. Problemet er at det er vanskelig å identifisere trender og forbindelser i disse trillionene av bytes ved kun å bruke vanlige spørringer og rapporter. Det er her Data Mining kommer til sin rett. Ved bruk av Data Mining kan man finne informasjon inne i Data Warehouse som vanlige spørringer og rapporter ikke kan avsløre. Det finnes ingen entydig definisjon av begrepet Data Mining, men som oftest knyttes det til teknologien som anvendes for å hente ut interessant og uventet informasjon fra store datamengder. I en rapport fra 1996 definerte det amerikanske firmaet Gartner Group Data Mining som: "Leting etter meningsfulle nye mønstre, avhengigheter og trender i store datamengder ved bruk av mønstergjenkjenningsteknikker og matematiske- og statistiske metoder." Så Data Mining er altså opptatt med å analyse data og bruker softwareteknikker for å finne mønstre og regelmessigheter i datasettene. Det er datamaskinen som er ansvarlig for å finne mønstrene ved å identifisere de underliggende reglene og egenskapene i dataene. Ideen er at det er mulig å finne gull på uventede plasser etter hvert som Data Minings-softwaren trekker ut mønstre som ikke har vært oppdaget, eller har vært så åpenbare at ingen har lagt merke til dem. Det har blitt bredere aksept for at Data Mining er en enkel fase i en større livssyklus kjent som Knowledge in Databases (KDD). KDD har normalt disse aktivitetene: Figur 2. Stegene til KDD. 1. Et Data Warehouse er en relasjonsdatabasemanagement system (RDMS) som er designet spesielt for å møte kravene til transaksjonsprosess-systemer. Moderne Databaseteknologi, Høgskolen i Østfold 2003 5

Data Selection (Data utvelgelse) Målet i denne fasen er å trekke ut data som er relevante for Data Miningsanalysen fra store datamengder for eksempel, alle mennesker som eier en bil. Denne uttrekkingen hjelper til med å gjøre analyseprosessen mer strømlinjeformet og raskere. Data Preprocesssing (Forbehandling av data) Denne fasen er opptatt med rense data og utføre andre forberedelser som er nødvendige for å sikre korrekt resultat. Informasjon som anses som unødvendig og som vil sette ned farten på spørringene fjernes for eksempel, det er unødvendig å ta med kjønn på pasienten når man studerer graviditet. Dataene omstruktureres for å sikre et konsistent format fordi muligheten er stor for ukonsistens siden dataene er trukket fra flere forskjellige datakilder for eksempel, kjønn kan være registrert som m eller k et sted og som 1 eller 0 et annet. Data Transformation (Data transformering) I denne fasen konverteres dataene inn i en todimensjonal tabell. Uønskete og høyt samsvarende felter fjernes slik at resultatet blir gyldig og dataene blir gjort nyttbare. Data Mining Dette er selve kjernen i KDD syklusen. Dataene analyseres ved hjelp av et passende antall algoritmer for å oppdage mønstre og trender som tidligere har vært ukjente. Interpretation and Evaluation (Tolkning og evaluering) Data Miningsalgoritmene er i stand til å produsere et ubegrenset antall mønstre fra dataene. Mange av disse er ikke meningsfulle eller brukbare. Mønstrene som er identifisert av systemet må derfor tolkes til kunnskap for å støtte menneskers beslutningstakning for eksempel, forklare observerte fenomen. Resultatet fra prosessen er nyoppdaget kunnskap som har vært gjemt i dataene. Den nye kunnskapen kan bli brukt for å hjelpe til i fremtidige beslutningsvalg. 2.1 Motivasjonen for å bruke Data Mining Databaser vokser med uforutsigbar hastighet: o Mer enn 1,000,000 entiteter/records/rader o Fra 10 til 10,000 fields/attributter/variabler o Giga- og terrabytes med data Begrensning i menneskelig analyse: o Ikke mulig for den menneskelige hjerne å søke etter komplekse multifaktoravhengigheter i data o Mangel på objektivitet i analysen Forretningsverdenen er en hensynsløs verden: o Bestemmelser må gjøres raskt o Bestemmelser må gjøres med maksimal kunnskap Allerede investert i Data Warehouse: o Konkurransefordeler o Mer effektiv beslutningsvalg Moderne Databaseteknologi, Høgskolen i Østfold 2003 6

2.2 Noen eksempler der Data Mining kan brukes Handel/markedsføring: o Identifisere kunders handlemønster o Forutse respons på forskjellige kampanjer (for eksemple rettet mot kunder) o Markedsanalyser Bank: o Oppdage mønstre i misbruk av kredittkort o Identifisere lojale kunder o Finne mønstre i hvordan visse kundegrupper bruker kredittkort Forsikring: o Skadeanalyse o Forutse hvilke kunder som vil kjøpe ny forsikringspolis o Oppdage bedrageri Medisin: o Identifisere vellykket medisinsk behandling for forskjellige sykdommer o Finne trekk i folks væremåte/oppførsel for å forutse kirurgiske inngrep Moderne Databaseteknologi, Høgskolen i Østfold 2003 7

3.0 Problemer med Data Mining Data Miningsystemer er avhengig av databaser for å få rådata. Dette kan skape problemer fordi databasene kan være dynamiske, ukomplette, støyende og store. Begrenset informasjon Databasene er ofte designet for formål som er forskjellig fra Data Mining, og ubetydelige data i databasen kan gi problemer for Data Miningsprosessen. Grunnen til dette er at attributter som er vesentlige for kunnskap om bruksområdet nødvendigvis ikke er med i databasen, og det er derfor umulig å finne viktig kunnskap om det aktuelle området. Et eksempel kan være å diagnostisere malaria fra en pasientdatabase dersom den ikke inneholder verdier fra telling av pasientens røde blodceller (erythrocytes). Støy og manglende verdier Databaser er ofte forurenset med feil. Man kan derfor ikke gå ut ifra at dataene er fullstendig korrekte. Attributter som avhenger av subjektive- eller målbare bedømmelser kan gi opphav til feil slik at noe data kan bli feilklassifisert. Feil i enten attributtverdier eller klasseinformasjon er kjent som støy (noise). Det er ønskelig å fjerne støy fordi det vil påvirke nøyaktigheten på de genererte Data Miningsreglene. Størrelse, oppdatering og irrelevante felter Databaser er ofte store og dynamiske. Data legges til, oppdateres og fjernes ofte. Problemet med dette, fra Data Minings-perspektivet, er hvordan man skal forsikre seg at Data Miningsreglene er oppdaterte og konsistente i forhold de nåværende dataene i databasen. Kompleksitet og pris Når organisasjoner skal utføre komplekse Data Miningsoperasjoner kreves det i visse tilfeller at det må benyttes flere forskjellige teknikker. Kostnadene og ressursene man trenger for å utføre disse teknikkene kan nå uante høyder. I visse tilfeller kan det være snakk om utgifter for flere hundre tusen dollar [1]. Noen kritikere hevder at Data Mining krever store analytiske egenskaper. Eksperter på området tilbakeviser derimot dette. Hun mener at de som utfører best Data Mining er de som har god kunnskap om bransjen, og at de analytiske egenskapene lett kan utvikles eller kjøpes av andre [2]. Moderne Databaseteknologi, Høgskolen i Østfold 2003 8

4.0 Fordeler med Data Mining Data Mining hjelper mennesker med å analysere og forstå innholdet i store sett med data. Data Mining oppdager effektivt ikke-åpenbarstore datasett. Her er det ikke snakk om komplekse spørringer eller relasjoner i statistiske tester for å verifisere mistanker, men om å automatisk oppdage nye relasjoner blant rådataene. Data Mining muliggjør at organisasjoner får full utnyttelse av investeringen de gjør/har gjort når de bygger/bygd Data Warehouse. Data Mining kan finne forskjellige typer informasjon i Data Warehouse som vanlige spørringer og rapporter ikke har mulighet til å finne. Data Mining gir organisasjonen mulighet for å: Oppnå bedre forståelse av egne data Analyserer store databaser i løpet av minutter Forstå komplekse data Moderne Databaseteknologi, Høgskolen i Østfold 2003 9

5.0 Data Miningsoperasjoner og teknikker Det finnes fire grunnleggende Data Miningsoperasjoner. Disse inkluderer Predictive Modeling, Database Segmentation, Link Analysis og Deviation Detection. Det finnes derimot et tallrikt antall Data Miningsteknikker som støtter disse operasjonene. Hvilken teknikk som brukes er avhengig av hvilken data man har og hvilken type informasjon som skal trekkes ut av dataen. Vi skal nå forsøke å belyse operasjonene nærmere. 5.1 Predictive Modeling (Forutsigende Modelering) Predictive models har blitt brukt lenge før Data Mining oppstod og er muligens den mest brukte Data Miningsteknikken. Predictive models ligner hvordan mennesker lærer ved hjelp av observasjoner. Observasjonene brukes til å forme en modell av de viktigste karakteristikkene til et fenomen. Denne fremgangsmåten bruker områder fra den virkelige verden for å sette inn nye data i et generelt rammeverk. Predictive models kan brukes til å analysere en eksisterende database for å finne essensielle karakteristikker (en modell) om datasettene. Modeller utvikles ved å bruke en supervised learning fremgangsmåte som består av to deler, trening og testing. Treningsfasen bruker historiske data, kalt et treningssett, for å bygge en modell. Testing går ut på at man prøver ut modellen på nye, tidligere usette data for å bestemme deres korrekthet og fysiske karakteristikker. Modellen kan bli brukt for å forstå gammel data og for å forutsi hvordan fremtidlige records vil bli. Det er to teknikker innenfor Predictive Modeling, Classification og Value Prediction. 5.1.1 Classification (Klassifisering) Classification blir brukt til å etablere en spesifikk forhåndsbestemt klasse for hver record i databasen ut fra et ferdig sett av mulige klasseverdier. Det er to spesialiseringer innenfor Classification, Tree Induction og Neural Induction. Moderne Databaseteknologi, Høgskolen i Østfold 2003 10

Eksempel på Tree Induction Leid leilighet > 2 år Nei Ja Kjøp ikke aktuelt Alder > 25 år Nei Ja Kjøp ikke aktuelt Aktuell kjøper Figur 3. Tree Induction. Figuren over ønsker å forutse om en leiertaker vil være en potensiell kjøper eller ikke. Modellen har bestemt at det er kun to variabler som er interessante: hvor lenge personen har leid leiligheten og alderen på leietakeren. Trær er enkle å forstå og de er relativt raske. Det er også lett å oversette de til SQLspørringer [22]. Eksempel på Neural Induction I figuren under blir Classification av data oppnådd ved å bruke et nevralt nettverk. Et nevralt nettverk inneholder en samling av noder med input, output og prosesser ved hver node. Mellom de synlige input- og outputlagene kan det være et antall av skjulte prosesslag. Hver prosessenhet (sirkel) i et lag er koblet til alle prosessenheter i neste lag med en vektverdi. Denne vektverdien viser styrken på relasjonen. Leid leilighet > 2 år 0.5 Alder > 25 år 0.4 0.6 0.3 0.7 0.4 Klasse (Leie eller kjøp) Input Skjult prosess lag Output Figur 4. Neural Induction. Problemet med nevrale nett er at de kan være vanskelige å tolke, samt at de krever lang treningstid [22]. Moderne Databaseteknologi, Høgskolen i Østfold 2003 11

5.1.2 Value predicition (Verdi Forutsigelse) Value Prediciton blir brukt til å estimere en kontinuerlig numerisk verdi som blir assosiert med et databaserecord. Denne teknikken bruker den tradisjonelle statistiske teknikken lineær regresjon eller ikke-lineær regresjon. Lineær regresjon prøver å trekke en rett linje gjennom et plott med data, slik at linjen er den beste representasjonen av gjennomsnittet av alle observasjoner ved et punkt. Problemet med lineær regresjon er at teknikken kun fungerer bra på lineære data og den er sensitiv til dataverdier som ikke er på den forventede normen. Veldig ofte kan man ikke presentere virkeligheten i et lineært format. Ikke-lineær regresjon unngår hovedproblemene til lineær regresjon, men den er ikke fleksibel nok til å håndtere alle mulige former på dataplottet. 5.1.3 Eksempler på hvor man bruker Predictive Modeling Bank: o Kreditt evaluering Forsikring: o Oppdage bedrageri Medisin: o Forutse mulighet for at person skal få kreft Astronomi: o Forutse om et astronomisk objekt er en stjerne eller galakse 5.1.4 Fordeler med Predictive Modeling Kan kombinere flere teknikker av samme eller forskjellig type for å forbedre modellens nøyaktighet. 5.1.5 Ulemper med Predictive Modeling Predictive Modeling antar at usette data vil være uavhengig og identisk distribuert som treningsdata. Den teoretiske analysen av denne modellen er også underlagt samme antagelse. Kvaliteten på resulatet er avhengig av kvaliteten på dataene [22]. Moderne Databaseteknologi, Høgskolen i Østfold 2003 12

5.2 Database Segmentation (Database Segmentasjon) Målet med Database Segmentation er å partisjonere en database inn i et ukjent antall segmenter (eller clusters) av liknende records, det bil si records som deler visse egenskaper. Database Segmentation er typisk gjort for å oppdage homogene subpopulasjoner i en kundedatabase, for eksempel, friske, eldre menn, urbane, profesjonelle kvinner kan være mål for spesiell behandling. Det er to teknikker som benyttes for å definere clustere: Demographics clustering Neural clustering Hvilken av de to overstående teknikkene du skal benytte avgjøres om den identifiserbare attributten er en verdi eller egenskap. Demographics clustering brukes ved kategoriserbare egenskaper og Neural clustering brukes gjerne ved behandling av numeriske verdier eller ved attributter som her en intern hierarkisk struktur. Figur 5. Eksempel på bruk av Database Segmentation. 5.2.1 Problemer med Database Segmentation Selv om Data Warehouse har blitt bedre og større og det har kommet bedre analyseverktøy, så sliter fortsatt mange selskaper med konseptet Database Segmentation. Hovedgrunnen for dette er hvordan beslutninger i markedet blir avgjort. Det er vanlig at leverandører av ulike produkter har liten interesse av å behandle kundene noe annet enn som en målgruppe for sine produkter. Hvis ikke bedrifter tar i bruk Customer Relationship Management (CRM) prosessen på en fornuftig måte vil alltid salgstallene være viktigere enn kundene. Moderne Databaseteknologi, Høgskolen i Østfold 2003 13

Et annet problem med Database Segmentation er at det er hardt arbeid. Segmentene må være godt definert og de skal være stabile over lang tid. For å oppnå dette må man tenke på følgende: Start med de som er viktigst Ranker kundene etter løpende verdi og dele dem opp etter ulike klasser. Finn det magiske krysset Velg ut de celler i matrisen som både er meningsfulle i størrelse og verdi. Hvis det er nødvendig må man gå nedover i matrisen for å eventuelt oppdage uoppdagede innkapslete subgrupper. Økt bevisstheten til de ansatte Hold nummeret på segmenter på et ansvarlig nivå og bygg lett-å-forstå profiler som kan benyttes i selskapet. Steng hullet Bruk forskning for å oppdage behovet for andre segmenter enn det som allerede finnes. Eksempel, Segmentere kundene dine For en effektiv kundedialog må du vite hva dine kunder ønsker og planlegger å gjøre. Det kan du finne i ditt datalager ved hjelp av av smart segmentering. Still konkrete spørsmål til materialet av typen: Hvilke kunder er lønnsomme? Hva har de felles? Hvilke kunder har vært passive i lang tid? Kan man se mønstre i gjenkjøpsatferden? Fins det segment der du selger dårlig? Fins det potensiale der, eller skal du overse dem? Hvor fins kundene som har potensiale, men som i dag ikke kjøper noe særlig? Og ikke glem å analysere de som forlater deg. Fins det felles faktorer som du kan påvirke? Tilpass dialogen Når du har funnet fram til de viktigste segmentene, kan disse danne grunnlag for ulike aktiviteter til ulike kundetyper. De mest lønnsomme behandles på en måte og de potensielt lønnsome på en annen. Innbydelser og kommunikasjon utformes på ulike måter. Kontaktfrekvensen avhenger av segmentet kunden befinner seg i, og så videre. Mulighetene med et bra OLAP-verktøy er mange, og sammenlignet med de tradisjonelle analysesystemene er de billige og lette å bruke. For det daglige analysearbeidet med å holde rede på kundenes bevegelser er de fullt ut tilstrekkelige. 5.2.2 Eksempler på bruk av Database Segmentation SAS (Scandinavian Airlines) o Løsningen som SAS har valgt gjør at man ved hjelp av et pek-og-klikkmiljø kan gjøre segmenteringer på bakgrunn av den informasjon som ligger i markeds-datamarten. Dette gjør at man enkelt kan lage kompliserte utvalg, hvilket støtter opp om muligheten for en-til-enkommunikasjon. Løsningen gir mulighet for å benytte/videreutvikle andres segmentdefinisjoner for å minske arbeidet. o SAS kan teste ut ulike scenarioer for å bestemme optimal kampanjeføring mot spesifikke kundesegmenter. Moderne Databaseteknologi, Høgskolen i Østfold 2003 14

Bank o Kredittsvindel o Kredittverdighet Salg o Kundeprofiler o Direkte markedsføring 5.2.3 Ulemper med Database Segmentation Duplikater kan forbli uoppdaget. Det kan forekomme blind spots (områder i databasen som man ikke klarer å sjekke). 5.2.4 Fordeler med Database Segmentation Ved å identifisere hvordan de ulike segmentene oppfører seg kan man oppnå en bedre forståelse av markedet. Ved å forvandle forretningsretningslinjer til forskjellige segmenter, delt inn etter deres verdi, kan man forbedre investeringene og redusere kostnadene. Ved å kunne fokusere og spesialisere seg gjennom de ulike segmentene, har man større mulighet til å oppnå det som er nødvendig for segmentene. Figur 6. Eksempel på inndeling i ulike segmenter. Moderne Databaseteknologi, Høgskolen i Østfold 2003 15

5.3 Link Analysis (Link Analyse) I kontrast til Predictive Modeling og Database Segmentation, som sikter mot å karakterisere innholdet i databasen som en helhet (enhet), søker Link Analysis etter å opprette linker/forbindelser mellom individuelle records eller sett av records i databasen. Ved å opprette linker/forbindelser hjelper Link Analysis å finne ut hvilke produkter en kunde vil kjøpe ut i fra produkter kunden allerede har kjøpt. Krav om stadig økende omsetning og fortjenester i ulike bedrifter gjør at bedriftene vil finne ut mest mulig om kunders handlemønster. Operasjonen bruker vanlige forbindelsesregler IF a THEN b Det er 3 teknikker innenfor Link Analysis. Disse er Associations Discovery, Sequential Pattern Discovery og Similar Time Sequence Discovery. 5.3.1 Associations Discovery (oppdage forbindelser) En typisk applikasjon, identifisert av IBM, er Market Basket Analysis (MBA). MBA behandler kjøp av mange ting som en enkel transaksjon. Målet er å finne trender på tvers av ulike transaksjoner slik at man kan forstå hva som selges sammen og å utnytte dette kjøpemønsteret. Her er bedriftene ute etter å finne ut: Hvis element A er en del av en hendelse vil element B også være en del av hendelsen? Hvis dette er tilfeller i hvor stor grad (i %) vil disse to elementene være en del av en hendelsen. Eksempel på kjøpemønster. Når en kunde kjøper en hammer så blir det i 50% av tilfellene også kjøpt spiker. Når en kunder leier en eiendom i mer enn 2 år og er eldre enn 25 år så vil 40 % av dem kjøpe eiendommen. I 20 % av tiden man kjøper en bestemt brødrister kjøper også kunden cover til brødristeren. Når en kunde kjøper en skjorte så vil i 70 % av tilfellene kunden også kjøpe et slips. 75 % av de som kjøper Coca-Cola kjøper også Sprite. For å utnytte disse kjøpemønstrene kan bedriften for eksempel plassere hammer og spiker nær hverandre. Verktøy innenfor denne teknikken er: - Azmy Super Query - Clemintime - IBM s Intelligent Miner Disse verktøyene inneholder algoritmer som finner linker ved først å sortere data og deretter teller hendelsene. Moderne Databaseteknologi, Høgskolen i Østfold 2003 16

Grafiske metoder kan være veldig nyttig for å se linkstrukturene. I figuren nedenfor representerer hver ring en hendelse og linjene viser forbindelser mellom hendelsene. Tykke linjer representerer mange forbindelser. For eksempel hvis man ser i en forsikringsdatabase for å finne mulige bedrageri så kan man bruke denne metoden for å vise om det er en bestemt doktor og advokat som jobber sammen i uvanlig mange saker. Figur 7, Viser forbindelser mellom hendelser. Figur 8, Telefonliste gjort om til en grafisk metode. Viser hvem som ringer oftest til hverandre. 5.3.2 Sequential Pattern Discovery (oppdage sekvensielle mønster) I denne teknikken er hvert record et objekt. Hvert objekt er assosiert med sin egen tidslinje med hendelser og brukes for å se etter forbindelser mellom relaterte kjøp over tid. Man ser etter om en hendelse blir etterfulgt av en annen hendelse over en tidsperiode. Denne teknikken kan brukes til å finne ut hvilke kjøpevaner kunder har over en lang tidsperiode. For eksempel Når en person kjøper en hammer så vil 40 % av dem innen 3 måneder kjøpe spiker og 20% til innen de neste 3 månedene Hvis du har kjøpt en eiendom så vil du innen 3 måneder kjøpe ting som for eksempel kjøleskap, komfyr og fryser 40 % av kvinner som kjøper en grå skjorte kjøper innen 6 måneder en rød jakke Moderne Databaseteknologi, Høgskolen i Østfold 2003 17

5.3.3 Similar Time Sequence Discovery (oppdage liknende tidssekvenser) Denne teknikken ser etter forbindelser mellom hendelser basert på innholdet i hendelsen og når hendelsen skjedde. Hvis element A er en del av en hendelse så vil i element B i X % av tiden også være en del av hendelsen i forhold til et tidsperspektiv. De oppdagede mønstrene i de to siste nevnte teknikken kan visualiseres ved å bruke temporal patterns. Figur 9, temporal patterns. Et Absolute pattern viser ut i fra tidspunkt når et mønster oppstår. Et Contiguous pattern viser hvilke hendelser som skjer ut i fra en hendelse som allerede har skjedd. Figur 10, En modell som kan vise en absolutt syklus, basert på tidspunkt. Moderne Databaseteknologi, Høgskolen i Østfold 2003 18

5.3.4 Eksempler på hvor man bruker Link Analysis Direkte markedsføring: o Finne ut karakteristikk av de beste kundene o Finne hvilke produkter som er mest tiltrekkende o Identifisere kjøpemønster Aksjekursbevegelse Forsikringsselskap: o Oppdage bedrageri Medisin: o Kombinasjoner av symptomer blir analysert for å få en bedre forståelse av pasientens tilstand Kommunikasjon analyse: o Finne kommunikasjonsmønster o Finne eventuelle flaskehalser Kriminell analyse: o Finne generell struktur over kriminelle organisasjoner 5.3.5 Ulemper med Link Analysis Bedrifter kan bruke disse mønstrene for å skape et kjøpepress hos kunden En omfattende operasjon som bruker data fra ulike kilder 5.3.6 Fordeler med Link Analysis Bedrifter tjener mer penger ved o å plassere ting som hører sammen i samme hylle o finne ut hva man kjøper når Bedrifter kan styre reklamen bedre Operasjonen er objektiv og er ikke avhengig av subjektiv oversetting Moderne Databaseteknologi, Høgskolen i Østfold 2003 19

5.4 Deviation Detection (Avviksoppdagelse) Deviation Detection er en relativ ny operasjon når det gjelder kommersielt tilgjengelige Data Miningsverktøy. Deviation Detection fokuserer på å oppdage de mest signifikante forandringer i data i forhold til tidligere målte, eller normale verdier. Dette kan utføres ved bruk av statistikk- og visualiseringsteknikker. Et eksempel er lineær tilbakegang (lineær regresjon) som forenkler identifiseringen av outliers (outliers uttrykker avvikelse fra tidligere kjent forventning og norm) i data. Teknikken er nyttig for å avdekke bedrageri, samt til bruk i kvalitetskontroll. Denne operasjonen har 2 ulike teknikker. Vi vil kort gå gjennom dem. 5.4.1 Statistics (Statistikk) Denne teknikken etablerer normale verdier basert på statistisk gjennomsnitt for å oppdage et lineært mønster. Ved å gjøre dette kan ethvert avvik fra dette mønsteret oppdages. Denne teknikken kan innlemmes i visualisering (se under) som er mer sofistikert. Et praktisk eksempel der statistikk kan brukes er et system for å forutsi en persons kroppsvekt avhengig av personens høyde. Avvik vil inkludere ekstremt høye og tynne, samt lave og korpulente personer 5.4.2 Visualisation (Visualisering) Denne teknikken bruker bilder for å bedre brukerpersepsjonen av data. For eksempel et plott med data vil vise lineære trender som er synlig for den som analyserer, noe en tabell ikke vil vise i samme grad. Figur 11, Høyde vs. vekt 5.4.3 Linear Regression (Lineær regresjon) Lineær regresjon forsøker å tilpasse en rett linje (y = ax + b) gjennom en plot med data. Dette virker hvis dataene virkelig er lineære, hvis ikke er det behov for ikke-lineær regresjon. Moderne Databaseteknologi, Høgskolen i Østfold 2003 20