Dette er vår andre obligatoriske oppgave i kurset Moderne Databaseteknologi.

Størrelse: px
Begynne med side:

Download "Dette er vår andre obligatoriske oppgave i kurset Moderne Databaseteknologi."

Transkript

1 Innledning Dette er vår andre obligatoriske oppgave i kurset Moderne Databaseteknologi. Vi har valgt oppgave 5, Data Mining. I denne oppgaven skal vi utarbeide en rapport der vi gir en bred fremstilling av hva Data Mining er, hvilke metoder som finnes og hvilke fordeler og eventuelle usikkerheter som gjelder for de forskjellige teknikkene. Vi starter denne rapporten med å gi en kort historikk. Deretter forklarer vi kort begrepet Data Mining og kommer med noen eksempler på bruksområder. Vi tar så for oss de fire basisoperasjonene som er knyttet til Data Mining. Disse beskrives kort og vi beskriver noen av teknikkene som er knyttet til hver operasjon. Etter dette viser vi noen eksempler på Data Miningsverktøy og kommer med noen eksempler på praktisk bruk av Data Mining. Så ser vi litt på relasjonen mellom Data Mining vs Data Warehouse og OnLine Analytical Processing (OLAP) før vi avslutter rapporten med en kort konklusjon. Moderne Databaseteknologi, Høgskolen i Østfold

2 Innholdsfortegnelse 1.0 Historikk Hva er Data Mining? Motivasjonen for å bruke Data Mining Noen eksempler der Data Mining kan brukes Problemer med Data Mining Fordeler med Data Mining Data Miningsoperasjoner og teknikker Predictive Modeling (Forutsigende Modelering) Classification (Klassifisering) Value predicition (Verdi Forutsigelse) Eksempler på hvor man bruker Predictive Modeling Fordeler med Predictive Modeling Ulemper med Predictive Modeling Database Segmentation (Database Segmentasjon) Problemer med Database Segmentation Eksempler på bruk av Database Segmentation Ulemper med Database Segmentation Fordeler med Database Segmentation Link Analysis (Link Analyse) Associations Discovery (oppdage forbindelser) Sequential Pattern Discovery (oppdage sekvensielle mønster) Similar Time Sequence Discovery (oppdage liknende tidssekvenser) Eksempler på hvor man bruker Link Analysis Ulemper med Link Analysis Fordeler med Link Analysis Deviation Detection (Avviksoppdagelse) Statistics (Statistikk) Visualisation (Visualisering) Linear Regression (Lineær regresjon) Eksempler hvor man bruker teknikken Deviation Detection Fordeler ved Deviation Detection Data Miningsverktøy Kommersielle Data Miningsverktøy See5/C Cubist Magnum Opus GritBot ODBCHook KnowledgeSEEKER Holos Intelligent Miner Thought Pattern Recognition Workbench KnowledgeSEEKER Holos Intelligent Miner Thought Pattern Recognition Workbench Data Mining vs. Data Warehouse Relasjonen mellom Data Warehouse og Data Mining Data Mining vs. OLAP Konklusjon Ordliste Kilder Moderne Databaseteknologi, Høgskolen i Østfold

3 1.0 Historikk I de siste to tiår har det vært en dramatisk økning i informasjon eller data som lagres elektronisk. Det har blitt estimert at mengden med informasjon i verden dobles hver 20. måned, og at størrelsen på og antallet databaser vokser enda mer [11]. Figur 1. Økning av datamengden. Det å få lagret store mengder data ble lettere og billigere etter hvert som lagringskapasitet og maskiner ble raskere og billigere. Problemet man etter hvert måtte finne en løsning på, var hva skulle man gjøre med denne store mengden data? Selve rådataen kunne ikke brukes til mye, men bedriftene fant fort ut at den virkelige verdien av data var avhengig av hvilken informasjon man kunne trekke ut. Den vanligste måten man trakk ut verdifull informasjon fra databaser var ved å spørre databasen, for eksempel hvor mye solgte man av hvert produkt forrige måned? Så lenge man hadde en forholdsvis liten datamengde var denne måten god nok. Problemet var at datamengden i bedriftene økte raskt, og spesifikke og målrettede spørringer gav ikke de svarene og analysene bedriftene var ute etter. De trengte nye og bedre applikasjoner og verktøy. Data Mining har de verktøyene som gir bedriftene de analysene og svarene de er ute etter. Familietreet til Data Mining har 3 røtter: Klassisk statistikk Kunstig Intelligens (Artificial Intelligence - AI) Maskinlæring Statistikk brukes i de fleste Data Miningsteknikkene. Klassisk statistikk omfatter for eksempel analyse, distribusjon, forandring og avvik og brukes til å analysere data og forhold mellom dem. AI går ut på å anvende menneskelignende prosesser på statistiske problemer. Maskinlæring er forening mellom statistikk og AI. Maskinlæring går ut på å la programmer lære seg noe om dataen de studerer slik at programmene danner forskjellige avgjørelser basert på kvaliteten av dataen. Til dette bruker maskinlæring statistikk til fundamentale begreper og legger til avansert AI og algoritmer for oppnå målet sitt. Moderne Databaseteknologi, Høgskolen i Østfold

4 Utviklings steg Datasamling (1960s) Dataaksess (1980s) Data Warehousing (1990s) Data Mining (Present) Gjeldene spørringer "What was my total revenue in the last five years?" "What were unit sales in New England last March?" "What were unit sales in New England last March? Drill down to Boston." "What s likely to happen to Boston unit sales next month? Why?" Teknologier Computers, tapes, disks IBM RDBMS, SQL, ODBC OLAP, Multi-dimensjonale databaser, Data Warehouse Avanserte Algoritmer, Multiprosessor maskiner, store databaser Tabell 1, Utviklingen av Data Mining. Produkter CDC Retrospective Oracle, Sybase, Informix, IBM, Microsoft Pilot, Comshare, Arbor, Cognos, IBM, SGI Ulike markedsførings-databaseapplikasjoner vil ha stor betydning for hvordan handel blir utført i fremtiden. Selv om vi allerede bruker de grunnleggende Data Miningsteknikkene i dag trenger man å videreutvikle disse teknikkene. Fremtidens suksessfulle databaseapplikasjoner vil kombinere Data Miningteknologi med en grundig forståelse av bedriften og dens problemer, og presentere resultatene på en forståelsesfull og oversiktlig måte [8]. Moderne Databaseteknologi, Høgskolen i Østfold

5 2.0 Hva er Data Mining? Dagens databaser kan inneholde terrabytes med data. De kan blant annet inneholde verdifull informasjon om kunder, leverandører, ansatte eller økonomiske forhold. Det å bare lagre informasjon i Data Warehouse 1 gir ikke alle bedriftene de fordelene de ønsker. For å utnytte verdien av Data Warehouse er det nødvendig å kunne trekke ut kunnskap som er gjemt inne i Data Warehouse. Problemet er at det er vanskelig å identifisere trender og forbindelser i disse trillionene av bytes ved kun å bruke vanlige spørringer og rapporter. Det er her Data Mining kommer til sin rett. Ved bruk av Data Mining kan man finne informasjon inne i Data Warehouse som vanlige spørringer og rapporter ikke kan avsløre. Det finnes ingen entydig definisjon av begrepet Data Mining, men som oftest knyttes det til teknologien som anvendes for å hente ut interessant og uventet informasjon fra store datamengder. I en rapport fra 1996 definerte det amerikanske firmaet Gartner Group Data Mining som: "Leting etter meningsfulle nye mønstre, avhengigheter og trender i store datamengder ved bruk av mønstergjenkjenningsteknikker og matematiske- og statistiske metoder." Så Data Mining er altså opptatt med å analyse data og bruker softwareteknikker for å finne mønstre og regelmessigheter i datasettene. Det er datamaskinen som er ansvarlig for å finne mønstrene ved å identifisere de underliggende reglene og egenskapene i dataene. Ideen er at det er mulig å finne gull på uventede plasser etter hvert som Data Minings-softwaren trekker ut mønstre som ikke har vært oppdaget, eller har vært så åpenbare at ingen har lagt merke til dem. Det har blitt bredere aksept for at Data Mining er en enkel fase i en større livssyklus kjent som Knowledge in Databases (KDD). KDD har normalt disse aktivitetene: Figur 2. Stegene til KDD. 1. Et Data Warehouse er en relasjonsdatabasemanagement system (RDMS) som er designet spesielt for å møte kravene til transaksjonsprosess-systemer. Moderne Databaseteknologi, Høgskolen i Østfold

6 Data Selection (Data utvelgelse) Målet i denne fasen er å trekke ut data som er relevante for Data Miningsanalysen fra store datamengder for eksempel, alle mennesker som eier en bil. Denne uttrekkingen hjelper til med å gjøre analyseprosessen mer strømlinjeformet og raskere. Data Preprocesssing (Forbehandling av data) Denne fasen er opptatt med rense data og utføre andre forberedelser som er nødvendige for å sikre korrekt resultat. Informasjon som anses som unødvendig og som vil sette ned farten på spørringene fjernes for eksempel, det er unødvendig å ta med kjønn på pasienten når man studerer graviditet. Dataene omstruktureres for å sikre et konsistent format fordi muligheten er stor for ukonsistens siden dataene er trukket fra flere forskjellige datakilder for eksempel, kjønn kan være registrert som m eller k et sted og som 1 eller 0 et annet. Data Transformation (Data transformering) I denne fasen konverteres dataene inn i en todimensjonal tabell. Uønskete og høyt samsvarende felter fjernes slik at resultatet blir gyldig og dataene blir gjort nyttbare. Data Mining Dette er selve kjernen i KDD syklusen. Dataene analyseres ved hjelp av et passende antall algoritmer for å oppdage mønstre og trender som tidligere har vært ukjente. Interpretation and Evaluation (Tolkning og evaluering) Data Miningsalgoritmene er i stand til å produsere et ubegrenset antall mønstre fra dataene. Mange av disse er ikke meningsfulle eller brukbare. Mønstrene som er identifisert av systemet må derfor tolkes til kunnskap for å støtte menneskers beslutningstakning for eksempel, forklare observerte fenomen. Resultatet fra prosessen er nyoppdaget kunnskap som har vært gjemt i dataene. Den nye kunnskapen kan bli brukt for å hjelpe til i fremtidige beslutningsvalg. 2.1 Motivasjonen for å bruke Data Mining Databaser vokser med uforutsigbar hastighet: o Mer enn 1,000,000 entiteter/records/rader o Fra 10 til 10,000 fields/attributter/variabler o Giga- og terrabytes med data Begrensning i menneskelig analyse: o Ikke mulig for den menneskelige hjerne å søke etter komplekse multifaktoravhengigheter i data o Mangel på objektivitet i analysen Forretningsverdenen er en hensynsløs verden: o Bestemmelser må gjøres raskt o Bestemmelser må gjøres med maksimal kunnskap Allerede investert i Data Warehouse: o Konkurransefordeler o Mer effektiv beslutningsvalg Moderne Databaseteknologi, Høgskolen i Østfold

7 2.2 Noen eksempler der Data Mining kan brukes Handel/markedsføring: o Identifisere kunders handlemønster o Forutse respons på forskjellige kampanjer (for eksemple rettet mot kunder) o Markedsanalyser Bank: o Oppdage mønstre i misbruk av kredittkort o Identifisere lojale kunder o Finne mønstre i hvordan visse kundegrupper bruker kredittkort Forsikring: o Skadeanalyse o Forutse hvilke kunder som vil kjøpe ny forsikringspolis o Oppdage bedrageri Medisin: o Identifisere vellykket medisinsk behandling for forskjellige sykdommer o Finne trekk i folks væremåte/oppførsel for å forutse kirurgiske inngrep Moderne Databaseteknologi, Høgskolen i Østfold

8 3.0 Problemer med Data Mining Data Miningsystemer er avhengig av databaser for å få rådata. Dette kan skape problemer fordi databasene kan være dynamiske, ukomplette, støyende og store. Begrenset informasjon Databasene er ofte designet for formål som er forskjellig fra Data Mining, og ubetydelige data i databasen kan gi problemer for Data Miningsprosessen. Grunnen til dette er at attributter som er vesentlige for kunnskap om bruksområdet nødvendigvis ikke er med i databasen, og det er derfor umulig å finne viktig kunnskap om det aktuelle området. Et eksempel kan være å diagnostisere malaria fra en pasientdatabase dersom den ikke inneholder verdier fra telling av pasientens røde blodceller (erythrocytes). Støy og manglende verdier Databaser er ofte forurenset med feil. Man kan derfor ikke gå ut ifra at dataene er fullstendig korrekte. Attributter som avhenger av subjektive- eller målbare bedømmelser kan gi opphav til feil slik at noe data kan bli feilklassifisert. Feil i enten attributtverdier eller klasseinformasjon er kjent som støy (noise). Det er ønskelig å fjerne støy fordi det vil påvirke nøyaktigheten på de genererte Data Miningsreglene. Størrelse, oppdatering og irrelevante felter Databaser er ofte store og dynamiske. Data legges til, oppdateres og fjernes ofte. Problemet med dette, fra Data Minings-perspektivet, er hvordan man skal forsikre seg at Data Miningsreglene er oppdaterte og konsistente i forhold de nåværende dataene i databasen. Kompleksitet og pris Når organisasjoner skal utføre komplekse Data Miningsoperasjoner kreves det i visse tilfeller at det må benyttes flere forskjellige teknikker. Kostnadene og ressursene man trenger for å utføre disse teknikkene kan nå uante høyder. I visse tilfeller kan det være snakk om utgifter for flere hundre tusen dollar [1]. Noen kritikere hevder at Data Mining krever store analytiske egenskaper. Eksperter på området tilbakeviser derimot dette. Hun mener at de som utfører best Data Mining er de som har god kunnskap om bransjen, og at de analytiske egenskapene lett kan utvikles eller kjøpes av andre [2]. Moderne Databaseteknologi, Høgskolen i Østfold

9 4.0 Fordeler med Data Mining Data Mining hjelper mennesker med å analysere og forstå innholdet i store sett med data. Data Mining oppdager effektivt ikke-åpenbarstore datasett. Her er det ikke snakk om komplekse spørringer eller relasjoner i statistiske tester for å verifisere mistanker, men om å automatisk oppdage nye relasjoner blant rådataene. Data Mining muliggjør at organisasjoner får full utnyttelse av investeringen de gjør/har gjort når de bygger/bygd Data Warehouse. Data Mining kan finne forskjellige typer informasjon i Data Warehouse som vanlige spørringer og rapporter ikke har mulighet til å finne. Data Mining gir organisasjonen mulighet for å: Oppnå bedre forståelse av egne data Analyserer store databaser i løpet av minutter Forstå komplekse data Moderne Databaseteknologi, Høgskolen i Østfold

10 5.0 Data Miningsoperasjoner og teknikker Det finnes fire grunnleggende Data Miningsoperasjoner. Disse inkluderer Predictive Modeling, Database Segmentation, Link Analysis og Deviation Detection. Det finnes derimot et tallrikt antall Data Miningsteknikker som støtter disse operasjonene. Hvilken teknikk som brukes er avhengig av hvilken data man har og hvilken type informasjon som skal trekkes ut av dataen. Vi skal nå forsøke å belyse operasjonene nærmere. 5.1 Predictive Modeling (Forutsigende Modelering) Predictive models har blitt brukt lenge før Data Mining oppstod og er muligens den mest brukte Data Miningsteknikken. Predictive models ligner hvordan mennesker lærer ved hjelp av observasjoner. Observasjonene brukes til å forme en modell av de viktigste karakteristikkene til et fenomen. Denne fremgangsmåten bruker områder fra den virkelige verden for å sette inn nye data i et generelt rammeverk. Predictive models kan brukes til å analysere en eksisterende database for å finne essensielle karakteristikker (en modell) om datasettene. Modeller utvikles ved å bruke en supervised learning fremgangsmåte som består av to deler, trening og testing. Treningsfasen bruker historiske data, kalt et treningssett, for å bygge en modell. Testing går ut på at man prøver ut modellen på nye, tidligere usette data for å bestemme deres korrekthet og fysiske karakteristikker. Modellen kan bli brukt for å forstå gammel data og for å forutsi hvordan fremtidlige records vil bli. Det er to teknikker innenfor Predictive Modeling, Classification og Value Prediction Classification (Klassifisering) Classification blir brukt til å etablere en spesifikk forhåndsbestemt klasse for hver record i databasen ut fra et ferdig sett av mulige klasseverdier. Det er to spesialiseringer innenfor Classification, Tree Induction og Neural Induction. Moderne Databaseteknologi, Høgskolen i Østfold

11 Eksempel på Tree Induction Leid leilighet > 2 år Nei Ja Kjøp ikke aktuelt Alder > 25 år Nei Ja Kjøp ikke aktuelt Aktuell kjøper Figur 3. Tree Induction. Figuren over ønsker å forutse om en leiertaker vil være en potensiell kjøper eller ikke. Modellen har bestemt at det er kun to variabler som er interessante: hvor lenge personen har leid leiligheten og alderen på leietakeren. Trær er enkle å forstå og de er relativt raske. Det er også lett å oversette de til SQLspørringer [22]. Eksempel på Neural Induction I figuren under blir Classification av data oppnådd ved å bruke et nevralt nettverk. Et nevralt nettverk inneholder en samling av noder med input, output og prosesser ved hver node. Mellom de synlige input- og outputlagene kan det være et antall av skjulte prosesslag. Hver prosessenhet (sirkel) i et lag er koblet til alle prosessenheter i neste lag med en vektverdi. Denne vektverdien viser styrken på relasjonen. Leid leilighet > 2 år 0.5 Alder > 25 år Klasse (Leie eller kjøp) Input Skjult prosess lag Output Figur 4. Neural Induction. Problemet med nevrale nett er at de kan være vanskelige å tolke, samt at de krever lang treningstid [22]. Moderne Databaseteknologi, Høgskolen i Østfold

12 5.1.2 Value predicition (Verdi Forutsigelse) Value Prediciton blir brukt til å estimere en kontinuerlig numerisk verdi som blir assosiert med et databaserecord. Denne teknikken bruker den tradisjonelle statistiske teknikken lineær regresjon eller ikke-lineær regresjon. Lineær regresjon prøver å trekke en rett linje gjennom et plott med data, slik at linjen er den beste representasjonen av gjennomsnittet av alle observasjoner ved et punkt. Problemet med lineær regresjon er at teknikken kun fungerer bra på lineære data og den er sensitiv til dataverdier som ikke er på den forventede normen. Veldig ofte kan man ikke presentere virkeligheten i et lineært format. Ikke-lineær regresjon unngår hovedproblemene til lineær regresjon, men den er ikke fleksibel nok til å håndtere alle mulige former på dataplottet Eksempler på hvor man bruker Predictive Modeling Bank: o Kreditt evaluering Forsikring: o Oppdage bedrageri Medisin: o Forutse mulighet for at person skal få kreft Astronomi: o Forutse om et astronomisk objekt er en stjerne eller galakse Fordeler med Predictive Modeling Kan kombinere flere teknikker av samme eller forskjellig type for å forbedre modellens nøyaktighet Ulemper med Predictive Modeling Predictive Modeling antar at usette data vil være uavhengig og identisk distribuert som treningsdata. Den teoretiske analysen av denne modellen er også underlagt samme antagelse. Kvaliteten på resulatet er avhengig av kvaliteten på dataene [22]. Moderne Databaseteknologi, Høgskolen i Østfold

13 5.2 Database Segmentation (Database Segmentasjon) Målet med Database Segmentation er å partisjonere en database inn i et ukjent antall segmenter (eller clusters) av liknende records, det bil si records som deler visse egenskaper. Database Segmentation er typisk gjort for å oppdage homogene subpopulasjoner i en kundedatabase, for eksempel, friske, eldre menn, urbane, profesjonelle kvinner kan være mål for spesiell behandling. Det er to teknikker som benyttes for å definere clustere: Demographics clustering Neural clustering Hvilken av de to overstående teknikkene du skal benytte avgjøres om den identifiserbare attributten er en verdi eller egenskap. Demographics clustering brukes ved kategoriserbare egenskaper og Neural clustering brukes gjerne ved behandling av numeriske verdier eller ved attributter som her en intern hierarkisk struktur. Figur 5. Eksempel på bruk av Database Segmentation Problemer med Database Segmentation Selv om Data Warehouse har blitt bedre og større og det har kommet bedre analyseverktøy, så sliter fortsatt mange selskaper med konseptet Database Segmentation. Hovedgrunnen for dette er hvordan beslutninger i markedet blir avgjort. Det er vanlig at leverandører av ulike produkter har liten interesse av å behandle kundene noe annet enn som en målgruppe for sine produkter. Hvis ikke bedrifter tar i bruk Customer Relationship Management (CRM) prosessen på en fornuftig måte vil alltid salgstallene være viktigere enn kundene. Moderne Databaseteknologi, Høgskolen i Østfold

14 Et annet problem med Database Segmentation er at det er hardt arbeid. Segmentene må være godt definert og de skal være stabile over lang tid. For å oppnå dette må man tenke på følgende: Start med de som er viktigst Ranker kundene etter løpende verdi og dele dem opp etter ulike klasser. Finn det magiske krysset Velg ut de celler i matrisen som både er meningsfulle i størrelse og verdi. Hvis det er nødvendig må man gå nedover i matrisen for å eventuelt oppdage uoppdagede innkapslete subgrupper. Økt bevisstheten til de ansatte Hold nummeret på segmenter på et ansvarlig nivå og bygg lett-å-forstå profiler som kan benyttes i selskapet. Steng hullet Bruk forskning for å oppdage behovet for andre segmenter enn det som allerede finnes. Eksempel, Segmentere kundene dine For en effektiv kundedialog må du vite hva dine kunder ønsker og planlegger å gjøre. Det kan du finne i ditt datalager ved hjelp av av smart segmentering. Still konkrete spørsmål til materialet av typen: Hvilke kunder er lønnsomme? Hva har de felles? Hvilke kunder har vært passive i lang tid? Kan man se mønstre i gjenkjøpsatferden? Fins det segment der du selger dårlig? Fins det potensiale der, eller skal du overse dem? Hvor fins kundene som har potensiale, men som i dag ikke kjøper noe særlig? Og ikke glem å analysere de som forlater deg. Fins det felles faktorer som du kan påvirke? Tilpass dialogen Når du har funnet fram til de viktigste segmentene, kan disse danne grunnlag for ulike aktiviteter til ulike kundetyper. De mest lønnsomme behandles på en måte og de potensielt lønnsome på en annen. Innbydelser og kommunikasjon utformes på ulike måter. Kontaktfrekvensen avhenger av segmentet kunden befinner seg i, og så videre. Mulighetene med et bra OLAP-verktøy er mange, og sammenlignet med de tradisjonelle analysesystemene er de billige og lette å bruke. For det daglige analysearbeidet med å holde rede på kundenes bevegelser er de fullt ut tilstrekkelige Eksempler på bruk av Database Segmentation SAS (Scandinavian Airlines) o Løsningen som SAS har valgt gjør at man ved hjelp av et pek-og-klikkmiljø kan gjøre segmenteringer på bakgrunn av den informasjon som ligger i markeds-datamarten. Dette gjør at man enkelt kan lage kompliserte utvalg, hvilket støtter opp om muligheten for en-til-enkommunikasjon. Løsningen gir mulighet for å benytte/videreutvikle andres segmentdefinisjoner for å minske arbeidet. o SAS kan teste ut ulike scenarioer for å bestemme optimal kampanjeføring mot spesifikke kundesegmenter. Moderne Databaseteknologi, Høgskolen i Østfold

15 Bank o Kredittsvindel o Kredittverdighet Salg o Kundeprofiler o Direkte markedsføring Ulemper med Database Segmentation Duplikater kan forbli uoppdaget. Det kan forekomme blind spots (områder i databasen som man ikke klarer å sjekke) Fordeler med Database Segmentation Ved å identifisere hvordan de ulike segmentene oppfører seg kan man oppnå en bedre forståelse av markedet. Ved å forvandle forretningsretningslinjer til forskjellige segmenter, delt inn etter deres verdi, kan man forbedre investeringene og redusere kostnadene. Ved å kunne fokusere og spesialisere seg gjennom de ulike segmentene, har man større mulighet til å oppnå det som er nødvendig for segmentene. Figur 6. Eksempel på inndeling i ulike segmenter. Moderne Databaseteknologi, Høgskolen i Østfold

16 5.3 Link Analysis (Link Analyse) I kontrast til Predictive Modeling og Database Segmentation, som sikter mot å karakterisere innholdet i databasen som en helhet (enhet), søker Link Analysis etter å opprette linker/forbindelser mellom individuelle records eller sett av records i databasen. Ved å opprette linker/forbindelser hjelper Link Analysis å finne ut hvilke produkter en kunde vil kjøpe ut i fra produkter kunden allerede har kjøpt. Krav om stadig økende omsetning og fortjenester i ulike bedrifter gjør at bedriftene vil finne ut mest mulig om kunders handlemønster. Operasjonen bruker vanlige forbindelsesregler IF a THEN b Det er 3 teknikker innenfor Link Analysis. Disse er Associations Discovery, Sequential Pattern Discovery og Similar Time Sequence Discovery Associations Discovery (oppdage forbindelser) En typisk applikasjon, identifisert av IBM, er Market Basket Analysis (MBA). MBA behandler kjøp av mange ting som en enkel transaksjon. Målet er å finne trender på tvers av ulike transaksjoner slik at man kan forstå hva som selges sammen og å utnytte dette kjøpemønsteret. Her er bedriftene ute etter å finne ut: Hvis element A er en del av en hendelse vil element B også være en del av hendelsen? Hvis dette er tilfeller i hvor stor grad (i %) vil disse to elementene være en del av en hendelsen. Eksempel på kjøpemønster. Når en kunde kjøper en hammer så blir det i 50% av tilfellene også kjøpt spiker. Når en kunder leier en eiendom i mer enn 2 år og er eldre enn 25 år så vil 40 % av dem kjøpe eiendommen. I 20 % av tiden man kjøper en bestemt brødrister kjøper også kunden cover til brødristeren. Når en kunde kjøper en skjorte så vil i 70 % av tilfellene kunden også kjøpe et slips. 75 % av de som kjøper Coca-Cola kjøper også Sprite. For å utnytte disse kjøpemønstrene kan bedriften for eksempel plassere hammer og spiker nær hverandre. Verktøy innenfor denne teknikken er: - Azmy Super Query - Clemintime - IBM s Intelligent Miner Disse verktøyene inneholder algoritmer som finner linker ved først å sortere data og deretter teller hendelsene. Moderne Databaseteknologi, Høgskolen i Østfold

17 Grafiske metoder kan være veldig nyttig for å se linkstrukturene. I figuren nedenfor representerer hver ring en hendelse og linjene viser forbindelser mellom hendelsene. Tykke linjer representerer mange forbindelser. For eksempel hvis man ser i en forsikringsdatabase for å finne mulige bedrageri så kan man bruke denne metoden for å vise om det er en bestemt doktor og advokat som jobber sammen i uvanlig mange saker. Figur 7, Viser forbindelser mellom hendelser. Figur 8, Telefonliste gjort om til en grafisk metode. Viser hvem som ringer oftest til hverandre Sequential Pattern Discovery (oppdage sekvensielle mønster) I denne teknikken er hvert record et objekt. Hvert objekt er assosiert med sin egen tidslinje med hendelser og brukes for å se etter forbindelser mellom relaterte kjøp over tid. Man ser etter om en hendelse blir etterfulgt av en annen hendelse over en tidsperiode. Denne teknikken kan brukes til å finne ut hvilke kjøpevaner kunder har over en lang tidsperiode. For eksempel Når en person kjøper en hammer så vil 40 % av dem innen 3 måneder kjøpe spiker og 20% til innen de neste 3 månedene Hvis du har kjøpt en eiendom så vil du innen 3 måneder kjøpe ting som for eksempel kjøleskap, komfyr og fryser 40 % av kvinner som kjøper en grå skjorte kjøper innen 6 måneder en rød jakke Moderne Databaseteknologi, Høgskolen i Østfold

18 5.3.3 Similar Time Sequence Discovery (oppdage liknende tidssekvenser) Denne teknikken ser etter forbindelser mellom hendelser basert på innholdet i hendelsen og når hendelsen skjedde. Hvis element A er en del av en hendelse så vil i element B i X % av tiden også være en del av hendelsen i forhold til et tidsperspektiv. De oppdagede mønstrene i de to siste nevnte teknikken kan visualiseres ved å bruke temporal patterns. Figur 9, temporal patterns. Et Absolute pattern viser ut i fra tidspunkt når et mønster oppstår. Et Contiguous pattern viser hvilke hendelser som skjer ut i fra en hendelse som allerede har skjedd. Figur 10, En modell som kan vise en absolutt syklus, basert på tidspunkt. Moderne Databaseteknologi, Høgskolen i Østfold

19 5.3.4 Eksempler på hvor man bruker Link Analysis Direkte markedsføring: o Finne ut karakteristikk av de beste kundene o Finne hvilke produkter som er mest tiltrekkende o Identifisere kjøpemønster Aksjekursbevegelse Forsikringsselskap: o Oppdage bedrageri Medisin: o Kombinasjoner av symptomer blir analysert for å få en bedre forståelse av pasientens tilstand Kommunikasjon analyse: o Finne kommunikasjonsmønster o Finne eventuelle flaskehalser Kriminell analyse: o Finne generell struktur over kriminelle organisasjoner Ulemper med Link Analysis Bedrifter kan bruke disse mønstrene for å skape et kjøpepress hos kunden En omfattende operasjon som bruker data fra ulike kilder Fordeler med Link Analysis Bedrifter tjener mer penger ved o å plassere ting som hører sammen i samme hylle o finne ut hva man kjøper når Bedrifter kan styre reklamen bedre Operasjonen er objektiv og er ikke avhengig av subjektiv oversetting Moderne Databaseteknologi, Høgskolen i Østfold

20 5.4 Deviation Detection (Avviksoppdagelse) Deviation Detection er en relativ ny operasjon når det gjelder kommersielt tilgjengelige Data Miningsverktøy. Deviation Detection fokuserer på å oppdage de mest signifikante forandringer i data i forhold til tidligere målte, eller normale verdier. Dette kan utføres ved bruk av statistikk- og visualiseringsteknikker. Et eksempel er lineær tilbakegang (lineær regresjon) som forenkler identifiseringen av outliers (outliers uttrykker avvikelse fra tidligere kjent forventning og norm) i data. Teknikken er nyttig for å avdekke bedrageri, samt til bruk i kvalitetskontroll. Denne operasjonen har 2 ulike teknikker. Vi vil kort gå gjennom dem Statistics (Statistikk) Denne teknikken etablerer normale verdier basert på statistisk gjennomsnitt for å oppdage et lineært mønster. Ved å gjøre dette kan ethvert avvik fra dette mønsteret oppdages. Denne teknikken kan innlemmes i visualisering (se under) som er mer sofistikert. Et praktisk eksempel der statistikk kan brukes er et system for å forutsi en persons kroppsvekt avhengig av personens høyde. Avvik vil inkludere ekstremt høye og tynne, samt lave og korpulente personer Visualisation (Visualisering) Denne teknikken bruker bilder for å bedre brukerpersepsjonen av data. For eksempel et plott med data vil vise lineære trender som er synlig for den som analyserer, noe en tabell ikke vil vise i samme grad. Figur 11, Høyde vs. vekt Linear Regression (Lineær regresjon) Lineær regresjon forsøker å tilpasse en rett linje (y = ax + b) gjennom en plot med data. Dette virker hvis dataene virkelig er lineære, hvis ikke er det behov for ikke-lineær regresjon. Moderne Databaseteknologi, Høgskolen i Østfold

NUMMER 2 2014 NORGES MARKEDSANALYSEFORENING TEMA: Marketing analytics BRANSJENYTT FAGLIG TEKNOLOGI NYTT FRA NMF JOBB&KARRIERE

NUMMER 2 2014 NORGES MARKEDSANALYSEFORENING TEMA: Marketing analytics BRANSJENYTT FAGLIG TEKNOLOGI NYTT FRA NMF JOBB&KARRIERE NUMMER 2 2014 NORGES MARKEDSANALYSEFORENING TEMA: Marketing analytics BRANSJENYTT FAGLIG TEKNOLOGI NYTT FRA NMF JOBB&KARRIERE Fire veier til vekst # 4 Ekspandere i nye markeder Med tilstedeværelse i 88

Detaljer

Gevinster og kostnader ved implementering av et ERP-system

Gevinster og kostnader ved implementering av et ERP-system Gevinster og kostnader ved implementering av et ERP-system Masteravhandling våren 2013 Camilla Lothe Eltvik Studentnummer: 130875 Veileder: Ingunn Myrtveit Masteroppgave i økonomi og ledelse, spesialisering

Detaljer

Tabeller Tabell 1 - Kilde til finansiering av oppstart... 18 Tabell 2 - Faktorer som kjennetegner en suksessfull bedrift... 19

Tabeller Tabell 1 - Kilde til finansiering av oppstart... 18 Tabell 2 - Faktorer som kjennetegner en suksessfull bedrift... 19 Avdeling for informatikk og e-læring, Høgskolen i Sør-Trøndelag Tor Atle Hjeltnes 07.01.2014 Lærestoffet er utviklet for faget IINI2010 1. Resymé: I denne leksjonen starter vi med litt generell informasjon

Detaljer

Servicekvalitet og påvirkning av. Kundens lojalitet. Bachelor 2012

Servicekvalitet og påvirkning av. Kundens lojalitet. Bachelor 2012 2012 Bachelor 2012 Servicekvalitet og påvirkning av Kundens lojalitet Bacheloroppgave 2012 3.år Hotell og relasjonsledelse ved Markedshøyskolen Denne bacheloroppgaven ble utarbeidet av: 979525 979532 Denne

Detaljer

Tittel: Entreprenørskap - Hva er hovedutfordringene ved oppstart av bedrift og hvordan har suksessfulle entreprenører løst dem?

Tittel: Entreprenørskap - Hva er hovedutfordringene ved oppstart av bedrift og hvordan har suksessfulle entreprenører løst dem? Tittel: Entreprenørskap - Hva er hovedutfordringene ved oppstart av bedrift og hvordan har suksessfulle entreprenører løst dem? Skrevet av: Thomas Konradsen Emnekode: BE320E. MBA HHB Tromsø. Innholdsfortegnelse...

Detaljer

En kvalitativ studie av utvalgte bedrifters forhold til sosiale medier

En kvalitativ studie av utvalgte bedrifters forhold til sosiale medier Carin Pettersson Kristin Svendsen Prosjektoppgave ved Handelshøyskolen BI En kvalitativ studie av utvalgte bedrifters forhold til sosiale medier Eksamenskode og navn: MAN 29281 Flermedial ledelse Utleveringsdato:

Detaljer

Slik lager, sender og evaluerer du e-post som gir tydelige resultater

Slik lager, sender og evaluerer du e-post som gir tydelige resultater Slik lager, sender og evaluerer du e-post som gir tydelige resultater Håndbok i e-postmarkedsføring oppdatert med e-post for sosiale medier og mobile enheter Nøklene til fremgang 7 1. Nøklene til fremgang

Detaljer

Industriell utdanning i en postindustriell tid. - Kristin Svendsen -

Industriell utdanning i en postindustriell tid. - Kristin Svendsen - Industriell utdanning i en postindustriell tid - Kristin Svendsen - Prosjektoppgave ved Handelshøyskolen BI Nyskaping og kommersialisering 2011/12 Innholdsfortegnelse INNHOLDSFORTEGNELSE... I SAMMENDRAG...

Detaljer

Modell for optimering av investeringsbeslutninger resultater og anvendelse

Modell for optimering av investeringsbeslutninger resultater og anvendelse FFI-rapport 2011/00940 Modell for optimering av investeringsbeslutninger resultater og anvendelse Maria Fleischer Fauske Forsvarets forskningsinstitutt (FFI) 10. mai 2011 FFI-rapport 2011/00940 1185 P:

Detaljer

MED UNDRING SOM DRIVKRAFT. Tips til gjennomføring av et vellykket forskningsprosjekt for skoleelever

MED UNDRING SOM DRIVKRAFT. Tips til gjennomføring av et vellykket forskningsprosjekt for skoleelever MED UNDRING SOM DRIVKRAFT Tips til gjennomføring av et vellykket forskningsprosjekt for skoleelever O M D E T T E H E F T E T Hensikten med dette heftet er å gi elever i ungdoms- og videregående skole

Detaljer

Å anskaffe en CRM-løsning

Å anskaffe en CRM-løsning Evaluering av IT-systemer 2009 Å anskaffe en CRM-løsning av Kåre Sorteberg August 2009 1 Innhold Innledning... 3 Kort om CRM... 3 Hva er CRM?... 3 Både kunde og leverandør må oppnå fordeler.... 3 Utfordringene

Detaljer

Big data bidrar til utvikling i norsk næringsliv

Big data bidrar til utvikling i norsk næringsliv DENNE TEMAAVISEN ER EN ANNONSE FRA MEDIAPLANET Det handler om hvor god du har lyst til å bli LES MER PÅ NETT! WWW.BEDRIFTSØKONOMINORGE.NO Nr 10 DESEMBER 2014 BUSINESS INTELLIGENCE FOTO: TOM EGIL JENSEN

Detaljer

Vellykket entreprenørskap

Vellykket entreprenørskap Vellykket entreprenørskap Et retrospektivt case-studie av oppstartsbedriften PramPack, med fokus på viktige suksessfaktorer Audun Ueland Industriell økonomi og teknologiledelse Oppgaven levert: Juni 2011

Detaljer

Planlegging av påtvunget endring:

Planlegging av påtvunget endring: Planlegging av påtvunget endring: Hvordan gå frem for å lykkes? - en kvalitativ studie Vegard Aanestad Masteroppgave i endringsledelse Det samfunnsvitenskapelige fakultet Universitetet i Stavanger Vår

Detaljer

Hvordan anvender ledere i ulike organisasjoner ulik ledelsesatferd på bakgrunn av organisasjonens kontekst?

Hvordan anvender ledere i ulike organisasjoner ulik ledelsesatferd på bakgrunn av organisasjonens kontekst? Institutt for sosiologi, statsvitenskap og samfunnsplanlegging Fakultet for humaniora, samfunnsvitenskap og lærerutdanning Hvordan anvender ledere i ulike organisasjoner ulik ledelsesatferd på bakgrunn

Detaljer

Universitetet i Oslo Institutt for informatikk. Transisjonsapp Ansvar for egen helse. Masteroppgave 60 poeng. Nora Svarverud Aasen

Universitetet i Oslo Institutt for informatikk. Transisjonsapp Ansvar for egen helse. Masteroppgave 60 poeng. Nora Svarverud Aasen Universitetet i Oslo Institutt for informatikk Transisjonsapp Ansvar for egen helse Masteroppgave 60 poeng Nora Svarverud Aasen 1. Mai, 2014 Nora Svarverud Aasen 2014 Transisjonsapp - Ansvar for egen helse

Detaljer

CREW en kasseringsmanual for bibliotek Oversatt og tilrettelagt for norske forhold av Jannicke Røgler

CREW en kasseringsmanual for bibliotek Oversatt og tilrettelagt for norske forhold av Jannicke Røgler CREW en kasseringsmanual for bibliotek Oversatt og tilrettelagt for norske forhold av Jannicke Røgler OBS! Ikke endelig versjon!!! Buskerud fylkesbibliotek Drammen, våren 2011 CREW: En kasseringsmanual

Detaljer

Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren?

Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren? Hvilke muligheter har regnskapsbyråer til å bli rådgivere i SMB-sektoren? av Anita E. Tobiassen Paul N. Gooderham SNF-prosjekt nr. 6300: Økt verdiskapning i SMB-sektoren: styrking av påvirkningen fra autoriserte

Detaljer

MILLIONÆRSKOLEN. http://pengeblogg.bloggnorge.com/

MILLIONÆRSKOLEN. http://pengeblogg.bloggnorge.com/ MILLIONÆRSKOLEN FORORD «Millionærskolen» var en serie innlegg som ble publisert på Pengeblogg i perioden november 2013 - desember 2014. Målet mitt med Millionærskolen var å formidle en rekke råd og tips

Detaljer

Distribuering av kunnskap i høyteknologiske organisasjoner

Distribuering av kunnskap i høyteknologiske organisasjoner Distribuering av kunnskap i høyteknologiske organisasjoner Johan Gudheim Hansen Master i informatikk Oppgaven levert: September 2007 Hovedveileder: Knut-Helge Ronæs Rolland, IDI Biveileder(e): Anders Christensen,

Detaljer

Prosjektering i forhold til bruk av BIM og lean

Prosjektering i forhold til bruk av BIM og lean Prosjektering i forhold til bruk av BIM og lean Hvordan BIM kan bidra til en mer leanorientert prosjekteringsfase Stian Kristiansen Veileder Bo Terje Kalsaas Masteroppgaven er gjennomført som ledd i utdanningen

Detaljer

Organisasjonskultur i TINE SA

Organisasjonskultur i TINE SA Bacheloroppgave 2011 Organisasjonskultur i TINE SA av 20196, 11812 Denne bachelor oppgaven er gjennomført som en del av utdannelsen ved Markedshøyskolen. Markedshøyskolen er ikke ansvarlig for oppgavens

Detaljer

KONSEKVENSER FOR FORVALTNINGEN AV PETROLEUMSFONDET DERSOM SPESIELLE MILJØHENSYN BLIR LAGT TIL GRUNN VED VALG AV INVESTERINGSSTRATEGI

KONSEKVENSER FOR FORVALTNINGEN AV PETROLEUMSFONDET DERSOM SPESIELLE MILJØHENSYN BLIR LAGT TIL GRUNN VED VALG AV INVESTERINGSSTRATEGI KONSEKVENSER FOR FORVALTNINGEN AV PETROLEUMSFONDET DERSOM SPESIELLE MILJØHENSYN BLIR LAGT TIL GRUNN VED VALG AV INVESTERINGSSTRATEGI Brev fra Norges Bank til Finansdepartementet 16. mars 1999 1. Innledning

Detaljer

VEILEDER I UTARBEIDING OG BRUK AV SPØRRESKJEMA I FORVALTNINGSREVISJON I RIKSREVISJONEN

VEILEDER I UTARBEIDING OG BRUK AV SPØRRESKJEMA I FORVALTNINGSREVISJON I RIKSREVISJONEN VEILEDER I UTARBEIDING OG BRUK AV SPØRRESKJEMA I FORVALTNINGSREVISJON I RIKSREVISJONEN Innholdsfortegnelse: 1. Innledning s.2 2. Når skal vi bruke spørreskjema? s.2 3. Hvem skal spørreskjemaet rettes til?

Detaljer

Bakgrunnen for at David Norton, Robert Kaplan og. «The Balanced Scorecard» mer enn et målesystem. Øyvind Husby Johan Løvlie

Bakgrunnen for at David Norton, Robert Kaplan og. «The Balanced Scorecard» mer enn et målesystem. Øyvind Husby Johan Løvlie FAGARTIKKEL Øyvind Husby er siviløkonom fra BI (1994). Han har 4 års erfaring fra revisjon og rådgivning, og jobber i dag som konsulent i KPMG Management Consulting innen områdene strategiutvikling og

Detaljer

System for nær sanntid ruteovervåkning

System for nær sanntid ruteovervåkning System for nær sanntid ruteovervåkning Fredrik Larsen Master i elektronikk Oppgaven levert: Juni 2006 Hovedveileder: Bjørn B. Larsen, IET Norges teknisk-naturvitenskapelige universitet Institutt for elektronikk

Detaljer

1. Nettverksteknologiske forutsetninger for e-handel

1. Nettverksteknologiske forutsetninger for e-handel Avdeling for informatikk og e-læring, Høgskolen i Sør-Trøndelag Nettverksteknologiske forutsetninger for e- handel Kjell Toft Hansen 16.07.2007 Lærestoffet er utviklet for faget LV377D e-handel 1. Nettverksteknologiske

Detaljer

Tiltrekker lav lønn bedre ledere?

Tiltrekker lav lønn bedre ledere? NORGES HANDELSHØYSKOLE Bergen, Vår 2014 Tiltrekker lav lønn bedre ledere? Betydningen av lønnsnivå for selvseleksjon av ledere med ulik prososial adferd av Ole Fredrik Sørensen Veileder: Alexander W. Cappelen

Detaljer

Matematikk på småskoletrinnet

Matematikk på småskoletrinnet Bokmål Kartlegging av matematikkforståelse Matematikk på småskoletrinnet Kartlegging av matematikkforståelse Bjørnar Alseth Matematikk på småskoletrinnet Utdanningsdirektoratet 1998 Trykk: GAN Grafisk

Detaljer

En sammenlikning mellom to prosjektstyringsmodeller, PROPS og PPS

En sammenlikning mellom to prosjektstyringsmodeller, PROPS og PPS En sammenlikning mellom to prosjektstyringsmodeller, PROPS og PPS Hovedoppgave utført høsten 1998 Av Stud. techn. Andreas Gaarder Institutt for produksjons- og Kvalitetsteknikk Norges Teknisk-Naturvitenskapelig

Detaljer