Bruk av data kan deles i data for transaksjonsbruk og data for analyse bruk:



Like dokumenter
DT4300 Datavarehus og datagruvedri3

Datavarehus hva er det?

Datavarehus hva er det?

Databearbeiding direkte i memory på LASR server nye muligheter? Trond Holmen, SAS Institute

Migrering hos Gjensidige Bank. 9. februar 2011 Ellen Aaslund - Gjensidige Bank Knut Erik Terjesen - bwise

DATAVAREHUS PROSJEKTOPPGAVE VÅREN 1996

// PRESENTASJONER FRA NJAVA

Tilrettelegging av store datagrunnlag for analyse med SAS Scalable Performance Data Engine (SPDE) Steinar Helstrup 8.juni 2017

Datavarehus. Beslutningsstøttesystemer

TDT4300 Datavarehus og datagruvedri3, Våren 2014

Hvordan bedømmer Gartner de lange linjene?

Metoder og verktøy for overføring, analyse og tilgjengeliggjøring av digitalt arkivmateriale

Releasing the power of your data

Hvordan databasesystemene kan hjelpe RAM-produsentene

Feilsøking i BO. Olav Syse, konsulent. Jan Terje Hansen, service manager. Be business intelligent

som blanker skjermen (clear screen). Du får en oversikt over alle kommandoene ved å skrive,

DEN DIGITALE TRANSFORMASJONEN AV NAV - DRIVERE, UTFORDRINGER OG ERFARINGER

Ad Hoc. Hvordan forberede for det utforutsette? bwise Software Thomas Schøyen

BI ON THE CHEAP. Mark Griffiths Griff & Jones Ltd.

IBM DB2 Universal Database. Opplæring i Business Intelligence

Hvorfor starte fra bunnen?

En kort presentasjon av

Datavarehus og Data Mining. Helge Rege Gårdsvoll og Lasse Bache-Mathiesen NTNU

SAP HANA 1.0 er her Hva nå?

INF1300 Introduksjon til databaser

A Study of Industrial, Component-Based Development, Ericsson

IBM DB2 Universal Database. Opplæring i Business Intelligence

OM DATABASER DATABASESYSTEMER

2. Beskrivelse av mulige prosjektoppgaver

Til tross for den voldsomt utbredte bruken av regneark, håndteres kun en brøkdel av organisasjonenes beslutningsstøtte (business intelligence) behov.

IT Service Management

Profitbase InFront. Riktig informasjon til rett tid og sted som grunnlag for riktige beslutninger!

SAS Forum Norge 2011

Copyright 2010, SAS Institute Inc. All rights reserved.

«Ny teknologi, nye muligheter, bedre beslutninger»

Spørsmål og svar til Konkurransegrunnlag

Business Intelligence for SMB

Innstallasjon og oppsett av Wordpress

En robust BI-løsning; hva må til?

Databaser & objektorientering.

Databaser fra et logikkperspektiv

Erfaringer og eksempler fra Nord-Europas største implementering av SAP BPC for konsolidering. Stig Skoglund Leading Consultant Statoil

Din verktøykasse for anbud og prosjekt

Controller Brukerstøttedatabase Ottar Holstad/Cantor 09.

Økonomisk perioderapportering (XLrapporten)

To RDF or not to RDF Fagdag om Noark 5 og RDF

1. SQL server. Beskrivelse og forberedelse til installasjon

GeWare: A data warehouse for gene expression analysis

NextBridge referansen innen Business Intelligence

Store data til dem som trenger det

Visma Rapportering og Analyse Selvbetjente rapporter som dekker behovene til hele bedriften

Operasjonalisering av AI - "Risikobasert tilnærming" Presentasjon "AI / data science i offentlig sektor"

1. SQL datadefinisjon og manipulering

ITGK - H2010, Matlab. Dagens tema : Teori - Databaser

Social Network Analysis. Process Capability Analysis. Vector Autoregressive Models. Discrete Event Simulation. Decision Trees. Psychometric Analysis

Installere konverteringsprogrammet. Innholdsfortegnelse

Sammendrag. Utnyttelse av datavarehus ved monitorering av kjøretøy

Innholdsfortegnelse. 1. Innledning Ordliste og forklaring av begrep Dagens situasjon Mål og behov...

Hvordan komme langt med lite? NMBU Innsikt - Ledelsesinformasjonsverktøy for NMBU Digitaliseringskonferansen for høyere utdanning og forskning,

Oppgave 1 (Opprett en database og en tabell)

UTFORDRINGER VED BRUK AV SELVBETJENTE ETTERRETNINGSVERKTØY F

Flytte Lønn 5.0 fra SQL 2000 til SQL 2005 / 2008

Kunde og BI leverandør hånd i hånd - eller..? Anders Hernæs / ah@ravnorge.no Lars- Roar Masdal / lrm@ravnorge.no

Konvertere fra System 4. Innhold

Fri Lønnsrapport er et verktøy for å lage og kjøre ut egendefinerte rapporter. Rapporten startes fra Rapporter Fri lønnsrapport Utskrift

Huldt & Lillevik Lønn 5.0

Business Intelligence og Datavarehus

Microsoft Dynamics C5 Version 2008 Oversigt over Microsoft Reporting Services rapporter

En lett innføring i foreninger (JOINs) i SQL

Prosjektoppgave: Bildedatabase. TDT4145 Datamodellering og Databasesystemer. Våren 2007

Generell Feide-arkitektur

INF1300 Introduksjon til databaser

Spørsmål og svar til Konkurransegrunnlag

BI4Dynamics Business Intelligence

Metadata for samordning og samhandling

Programvareutvikling hos Sun Microsystems. Jørgen Austvik Sun Microsystems Database Technology Group

Bruk av Scrum i BI-prosjekter

Hovedfagspresentasjon. Preprosessing Large Scale Linear Systems

NORSK SAMFUNNSVTENSKAPELIG DATATJENESTE AS. Database for statistikk om høgre utdanning (DBH)

System integration testing. Forelesning Systems Testing UiB Høst 2011, Ina M. Espås,

SQL Server guide til e-lector

Data Governance SAS FANS

Prosedyrer. Lars Vidar Magnusson. October 26, Lars Vidar Magnusson () Forelesning i DAS October 26, / 19

Automatisering av uttrekk fra bevarte databaser

Introduksjon til fagfeltet

1. Introduksjon til databaser

Et smartere NAV. Make data smart again. Jonas Slørdahl Skjærpe

Kunnskapsorganisasjon og gjenfinning 1. Relasjonsmodellen og -databaser

Ulike DBMSer. Mest kjente: Oracle PostGreSQL* MySQL* SQLServer* DB2 SQLite Access (DBMS og utv. verktøy i ett) *Skal benyttes i kurset.

Bruk av datavarehus i beslutningsprosesser

5602 DATABASER Bokmål/nynorsk. 17 (inkludert denne forsiden) Eksamensresultatene blir offentliggjort på Studentweb.

NextBridge referansen innen Business Intelligence

VEILEDNING. Webrapporter

Profitbase AS. Kursoversikt 1H

360 Management Reporting. Jørn Ivar Fjeldstad, Affecto

For kunder som kjører Huldt & Lillevik Reise 1.3 på Access database

Information Management: Enterprise Data Governance & Master Data Management

Forprosjektrapport. Feilsøkingsverktøy for Homebase AS INNHOLD

Forprosjektrapport for Agresso R&D Ansettelsessystem Hovedprosjekt våren Skrevet av:

Brukerveiledning for Intelligent Converters MySQL Migration Toolkit IKA Trøndelag IKS 2012

Transkript:

Datavarehus Hva? Et datavarehus er en samling av data lagret slik at de egner seg for analyse f.eks. trendanalyse, konkurranseanalyse, kundeanalyse og annen form for markedsanalyse (mest vanlig bruk) analyse f.eks. i forbindelse med forsikring og -premier data f.eks. i forbindelse med geologiske data etc. kort sagt: beslutningsstøtte på en eller annen måte. Karakteristika: ofte mye data samlet opp over et lenge tidsrom. fra ulike kilder summer er ofte viktigere enn enkeltdata separat fra den vanlige driftsdatabasen NB! Warehouse = lagerhus, ikke "supermarked". Data Warehousing: A subject-oriented, integrated, time-variant, and non-volatile collection of data in support of management s decisionmaking process (Inmon, 1993) Bruk av data kan deles i data for transaksjonsbruk og data for analyse bruk: OLTP - On Line Transaction Processing OLAP - On Line Analytical Processing. Det er her Datavarehus kommer inn. Datavarehus. Utgave 20.09.11 1

Hvordan - planlegging - svært forenklet: Planlegging: Klargjøre hensikten med datavarehuset Klargjøre størrelsen og omfanget av datavarehuset Lage felles mønster fra heterogene systemer og kilder (felles metadata). Blir et supersett av alle kilder - ofte med i utgangspunktet inkompatible data. Ofte nødvendig med surrogatnøkler m.m. Laging av datavarehus-datamodell (ofte dimensjons-og faktatabeller, ofte denormalisert, summeringer m.m.) Tabell_1 (gjerne med summer) Tabell_2 (gjerne med summer) Tabell_n (gjerne med summer) Dimensjonstabeller, ofte denormalisert Tabell med fremmednøkler + ett faktum (gjerne et tal, f.eks. antall). Tid er ofte en av dimensjonene. Faktatabell: MYE data, på enkel form. Lage regler for vasking/rensking av data Lage regler for selve overføringen (når, hvorfra, samme/ulike data de ulike gangene, samtidighetsspørsmål) Lage regler for bruk, bl.a. adgangskontroll Skal data noen gang slettes fra datavarehuset, skal de i tilfelle overføres til summer? Hvilke spørringer vil være de typiske NB! Alt dette henger sammen og må betraktes samtidig Datavarehus. Utgave 20.09.11 2

Dimensjonsmodellering. Det å lage en slik struktur kalles ofte for dimensjonsmodellering. En del faktorer innen dimensjonsmodellering: må ofte ta hensyn til tidligere strukturer, f.eks. varegrupperinger som ikke finnes lenger - hvorledes transformere disse må ta hensyn til endringer i framtiden må ofte ta hensyn til ulike kilder, f.eks. fra sammenslåtte firmaer inkommensurable (usammenlignbare) størrelser, evt. konvertering av størrelser granulariteten av data det skal stadig fylles på med data, ingen data skal bort, men må muligens aggregeres etter hvert. Er nyere data viktigere enn gamle? bruken av data blir viktig, f.eks.: skal man ha med salgssted i et med et datavarehus for et grossistfirma eller ikke. må også ta hensyn til presentasjon av dataene, f.eks. grafisk etc. stjerne - de-normalisering (mest vanlig: nedflating av et hierarki) er nødvendig for å få rask analyse, og er ufarlig, fordi data kun er generert fra (forhåpentligvis) konsistente strukturer. "snøflak" - når man ikke kan/bør denormalisere mye stjerneflak - blanding størrelse, omfang og bruk: "data warehouse" vs. "datamart" Altså: å bygge et datavarehus er temmelig forskjellig fra å bygge en normalisert, bruks/applikasjons-uavhengig database for mindre datamenger. Datavarehus. Utgave 20.09.11 3

Hvordan arbeide med et datavarehus - laging og bruk svært forenklet: Kilde-1 (ofte fra operasjonelle data) Kilde-2 Kilde-3 ekstraksjon rensing transformasjon (gjerne til fakta- og dimensjonstabeller, summering, etc.) lasting Datavarehus Bruk av et datavarehus Ad-hoc-spørringer Analyse Spørreparametre Svar - trendanalyser m.m. Kortform: ETL = Extract Transform - Load Datavarehus. Utgave 20.09.11 4

Organiseringsformer for data ROLAP Relational OLAP. Dataene lagres relasjonelt, dvs. som tabeller, med f.eks. et stjerneskjema som logisk modell. Bruker SQL (gjerne med utvidelser) som databasespråk. MOLAP Multidimensjonal OLAP (datakuber) Dataene lagres som kuber (dvs. på samme måte som 2-, 3- eller flerdimensjonale arrays i programmeringsspråk). Bruker spesialspråk i kombinasjon med SQL. Eksempel på dimensjoner 1 Kan godt være 4 eller flere dimensjoner, selv om det kan ikke tegnes. Tilsvarer multivariat analyse i statistikk Lite effektivt ved glisne data. HOLAP Hybrid OLAP. Kombinasjoner. ----------- NB! Systemene kan være laget slik at de fra brukernes side kan ses på som et MOLAP, men være ROLAP og motsatt. 1 http://www.idi.ntnu.no/emner/tdt4150/foilar/olap.pdf Datavarehus. Utgave 20.09.11 5

Noen variasjoner og begrep Datavarehus og datamarked Et datamarked (data mart) er en minivariant at et datavarehus. Bruk av Data Staging Area (stage = plattform, stillas) i stedet for å kjøre data rett over i et datavarehus, lager man en tradisjonell, normalisert relasjonsdatabase som inneholder alle data som skal inn i datavarehuset. Denne brukes så til å lage datavarehus (DW) eller data marts (DM). Dermed lettere å lage DW og DM mer på ad-hoc-basis. Kilde Kilde Kilde Kilde DSA DW DM DW. Data Mining: bruk av datavarehus til å oppdage skjulte sammenhenger, ofte ved å bruke statistiske og/eller heuristiske metoder Datavarehus. Utgave 20.09.11 6

Typisk bruk av datavarehus: multivariat analyse tidsserieanalyse "datadrilling" (drill down) "oppsummering" (drill up) God stuktur på datavarehuset kan være avgjørende for et firmas suksess eller ikke. Typer av verktøy: Vanlige databaseverktøy direkte. Tillegg til konvensjonelle databaseverktøy (f.eks. fra Oracle og Sybase), f.eks. for datadrilling. Egne analyseverktøy (SAS m.fl.) Andre rapporteringsverktøy Sammenligning mellom OLTP og Datavarehus (Connolly & Begg): OLTP Holds current data Stores detailed data Data is dynamic Repetitive processing High level of transaction throughput Predictible patterns of usage Transaction-driven Application oriented Supports day-to-day decisions Serves large number clerical/operational users Data warehouse systems Holds historical data Stores detailed, lightly and highly summarized data Data is largely static Ad-hoc, unstructured, and heuristic processing Medium to low level of transaction throughput Unpredictible pattern of usage Analysis driven Subject-oriented Supports strategic decisions Serves relatively low number of managerial users Datavarehus. Utgave 20.09.11 7

Sjekk http://www.oracle.com/pls/ebn/swf_viewer.load?p_shows_id=5671642&p_referred=undefined&p_width=800&p_heig ht=600 http://www.oracle.com/technology/products/warehouse/short_intro_to_owb10gr2/short_intro_to_owb10gr2_vie wlet_swf.html http://www.oracle.com/technology/products/warehouse/11gr1/presentations/owb11gr1-overview.ppt Søk etter begrepene: Business Intelligence ETL Data Mart OLAP data cubes Søk hos SAS Institute Oracle & datavarehus IBM & datavarehus Microsoft & datavarehus MySQL & datavarehus Pentaho. http://www.pentaho.com/products/demos/showntell.php?tab=demos. Pentaho brukerveildening Datavarehus. Utgave 20.09.11 8