Big is Beautiful Refleksjoner knyttet til forretningsmessig utnyttelse av store datavolumer Oslo 18. April 2013 Bo Hjort Christensen Sivilingeniør/Bedriftsøkonom Høyskolelektor/Associate Dean Handelshøyskolen BI Institutt for ledelse og organisasjon Bedriftsrådgiver BHC A/S bo.h.christensen@bi.no 1
Ord for dagen Fra tradisjonell analyse på håndterbare volumer til vitenskapelig analyse på «uhåndterbare» volumer Teksten ble bl.a. brukt av Steve Jobs under den legendariske lanseringen av den første personlige datamaskinen fra Apple,- MacIntosh, den 24. januar 1984 2
Utgangspunktet Nettskyen, sosiale nettverk, økt mengde digital informasjon og mobilitet gjør at selv nylig utviklede IKT-arkitekturer i dag framstår som avleggs (Gartner 2011). Transaksjonssystemene (det gamle grunnfjellet ) 3 Transaksjonssystemene: Visma Enterprise Agresso SAP Oracle Microsoft m/flere
IDC; Bedriftenes IT-prioriteringer i 2012 4
The information Bomb ; Paul Virilio (2005) Den franske Filosofen Paul Virilio (1932-) advarer mot kommunikasjonsteknologiens komprimering av tidrommet. Fremveksten av bl.a. moderne kommunikasjonsteknologi som mobiltelefoner og internett har resultert i at det ikke lenger finnes forsinkelser. Pausene, mellomrommene, ventetiden er borte. Dermed kreves umiddelbare beslutninger overalt, kan hende med dramatiske konsekvenser. Aktør A Aktør B Krav til bedret reaksjonsevne
Målet Systemene i seg selv er infrastruktur Anvendelsen kan derimot ha strategisk betydning Dataene i sin originale form er en ressurs, en råvare. Bearbeidet informasjon kan derimot ha strategisk betydning
Bedriftsintelligens Kapasiteten til å kunne eller forstå Beredskap for oppfattelse Hvor godt forstår hver ansatt og hele organisasjonen de krefter som driver lønnsomheten og skaper fremtiden? (Liautaud: e-business Intelligence Turning Information into Knowledge into Profit) 7
De «gamle» metodene
Målet er ganske klart Ledere ønsker å fatte beslutninger basert på faktum, dvs. et datagrunnlag som, så langt det er mulig, reflekterer sannheten. Slik forskeren alltid har som mål å bygge kunnskap basert på gode dataanalyser. Vi snakker for eksempel om: Validitet Signifikans Sannsynlighet 9
Hva snakker vi egentlig om? Volumdrivere Sosiale medier og Internett Samhandling Sensorer samler data I produksjonsprosessene Flere detaljer er knyttet til hver forretningstransaksjon Volum Terabytes Petabytes Exabytes Zettabytes Datatyper Strukturerte data Ustrukturerte data Analysekraft Real tid + Responsivitet In Memory Datavisualisering Grafisk fremstilling Lagring Distribuert 10
Big Data An airline jet collects 10 terabytes of sensor data for every 30 minutes of flying time New York Stock Exchange collects 1 terabyte of structured trading data per day 11
Yottabyte 12
Definisjonen Big data usually includes data sets with sizes beyond the ability of commonly used software tools to capture, curate, manage, and process the data within a tolerable elapsed time Big data sizes are a constantly moving target, as of 2012 ranging from a few dozen terabytes to many petabytes of data in a single data set. With this difficulty, new platforms of "big data" tools are being developed to handle various aspects of large quantities of data. Wikipedia 13
Grupper av data Basert på transaksjonsdata, dvs. formaliseringer av forretningshendelser (Business Events) Basert på adferdsdata, for eksempel i en web-shop eller et nettsted. Basert på samhandlingsdata, for eksempel e-poster, tweets etc. Basert på maskindata, dvs. det som på fagspråket blir håndtert av Manufacturing Execusion Systems (MES) Basert på Internettdata, dvs. det store informasjonshavet som vi daglig beveger oss i. Basert på kombinasjoner av disse.
De «nye» metodene Tradisjonell BI Big Data BI Strukturert og repeterende analyse Iterativ og utforskende analyse
Utnyttelse og verdi av Big Data varierer fra bransje til bransje 16
ACID og NoSQLdatabaser Big Data er ofte et spørsmål om håndtering av data som ikke naturlig passer inn i en relasjonsmodell. Dette krever andre lagringsformer som enkelt kan betegnes som nosql database. Google: BigQuery Microsoft: SQL Server 2012 HDInsight Oracle: Oracle NoSQL Database Apache: Hadoop SAP: HANA Big Data er ofte et spørsmål om håndtering av store datamengder lagret i distribuerte databaser, der hver enkelt databasenode er seg selv nok. Dette krever verktøy for å sikre kvalitet i databehandlingen. At databasen er ACIDcompliant er derfor en viktig kvalitetsfaktor
Teknologiaktørene SAP Fast 18
Eksempel; QlikView 19
Enterprise Hadoop Solutions Apache Hadoop is 100% open source, and pioneered a fundamentally new way of storing and processing data. Instead of relying on expensive, proprietary hardware and different systems to store and process data, Hadoop enables distributed parallel processing of huge amounts of data across inexpensive, industry-standard servers that both store and process the data, and can scale without limits. With Hadoop, no data is too big. And in today s hyper-connected world where more and more data is being created every day, Hadoop s breakthrough advantages mean that businesses and organizations can now find value in data that was recently considered useless. 20
SAP HANA (sitater) Go beyond OLAP analysis. With our in-memory computing platform, SAP HANA, you ll have the ability to run big data analytics on 80 terabytes of data, integrate with Hadoop, search text content, harness the power of real-time predictive analytics, and more. Analyze hundreds of billions of rows in seconds, not days Exploit unstructured data such as text, documents, Web, and social media content Deliver predictive insight with in-database data mining Leverage open source R analytic processing Integrate with Hadoop environments 21
Hva snakker vi egentlig om? 22
Informasjons- og datavisualisering 23
Oppsummert 24