Forprosjektrapport. Hovedprosjekt Gruppe 15

Like dokumenter
Kravspesifikasjon Innholdsfortegnelse

Forprosjekt Hovedprosjekt ved Høgskolen i Oslo Våren 2008

Forprosjekt. Høgskolen i Oslo, våren

Presentasjon 2 Gruppe 2 Oppgave 2 Oppdragsgiver 2. Sammendrag 3. Dagens situasjon 3 ServiceNow 3 Coop 3. Mål og rammebetingelser 3 Mål 3 Teknologier 4

1 Forord. Kravspesifikasjon

Forprosjektrapport. Hovedprosjekt for gruppe 13, Anvendt datateknologi våren 2016

Bachelorprosjekt i informasjonsteknologi, vår 2017

Artist webside. Gruppe medlemmer Joakim Kartveit. Oppdragsgiver Tetriz Event & Management. Frode Mathiesen. Gry Anita Nilsen.

Forprosjektrapport. Gruppe 34. Magnus Dahl Hegge s153549

Testrapport Prosjekt nr Det Norske Veritas

Hovedprosjekt 2014, Høgskolen i Oslo og Akershus

AVD. FOR INGENIØRUTDANNING. Prosjektrapport. NewsOCR: Et system for tekstgjenkjenning av bilder

Granitt Grafisk AS Kravspesifikasjon Gruppenr:

Kravspesifikasjon. Aker Surveillance. Gruppe 26 Hovedprosjekt ved Høgskolen i Oslo og Akershus. Oslo,

HOVEDPROSJEKT HIO IU - DATA FORPROSJEKTRAPPORT GRUPPE 18

FORPROSJEKT BACHELOROPPGAVE 2018 KATRINE ALMÅS GINELLE ZAPANTA IGNACIO CHRISTINE LANGELO LIEN FREDRIK NODLAND

Forprosjektrapport. Høgskolen i Oslo Våren Dr.Klikk. Gruppe 25. Håkon Drange s Lars Hetland s127681

Forprosjektrapport. Gruppe 3, Anvendt Datateknologi våren 2016

Forprosjekt. Accenture Rune Waage,

Hovedprosjekt i Informasjonsteknologi ved Høgskolen i Oslo og Akershus. Forprosjektrapport. Presentasjon

Kravspesifikasjon. 1. Innledning. Presentasjon. Innledning. Om bedriften. Bakgrunn for prosjektet

Forprosjektrapport for Agresso R&D Ansettelsessystem Hovedprosjekt våren Skrevet av:

GJENNOMGANG UKESOPPGAVER 9 TESTING

Forprosjekt for Accentures Overvåkningssystem

Hovedprosjekt. Høgskolen i Oslo data/informasjonsteknologi våren 2011 Forprosjektrapport. K-skjema og ferie kalender

Forprosjektrapport Gruppe 30

Kravspesifikasjonsrapport

Forprosjektrapport. Gruppe Januar 2016

Forprosjektrapport ElevApp

Hovedprosjekt i data ved Høgskolen i Oslo våren 2007

Forprosjektrapport. ERTMS Driver Interface simulering. ERTMS Driver Interface simulering. Alexander Yngling

Hovedprosjekt i data ved Høgskolen i Oslo våren 2007

Forprosjektrapport MetaView

Studentdrevet innovasjon

Dokumentasjon. Prosjektdagbok Timelister. Rolled Up Task. Rolled Up Milestone. Rolled Up Progress. Split. Page 1

Høgskolen i Østfold. Forprosjektrapport. Forprosjektrapport. Hovedoppgave gruppe B14E03. Thomas Moe og Irfan Mohammadi vår 2014

Forprosjektrapport. Feilsøkingsverktøy for Homebase AS INNHOLD

Tema: Oversikt over ansatt, rom, datamaskin, skjerm, software, hardvare og tilkoblingsanlegg.

Kravspesifikasjon. Utvikling av moduler til CMS for bonefish.no. Gruppe 08-23

Forprosjektrapport Bacheloroppgave 2017

Bachelorprosjekt 2017

FORPROSJEKT. Gruppemedlemmer: Raja Zulqurnine Ali Muddasar Hussain (Gruppeleder/Prosjektleder) Zain-Ul-Mubin Mushtaq Christopher Llanes Reyes

Læringsmål og pensum. v=nkiu9yen5nc

Forprosjektrapport. Bachelorprosjekt i informasjonsteknologi ved Høgskolen i Oslo og Akershus, våren Digitalisering av Sentralen UNG Gründer

Forprosjekt. Oppgdragsgiver Unikia, Lille grensen 7, 0159 Oslo, Kontaktperson Anders Kose Nervold,

1. Forord 2. Leserveiledning

Gruppedeltagere: Bjørn H. Haugstad, Bjørn J. Jensen, Trond E. Kaxrud og Kim A. Sæther

Dagbok. Januar. Uke 2 ( ) Uke 3 ( ) Uke 3 (17.01, 12:45-14:00)

FORPROSJEKT KIM LONG VU DUY JOHNNY KHAC NGUYEN ADRIAN SIIM MELSOM HÅKON THORKILDSEN SMØRVIK

CORBA Component Model (CCM)

TDT4110 Informasjonsteknologi grunnkurs: Kapittel 1 Introduksjon til Programmering og Python. Professor Alf Inge Wang

Forprosjektrapport. Hovedprosjekt i Informasjonsteknologi. Høgskolen i Oslo og Akershus. Våren 2016

Testsituasjon Resultat Kommentar. Fungerer som det skal!

PROSESSDOKUMENTASJON

Høgskolen i Oslo og Akershus. Forprosjektrapport. Gruppe 11

Gruppe 44. Bachelorprosjekt ved Institutt for informasjonsteknologi, våren Høgskolen i Oslo og Akershus,

Gruppelogg for hovedprosjekt 2009

Introduksjon til programmering og programmeringsspråk. Henrik Lieng Høgskolen i Oslo og Akershus

Forprosjektrapport. Universelt LæringsVerktøy (ULV) Å lage en læringsplattform som tilfredsstiller alle krav til universell

Kravspesifikasjon. Leserveiledning Kravspesifikasjonen består av følgende deler: Presentasjon Om bedriften

Forprosjektrapport. Presentasjon. Oslo, den 29. Januar Gorm Eirik Svendsen Nicolai Mellbye Marius Auerdahl Per Gustav Løwenborg

Hovedprosjekt i data ved Høgskolen i Oslo våren 2007

Digitale domstoler. Enkel og praktisk innføring i å lage og bruke digital dokumentsamling

Hovedprosjekt i Informasjonsteknologi 2016 Høgskolen i Oslo og Akershus. Forprosjektrapport. Bravo Booking App

Kravspesifikasjon Hovedprosjekt ved Høgskolen i Oslo Våren 2008

Hovedprosjekt 2011 HO912A. Securitas IT portal. Forprosjektrapport. Adeel Yousaf Khan s Mats Klingenberg Naustdal s Stig Arild Ysterud

Forprosjekt - Gruppe 12. Hovedprosjekt av

Kravspesifikasjon MetaView

Vi som står bak prosjektet er Eirik Krogstad og Petter Hannevold. Vi har gjort et prosjekt sammen med Microbial Evolution Research Group (MERG) ved

DAGBOK. Patrick - Opprettet blogside for å kunne legge ut informasjon om hva som skjer underveis i prosjektet.

Samdok samla samfunnsdokumentasjon

OREGO. Bacheloroppgave. Orego Obligatorisk registrering av oppmøte. Morten og Tor Kristian

Veiledning og vurdering av Bacheloroppgave for Informasjonsbehandling

Forprosjektrapport. Medlemsdatabase for Amnesty International Juridisk Studentnettverk. Høgskolen i Oslo og Akershus

Repository Self Service. Hovedoppgave våren 2010

Forprosjektrapport. Gruppe 31

Presentasjon Sammendrag Dagens situasjon Mål og rammebetingelser Moduler Løsning og alternativer...

Forprosjektrapport Sikkerhetskultur i IKT driftsorganisasjon

Prosjektrapport Gruppenr FigureGame 3.0

fleksibilitet når det gjelder geografisk plassering og etablerte arbeidsrutiner. Qubic cms

Institutt for informasjonsteknologi, Høgskolen i Oslo og Akershus, våren Camilla Kaasi(s188070) Roza Moustafa(s188113)

KRAVSPESIFIKASJON DAGSPLANAPPLIKASJON FOR NETTBRETT. Gruppe 28 Hovedprosjekt våren 2015

Utvikle en prototype for en digital versjon av helsekort for gravide. Programvareleverandør av ehelse-løsninger for helsevesenet

Skøyen, Gruppe 11

Forprosjekt gruppe 13

Kravspesifikasjon. Forord

Forprosjektrapport. Presentasjon. Studentgruppen. Bekk Consulting AS. Android app for aktivering av jakt- og fiskekort

HOVEDPROSJEKT I DATA VÅR 2011

Dette dokumentet er en produktrapport for vårt avsluttende hovedprosjekt våren 2008 ved høgskolen i Oslo, for ingeniør - avdelingen.

Forprosjektrapport. Bachelorprosjekt i informasjonsteknologi ved Høgskolen i Oslo og Akershus, våren Pillbox Punchline

Del VII: Kravspesifikasjon

RF-fjernkontroll for South Mountain Technologies

InfoRed Publisering. - produktbeskrivelse. TalkPool WebServices Postboks Åneby

Oversikt. Informatikk. INF1000: Grunnkurs i objektorientert programmering. Utenom INF1000 Informasjon & hjelp

Gruppe Forprosjekt. Gruppe 15

Veiledning. levering av avdragsnota på elektronisk format. februar Beskrivelse av avdragsnota på digitalt format basert på NS 3459

Alle skal kunne teste alt - overalt KDRS TRONDHEIM JUNI 2017

Prosjekt Tale gjenkjenning på Nor sk. Et Inkluderende arbeidsliv med talegjenkjenning

Testrapport. Aker Surveillance. Gruppe 26. Hovedprosjekt ved Høgskolen i Oslo og Akershus. Oslo, Public 2013 Aker Solutions Page 1 of 5

Forprosjektrapport. Sammendrag. Hovedoppgave våren 2019 Gruppe 3

Transkript:

Forprosjektrapport Hovedprosjekt Gruppe 15 Erlend Gunnesen, Lars Sætaberget, Are Inglingstad, Marius Maudal 25.02.2014

Innholdsfortegnelse 1.Introduksjon... 2 1.1 Medlemmer:... 2 1.2 Oppdragsgiver:... 3 1.3 Kontaktsperson hos Retriever:... 3 1.4 Veileder:... 3 1.5 Presentasjon av arbeidsgiver... 3 2. Sammendrag... 3 3. Dagens situasjon... 4 4. Mål og rammebetingelser... 4 4.1 Mål... 4 4.2 Rammebetingelser... 4 4.2.1 Prosjekt... 4 4.2.2 Teknisk... 5 5. Løsninger/alternativer... 5 5.1 Tesseract... 5 5.2 Leksikalsk Analyse... 6 5.3 Ytelse og programmeringspråk... 6 6. Analyse av virkninger... 6 1. Introduksjon Vi er en gruppe på fire på Høgskolen i Oslo som har fått en oppgave av Retriever om å lage et bildeanalyseverktøy. 1.1 Medlemmer: Lars Sætaberget Erlend Gunnesen Marius Maudal Are Inglingstad

1.2 Oppdragsgiver: Retriever Norge AS Langkaia 1 0101 Oslo +47 229 10 350 post@retriever.no 1.3 Kontaktsperson hos Retriever: Silje Charlotte Brekke Morten Johnsen 1.4 Veileder: André Lincoln Read +47 412 68 262 andre@asio.no www.asio.no 1.5 Presentasjon av arbeidsgiver Retriever AS er ett firma som jobber med innhenting av nyhetsinformasjon for bedrifter. De henter inn informasjon fra websider, aviser, tv-sendinger og lignende. Hensikten er at bedrifter skal kunne holde seg oppdatert på all nyhetsinformasjon. Firmaer har egne søkestrenger tilpasset sitt informasjonsbehov. Retriever ønsker å bli det naturlige valget for bedrifter når det kommer til informasjonsinnhenting i Norden. 2. Sammendrag Formålet med prosjektet er å automatisere uthenting av tekst fra tv-bilder. Løsningen vil bli skrevet i java. For å få til løsningen må vi ha flere deler som jobber sammen. Data blir hentet fra bilder. Deretter behandles bilde for å fremheve kontrasten til teksten. Dataen sendes så til Tess4J som er et dekodingsverktøy for java til Tesseract. Informasjonen blir så sendt tilbake til en leksikalsk analyse, som skal kontrollere at teksten vi henter ut er korrekt. Ved feil på ord i teksten vil dette bli markert i XML filen som lages.

3. Dagens situasjon Retriever leier i dag inn tjenester fra ett eksternt selskap for å få skrevet inn artikler manuelt i XML format. I dagens automatiserte samfunn er dette en veldig primitiv løsning. Det medfører også ekstra kostnader som Retriever ønsker å bli kvitt. Ved vår løsning kan da Retriever spare betraktelig med både tid og penger. 4. Mål og rammebetingelser 4.1 Mål Målet med dette prosjektet er å automatisere tekstgjenkjenning på bilder. Oppdragsgiver ønsker en løsning som fungerer med 100% sikkerhet. Løsningen skal kjøres på kommandolinje i Linux uten GUI. Gruppen kan selv velge programmeringsspråk så lenge det fungerer i Linux. Programmet skal kjøres så raskt som mulig. Hvis gruppen ikke klarer å få til løsningen 100% skal det være en feilsjekk som informerer om hvilke deler av XML file som er feil. Feilrapportering må være veldig sikker da feil i dette kan medføre at feilrapporteringer ikke blir håndtert. Det viktigste for Retriever er at programmet skal fungere med deres systemer og ha muligheter for videreutvikling av enten gruppen eller oppdragsgiver. 4.2 Rammebetingelser 4.2.1 Prosjekt Tid og rammebetingelser: Statusrapport ble ferdigstilt 25.10.13 Prosjektskisse ble ferdigstilt 21.01.14 Forprosjektrapport ble ferdig 24.03.14 Prosjektet skal være ferdig 27.05.15 Presentasjon av prosjektet foregår tidlig i juni Egne mål og rammebetingelser:

Ved dette prosjektet skal vi lære seg åssen systemutvikling fungerer i arbeidslivet. Hensikten er at vi skal få praktisk erfaring. Vi må ved dette prosjektet sette oss inn i veldig mye nye systemer og tekniker som vi ikke har hatt erfaring med fra skolen. 4.2.2 Teknisk Programvare: Programmet skal kjøre i Linux-miljø Programnavn skal utvikles i Java Programnavn skal utvikles i standard JRE 1.7 Annet: Oppdragsgiver vil supplementere med testmateriell som skal brukes i et privat testmiljø. Reel testdata er viktig for å få ett best mulig testmiljø. Vi kan da få testet hvor bra programmet håndterer den store mengden med data. Oppdragsgiver vil gi oss en arbeidsplass på deres lokaler for å kunne ha god oppfølging av kontaktpersonene. 5. Løsninger/alternativer Én løsning vi ser for oss er en wrapper bestående av en xml-skriver, filfeeder, tekstsammenligner, bildebehandler og -analysemotor. 5.1 Tesseract Vi ser for oss en løsning rundt opensource OCR-motoren Tesseract. Da vi planla mulige framgangsmåter/løsninger så fant vi ut at Tesseract ville gi oss de beste tekstgjenkjenningsmulighetene, samtidig som den er opensource og har vært i bruk lenge. Det vi ønsker å gjøre er å bygge vårt system rundt denne motoren (en wrapper), som laster inn bilder, behandler de med skalering/binærisering/kontrastjustering og mater de til Tesseract.

5.2 Leksikalsk Analyse Videre så må resultatene vi får behandles videre i en leksikalsk analyse og skrives til XML. Grunnen til at vi må ha en leksikalsk analyse er fordi flere bilder fra en nyhetssending kan inneholde den samme informasjonen flere ganger. Planen blir å kjøre ordboksjekk på ordene vi får fra tekstgjenkjenningsdelen. 5.3 Ytelse Det stilles også krav til ytelse, men vi tror at selve tekstgjenkjenningen vil ta lengst tid, og derfor kan vi skrive vår løsning i et språk som f. eks. Java, og evt. oversette til et raskere språk (C++) senere hvis det er tid og behov. Et annet viktig poeng er at Java er det språket vi er mest komfortable med, og det er viktig at vi får ting til å fungere tidlig nok, slik at vi har tid til å debugge og rapportere. Vi har naturligvis tenkt å lage støtte for multithreading, siden det vil redusere bildebehandlingstiden betraktelig. Skopet i oppgaven er lite, men vi må bruke mye tid til å optimalisere treffsikkerheten ved å justere bildebehandlingsalgoritmene. 6. Analyse av virkninger Vi har bevisst vært litt vage når det kommer til løsningen, da vi beveger oss i meget ukjent farvann. Vi er avhengig av å finne de spesifikke løsningene til problemene mens vi jobber. 6.1 Tesseract Hovedgrunnen til at vi skal integrere Tesseract i vår løsning er at det er meget tidsbesparende for oss å ikke lage en egen løsning. Tesseract er som tidligere nevnt open source og kan brukes til kommersielt bruk som er en stor fordel hvis oppdragsgiver velger å bruke vår løsning. 6.2 Leksikalsk Analyse Den leksikalske analyse vil bli laget med utgangspunktet i norsk, svensk og dansk. Det er viktig at vi koder den så den lett har mulighet for utvidelse til flere språk. Analysen vil antagelig bli en av de delene med mest utvidelsesmulighter. Vi vil mest sannsynlig ikke ha tid til få på plass større ting som setningsanalyse i koden. Målet til analysen blir å avdekke dobbelt informasjon og feil i ordene. Vi kan risikere å miste informasjon hvis den leksikalske analysen ikke fungerer korrekt. 6.3 Ytelse Ytelsen er et punkt som alltid kommer til å ha forbedringspotensial. Vi har i vår løsning dekket fremtidige endringer i programmet som kan øke ytelsen. Disse punktene konkluderer tankene vi har hatt rundt prosjektet. Sammen med kravspesifikasjonen utgjør dette dokumentet en grov skisse om hvordan vi tenker at programmet skal bli laget. Vi er avhengig av god dokumentasjon av løsningene vi finner underveis.