Dokumentuthenting og konvertering (for dummies) med fokus på Forum Winsak og Unique-suiten v/tormod Engebu, IKAVA KDRS 13. november 2013
Problemstilling Relativt ny i jobben (så «for dummies» gjelder mest meg selv..) Overtok et u-/an-tall java-kodesnutter fra tidligere ansatt (Lars Eivind) Ikke så fryktelig java-interessert, så har arbeidet med å få noe av dette over på.netplattformen.
Problemstilling Hadde mange Forum Winsak liggende med dokumenter i word-format. Etter en gjennomgang i forkant av et møte med en kommune viste det seg at disse dokumentene ikke var bra i det hele tatt.
Dokumentene var riktignok konvertert til PDF/PDFA, men innholdet var i mange tilfeller mangelfull. Fant flere dokumenter som var delvise dvs. manglet saksinnstillinger og andre såkalte subdokumenter. Fant flere dokumenter hvor det egentlige dokumentet var byttet ut med mottaker-listen for fletting. (Logikkfeil i tidligere konverteringsrutiner) Ved åpning av slike dokumenter i word var det mulig å gjøre en manuell jobb for å få hentet inn subdokumenter etc. Problemstilling
Illustrasjon 2 er fjernet av hensyn til personvern
Problemstilling Svaret : (Som i stort sett alle tilfeller med mye manuelt arbeide) AUTOMATISERING
Valg før implementering Valg av tekstbehandler Kunne gått open source med LibreOffice e.l. men valgte å automere MS Word, da dokumentene er produsert i MS Word, og da får mest mulig korrekt formattering. MS Word eksporterer til PDFA. Jada.. Vet at PDFA-konsortiumet river seg litt i håret over denne versjonen.. Men vi kommer ingen vei hvis vi skal produsere 100% korrekte filer til enhver tid.. Alternativt velge å lagre som PDF, og senere bruke en mer korrekt converter..
Første forsøk Rundt 30-40% av dokumentene ble konvertert. Grunner til feil: Passord på filer, evt. feil eller manglende passord. Deldokumenter i forskjellige mapper. UNC-paths til deldokumenter (en eller annen server i vertskommunen). Dvs. dokumentene finnes i avleveringen, men i feil mappe. Word tillater ikke endringer i mapping av deldokumenter. Dokumenter er låst av bruker (må åpnes read-only) Deldokument mangler..
Forenklet arbeidsflyt for Forum Winsak dokumenter Åpne fil Passord? Nei Ja Finn passord i databasen Åpne fil Masterdok? Nei Flettefelt? Nei Ja Ja Ekspander subdokumenter Foreta utskriftsfletting Lagre som PDF/PDFA
Resultatet etter mye tweaking PDF-filer blir produsert for nesten alle dokumenter. Noen passord mangler i databasen, og derfor kan ikke word-filene åpnes. (Råtne data i databasen) Noen filer er ødelagt (lar seg ikke åpne)
Illustrasjon fjernet av hensyn til personvern
Fortsatt utfordringer Bildet som logoer etc. er ikke alltid en del av malen. Noe formattering går tapt.
Tips Håndtering av feil plasserte deldokumenter (dvs. unc-path til dokument) Win XP -> Vanskelig. Måtte sette opp en maskin i nettet med samme navn som server. For eksempel ADMSERVER og lage et adminshare på denne hvor kopi av dokumentene ble kopiert inn. //ADMSERVER/FWSDOK$/. Win 7 -> Enklere å få til :
Opprette en «virtuell» server på nettet
Opprette en «virtuell» server på nettet Deretter er trengs det en restart. Det skal nå være mulig å nå \\servernavn\ på nettet (egen maskin / localhost vises..) Opprette et admin share for eksempel d:\fwsdok og kalle det fwsdok$
Unique Et antall systemer som har en liknende databasestruktur. (nesten..) Lagrer dokumenter i databasen i en tabell med navn *uqwidetab Tabellen har maksstørrelse på datafeltene, noe som betyr at store dokumenter er «span» et ut over flere rader i tabellen. Identifisert med lik id, og et løpenummer.
Illustrasjon fjernet av hensyn til personvern
Problemstilling Identifisere dokument-bolkene, hente de ut, sy de sammen, og lagre til et fornuftig format. Flere filformater representert. Notis WP Ren tekst RTF PDF Flere(?)
Forenklet arbeidsflyt for Unique dokumenter Åpne database og finn quwidetabtabell Les rad i database Flere rader med samme id Nei Ja Les neste rad Sjekk innhold Format kjent? Nei, velge filformat.txt Ja Foreta filforberedelser før lagring Lagre
Resultatet etter mye tweaking Alle dokumenter i databasen eksporteres til enten riktig format (rtf, pdf, word) Ukjente formater eksporteres til.txt. (Gjelder også Notis WP.
demo