Ge i r Berge 47. En d a t a s t r u k t u r f o r o rd b ø k e r f o r n a t u r lig e sp råk. 1. In n le d n in g



Like dokumenter
NORSK TEKSTARKIV J o s t e in H. Hauge

O v e rfø rin g fra s to rt a n le g g til m in d re a n le g g

K v in n e r p å tv e rs

Veiledning i bruk av Excel-fila Kalkulator. et verktøy for å beregne gjennomsnittlige gruppestørrelser.

Twelve Step Facilitation (TSF) Doktrogradsstipendiat JK Vederhus Avd. for rus- og avhengighetsbehandling, SSHF

3rd Nordic Conference of Computational Linguistics NODALIDA

Vurdering av utbyggingsprosjekter

Bioingeniørstudenters oppfatning om e-læring som forberedelse til laboratorieøvelser

Lokalitet: LM Sandstadsundet 0- prøve Tilstand 1

Frå prosjekt til ny skulekultur K V A F A K T O R A R B I D R E G T I L S U K S E S S F U L L I M P L E M E N T E R I N G

Økonomiadministrasjon ved Det matematisk-naturvitenskapelige fakultet. Rapport til Styringsgruppen fra Undergruppe for økonomi 26.

M iljø b il G re n la n d A S M iljø In n o v a s jo n A S

2. Å R S B E R E T N I N G O G R E G N S K A P F O R A ) Å r s b e r e t n i n g o g r e g n s k a p f o r

K j æ r e b e b o e r!

Lokalitet: OR Tilstand 1. «oppfølging»

S T Y R E T G J Ø R O P P M E R K S O M P Å A T D Ø R E N E S T E N G E S K L

REGISTER. I. Fremsendelse af Tjenestedokumenter.*)

Flertydige lovtekster

FAGKONFERANSE KONTROL L OG TILSYN GARDERMOEN JUNI A RSMØTE I FORU M FO R KONTROLL OG TILSYN 5. JUN I 2013

SalMar Farming AS Solværet

Geir Berge 47. En datastruktur for ordbøker for naturlige språk. 1. Innledning -

Næringsforeningen i Trondheim

K j æ r e b e b o e r!

P r in s ipp s ø k n a d. R egu l e r i ngsen d r i n g f o r S ands t a d gå r d gn r. 64 b n r. 4 i Å f j o r d ko mm un e

Lokalitet: Tristein Oppfølging

I N N K AL L I N G T I L O R D I N Æ R T S A M E I E R M Ø T E

Lokalitet: Hosenøyan «Maks produksjon»

Lokalitet: Brøran Ny lokalitet «0-prøve» Tilstand 1

B E S TE MME L S E R DE T ALJRE G U L ERI N G F O R S Ø VO L D

K j æ r e b e b o e r!

VIKTIG Å HUSKE MHT HUSORDENSREGLER

Innhold. Ka pit tel 1 Inn led ning Barn og sam funn Bo kas opp byg ning... 13

K j æ r e b e b o e r!

G r y R o g s t a d / s / S v e i n G u n n a r G as k a/ s / V i b e k e B e r t el s e n/ s /

B E R E G NI N G AV TR AFI K K STØ Y

INNKALLING TIL ORDINÆRT SAMEIERMØTE 2010

Tegnforklaring Oslo 01 GAMLE OSLO Tøyen kulturp. Kirsebærlunden Grasmark. 213 Grasbakke. 235 Buskfelt.

K j æ r e b e b o e r!


Pleie og omsorgsplan. Levanger kommune. Presentasjon for DK som styringsgruppe 12/

si1, }ll :i tl .nn -{i q il th; !9ft $.\ l l.i t- -l s i l l)l\ _1 L _!.1 '{'- l s -,,

I N N K A L L I N G T I L O R D I N Æ R T S A M E I E R M Ø T E

Sosialantropologisk institutt

K j æ r e b e b o e r!

I n n k a l l i n g t i l o r d i n æ r t s a m e i e r m ø t e

F r o d e E r i k s e n/ s / S v e i n G u n n a r G as k a/ s / R o a r L a u r i t z e n / s /

K j æ r e b e b o e r!


K j æ r e b e b o e r!

K j æ r e b e b o e r!

K j æ r e b e b o e r!

K j æ r e b e b o e r!

K j r e æ b e b o e r!

Inf or m asjonshef t e t il vikarer

K j æ r e b e b o e r!

K j æ r e b e b o e r!

FOLKETS PIMPER PØLSA!

INNKALLING TIL ORDINÆRT SAMEIERMØTE 2010

Sk ie n ko mm une. R EG UL E R I N GS B ES T E MM E L SER T I L D eta ljr e gu l e ri n g

I n n k a l l i n g t i l o r d i n æ r g e n e r a l f o r s a m l i n g

TYPE PLAN. E6 Gardermoen-Biri. Parsell Moelv - Biri. Ringsaker og Gjøvik kommuner. Tegningshefte. Nytt alternativ sør

Godkjenning av FMK C1 nød-/driftsåpning av type 2-C1-Emergency

Ny virkelighet Ny velferd

Strategiplan for FOLLO HÅNDBALL. Sesongen 2011/2012 Sesongen 2012/2013 Sesongen 2013/2014 Sesongen 2014/2015

Skogli Helse- og Rehabiliteringssenter AS Program for HSØ ytelsesgruppe B

Sosialantropologisk institutt

I n n k a l l i n g t i l o r d i n æ r t s a m e i e r m ø t e

Alo h a / Ha llo - Norway to Hawaii. Erfaringer fra globalt samarbeid med klasse på Hawaii - hvordan og hvorfor.

K j æ r e b e b o e r!

Plassen barnehage- med fokus på naturen Informasjonsbrosjyre

I n n k a l l i n g t i l o r d i n æ r t s a m e i e r m ø t e

I n n k a l l i n g t i l o r d i n æ r t s a m e i e r m ø t e

DM uf/16V R409 10R CM P. 100uf/16V DM P R408 10K R407 Q401 C1027 1K C409 D401 10K 104P

I N N K A L L I N G T I L O R D I N Æ R G E N E R A L F O R S A M L I N G

Erklæring om ansvarsrett etter plan- og bygningsloven (pbl) 23-3

Arbeidsdelingen mellom Vestfold fylkeskommunen og Statens vegvesen. Stein-Roger Nilssen Staten vegvesen avdeling Vestfold Region sør


INNKALLING TIL ORDINÆRT SAMEIERMØTE 2010

Ledelse i kommunal sektortrender Rådmannsforum 2.februar Terje Osmundsen, Ansvarlig redaktør, Mandag Morgen

K j æ r e b e b o e r!

I n n k a l l i n g t i l o r d i n æ r g e n e r a l f o r s a m l i n g

úø ø úø ø wø ø ø ø ø ø ø ø ø ú ø ú øî ø ø ú ø ø ú ø Î Î ø wø ø ø ø ø ø ø ø ø ø ú ø nø øl ø J ú úl ø Kom, tro, og kom, glæde

A ft tt * 1 ^ an T ii ft. *< X IP * ft ii l> ff ffl *> (2 # * X fa c, * M L 7 ft tf ;U -h h T T* L /< ft * ft 7 g $ /i & 1 II tz ft ft ip ft M.

1 Forutsetninger og rammebetingelser for fleksible organisasjonsformer

INNKALLING TIL ORDINÆRT SAMEIERMØTE 2009

Sammenligning av fjærkrefter ved ulike hjulaksler på El

Hjertet Banker & # œ œ œ œ Hjer - tet ban - ker, hjer - tet ban - ker, liv. œ œ œ œ œ œ œ œ œ œ œ œ Œ. œ œ œ œ Œ œ œ œ œ œ œ œ œ Ó gjør oss lev -en-

Kan du Løveloven...?

2. Å R S B E R E T N I N G F O R Å R S R E G N S K A P F O R M E D B U D S J E T T F O R

2. Å R S B E R E T N I N G F O R Å R S R E G N S K A P F O R G O D T G J Ø R E L S E R A ) S t y r e t B ) R e v i s o r

Internasjonal privatrett

K j æ r e b e b o e r!

Serviceprisliste DekkPartner

Ut ford rin ger sett fra nord Eli sa beth An gell, Svein ung Ei ke land og Per Sel le

LEITZ ICON SMART ETIKETTSKRIVER LIKE DIGITAL SOM RESTEN AV DIN VERDEN

Bjerkreim kyrkje 175 år. Takksemd. Tekster av Trygve Bjerkrheim Musikk av Tim Rishton

INNKALLING TIL ORDINÆRT SAMEIERMØTE 2010

Fridahl' s Møbelhus AS Sjøgata Fauske L 01 SØKNAD OM ERVERVELSE A V TOMT FOR UTBYGGING.

I n n k a l l i n g t i l o r d i n æ r g e n e r a l f o r s a m l i n g

U N I V E R S I T Y O F B E R G E N. Faculty of Medicine and Dentistry, Department of Clinical Medicine, Haukeland University Hospital

Transkript:

Ge i r Berge 47 En d a t a s t r u k t u r f o r o rd b ø k e r f o r n a t u r lig e sp råk 1. In n le d n in g Det a r b e id e t som s k a l r e f e r e r e s h e r hadde som m ål å k o n s tru e re en t j e n l i g d a t a s t r u k t u r f o r k o n s tru k s jo n av o rd b ø k e r f o r n a t u r l i g sp^åk på små d a ta m a s k in e r. A r b e id e t b le g j o r t f o r noen å r t il b a k e av George M. G illo w og u n d e rte g n e d e, og v i an ven d te en PDP 1 1 /2 0. I dag kan d e r f o r v å re r e s u l t a t e r ha in te r e s s e i f o r b in d e ls e med m ik ro m a s k in a n v e n d e ls e r på samme om råde. 1.1 D e s ig n k ra v - System et s k a l h u r t ig og e n k e lt kunne l a s t e en o rd b o k. H u r tig s k a l h e r fo rs å s s l i k a t t i d f o r l a s t i n g, t ^, i s t ø r s t m u lig grad burde være en l in j æ r fu n k s jo n av g ru n n la g s te k s te n s s t ø r r e l s e, d vs. a n t a l l to k e n s, ^ to k e n ' - Ingen p re p ro s e s s e rin g av g ru n n la g s te k s te n s k a l være nødvendig ( f. c k s. s o r t e r in g ). - Egenskaper ved n a t u r l ig e sp råk s k a l i s t ø r s t m u lig grad fo rm u le re re s te re n d e k r a v. n es te s i d e ). (D e tte e r g j o r t i t a b e l le n på 47

49 Behovet f o r o pp slag av e n k e lto r d v i l være nær p r o p o s jo n a lt de e n k e lte ty p e rs fo rc k o m s tfre k v e n s i te k s tb a s e n, og v i v i l g je r n e a t system et g i r p r i v i l i g e r t, h u r t ig aksess t i l s l i k e t y p e r. T i l s l u t t s k a l nevnes a t sys tem et også b ^ r g i gode m u lig h e te r f o r l i s t i n g av st^ )rre e l l e r m in dre d e le r av ordboken i a l f a b e t i s k o rd e n. V i f a n t ik k e a t noen s ta n d a rd f i l s t r u k t u r e r med t ilh ø r e n d e aksessm etoder o p p fy lt e v å re d e s ig n k ra v, og v i k o n s tr u e r te d e r f o r sys tem et som b i i r b e s k re v e t i d e t fø lg e n d e. 2. L ø s n in g s fo rs la g F o r s la g e t e r im p le m e n te rt med typ es og to ken s i form av g r a f is k e o rd, men d e t e r i n t e t t i l h in d e r f o r a t d e t kan fu n g e re på andre n iv å. V id e r e k o n s tr u e r te v i e t e n k e l t aksess system, men a l l e p ro g ra m d e le r e r u t v i k l e t med e n k e l u t v id e ls e t i l m u ltia k s e s s system f o r ø ye. 2.1 P aging system et H e le ordboken ten kes d e l t i e t a n t a l l s id e r (p a g e s ). I h u r t ig la g e r e t a v s e tte s e t område med p la s s t i l N s l i k e. H v e rt delom råde med p la s s t i l en s id e k a l i e r v i en n i s j e ( s l o t ). n av de N (n < N) n is je n e in n e h o ld e r r e s id e n te s id e r, de re s te re n d e N - n ' S i d e r som kan r u l l e s u t pa y t r e la g e r ( p la t e la g e r ) f o r å b l i e r s t a t t e t av a n d re. D e tte s k je r n å r system et v i l aks e s s e re en s id e som ik k e e r i noen av de N n is je n e i h u r t i g l a g e r e t. Se f i g. 1. For å a v g jø re h v ilk e n s id e som s k a l r u l l e s u t f r a h u r t i g l a g e r e t, e r d e t t i l h v e r s id e k n y t t e t en " h is t o r ik k v a r ia b e l" h v is v e r d i a v s p e ile r s id e n s b ru k s fre k v e n s. Den av de N-n sid en e som h a r la v e s t v e r d i f o r denne v a r ia b e le n r u l l e s u t. På denne m åten oppnås a t de sid e n e som o f t e s t r e f e r e r e s h a r m in s t s a n n s y n lig h e t f o r å b l i r u l l e t u t. 49

Av og t i l e r d e t ø n s k e lig å " lå s e " en s id e tem poræ rt f r a å b l i r u l l e t u t e t t e r re g e le n o v e r, og d e t t e kan g jø re s f r a system program m et. D et kan også nevnes a t b are dersom en s id e e r fo r a n d r e t f r a den b le h e n te t in n t i l h u r t ig la g e r e t b i i r den v i r k e l i g o v e r f ø r t t i l y t r e la g e r ved u t r u l l i n g, en d e t a l j som ø k e r s y s te m e ts e f f e k t i v i t e t.

51

52 2.2 G e n e r e lt om system et R e c o rd fo rm a t f o r elem en ten e i ordboken fre m g år i f i g. 2. De e n k e lt e b e te g n e ls e n e SCT: N este elem en ts s e k s jo n s -^ s id e ) n r. DISPL: A dresse in n en s id e f o r d i t t o. SHC: P eker t i l n e s te lo g is k e elem en t innen denne s id e, h v is s a t t : ^ : F rekven s f o r d e t t e elem en t (ty p e ) LGTH: Lengde av d a t a f e l t e t. O rdboken h a r a l t s å form av en l i s t e s t r u k t u r, og denne bygges i s in h e lh e t under la s te p ro s e s s e n. For h v e r ny to k e n gjennom søkes l i s t e n f o r å a v g jø re om d e t e r en ny ty p e e l l e r ik k e. I fø r s tn e v n te t i l f e l l e s e tte s denne in n i l i s t e n, e l l e r s økes b a re fre k v e n s f o r a n g jeld en d e ty p e med 1. Se f i g. 3. Av f i g. 3 fre m g å r d e t hvordan SHC'ene kan øke h a s tig h e te n i søkeprosessen v e s e n t lig ) v. h. a. d is s e g å r v i a l d r i mer enn en gang gjennom h v e r s id e. 52

53 53

54

55 2.3 L a s t e - s t r a t e g i Sidene kan under la s te p ro s e s s e n være i u l ik e " t i l s t a n d e r " : - N yeste s id e e r den som s i s t e r t a t t i b ru k. - Backup s id e n in n e h o ld e r lo g is k fo r g je n g e r t i l d e t e le m e n te t v i p rø v e r å p la s s e r e. - Nåværende s id e in n e h o ld e r lo g is k e t t e r f ø l g e r t i l samme. F ig. 4 a n s k u e lig g jø r d e t t e. S t r a t e g i f o r o p p f y llin g av s id e n e, d vs. av nye ty p e r v a r som v i s t under f i g. 4. f o r p la s s e r in g For å g i en in d ik a s jo n på hvordan d e t t e v i r k e r, h e n v is e r v i t i l f i g. 5. Regiene an ven d t f o r de nye elem entene v i l h e r være: Regel 1 f o r C,!) 2 D, n 3 n M, 4 CQ H e n s ik te n med la s te g re n s e n (se p r e f e r a n s e lis t e n ) som b a re anvendes n å r en s id e e r i t i l s t a n d " n y e s te ", e r å øke sjan sen e f o r a t r e g e l 1 kan anvendes og d erved f o r la n g e, u b r u tte t r å d e r in n en en s id e. D e tte m e d fø re r m in dre i n n - u t r u l l i n g og m indre overh ead fo rb u n d e t med s h o r t - c u t p e k e rn e. 55

37 57

D e tte v i l i m i d l e r t i d komme i k o n f l i k t med v å r t ^nske om å p la s s e re f l e s t m u lig h ^ y fre k v e n s ty p e r i de f^ ^ s te sid en e ( s p e s ie lt i de r e s i d e n t e ), både f o r å få ra s k aksess t i l d is s e ty p e n e, og f o r d i de f y r s t e sid en e i s to r g rad b ^ r v ir k e som en in d e k s f o r r e s te n av ordboken. For å oppnå d e t s i s t e b^^ d is s e sid e n e f y l l e s med så mange elem en t som m u lig spredd b e s t m u lig a l f a b e t i s k. V i v a lg t e d e r f o r å l a f y llin g s g r a d e n v a r ie r e som fu n k s jo n av sidenummer som a n ty d e t i f i g. 6.

39 59

3. E k s p e rim e n te r og r e s u l t a t e r Som te k s tb a s e b le Carman & Worse av A. K ie lla n d b e n y t t e t. Denne in n e h o ld e r o m tre n t 6 5.0 0 0 g r a f is k e o rd og g i r opphav t i l en ordbok med c a. 1 0.5 0 0 o rd. V i f a n t a t v å r te k n ik k v i r k e l i g ga mange h ^ y fre k v e n s o rd i de f y r s t e s id e n e, og a t te k n ik k e n med la s te g r e n s e og p la s s e rin g av ty p e r i h en h o ld t i l p r e f e r a n s e lis t e n f^^rte t i l lan g e u a v b ru d te t r å d e r i de sen ere s id e n e. En d e l fo rs ^ k b le g j o r t f o r å fin n e e t "godt" p a r a m e te r s e tt f o r s y s te m e t. Her s k a l b a re e f f e k t e n av p a r t i e l l f y l l i n g av n y e s te s id e påp ekes. A lle r e d e med f y llin g s g r a d l i t t under en f i k k v i r e s u l t a t e r som v i s t i f i g. 7, og svæ rt la v e f y ll i n g s g r a d e r ga ik k e y t t e r l i g e r e fo r b e d r in g e r.

62 Som v i s e r av f i g. 8 e r v å r t k ra v om en l a s t e t i d som e r nær p ro p o s jo n a l med a n t a l l e le m e n te r i te k s tb a s e n godt o p p f y l t. F ig. 9 v i s e r en d e l and re d a ta f r a la s te p ro s e s s e n, og v i s e r a t : - TID/TOKEN v o k s e r r e l a t i v t l i t e og fre m fo r a l t je v n t e tte rs o m ordboken ø k e r i om fang. - PR/TOKEN som e r s id e r c f e r a n s c r p r. token f o r k l a r e r mye av system et "pene" a d fe rd i d e t denne b a re vokser f r a 2,66 ved M.. = 2-l0^ t i l 3.0 ved M.. = to k e n to ken 6,5*10^ d vs. ved 11%, mens ordboken i samme i n t e r v a l l ø k e r f r a c a. 4,1-10^ ty p e s t i l c a. lo.s-lo^ ty p e s, a l t s å med 156_%. - H vis v i s e r på o p p s la g s tid /to k e n med f u l l ordbok, v a r denne c a. 0.05 s., noe v i v a r v e l t i l f r e d s med, u t s t y r e t v i b ru k te t a t t i b e t r a k t n in g. Brukes ordboken b a re f o r o p p s la g, re d u s e re s denne tid e n v e s e n t lig f o r d i v i s lip p e r a l l e " s k riv e o p e ra s jo n e r" k n y t t e t t i l p la s s e r in g av nye ty p e s. Senere t e s t e r i n d ik e r t e e t f a l l på om kring 60 % som b r in g e r o p p s la g s tid e n ned på 0,02 s. A l t i a l t mener v i d is s e r e s u lt a t e n e e r oppm untrende, og a t en s l i k e l l e r lig n e n d e d e s ig n egn er seg godt fo r k o n s tru k s jo n og b ru k av o rd b ø k e r på m in dre d atam as kin e r som ik k e t i l b y r gode d atab a sesy ste m e l l e r t ils v a r e n d e a v a n s e r t s o ftw a r e. 62

63 63