Ge i r Berge 47 En d a t a s t r u k t u r f o r o rd b ø k e r f o r n a t u r lig e sp råk 1. In n le d n in g Det a r b e id e t som s k a l r e f e r e r e s h e r hadde som m ål å k o n s tru e re en t j e n l i g d a t a s t r u k t u r f o r k o n s tru k s jo n av o rd b ø k e r f o r n a t u r l i g sp^åk på små d a ta m a s k in e r. A r b e id e t b le g j o r t f o r noen å r t il b a k e av George M. G illo w og u n d e rte g n e d e, og v i an ven d te en PDP 1 1 /2 0. I dag kan d e r f o r v å re r e s u l t a t e r ha in te r e s s e i f o r b in d e ls e med m ik ro m a s k in a n v e n d e ls e r på samme om råde. 1.1 D e s ig n k ra v - System et s k a l h u r t ig og e n k e lt kunne l a s t e en o rd b o k. H u r tig s k a l h e r fo rs å s s l i k a t t i d f o r l a s t i n g, t ^, i s t ø r s t m u lig grad burde være en l in j æ r fu n k s jo n av g ru n n la g s te k s te n s s t ø r r e l s e, d vs. a n t a l l to k e n s, ^ to k e n ' - Ingen p re p ro s e s s e rin g av g ru n n la g s te k s te n s k a l være nødvendig ( f. c k s. s o r t e r in g ). - Egenskaper ved n a t u r l ig e sp råk s k a l i s t ø r s t m u lig grad fo rm u le re re s te re n d e k r a v. n es te s i d e ). (D e tte e r g j o r t i t a b e l le n på 47
49 Behovet f o r o pp slag av e n k e lto r d v i l være nær p r o p o s jo n a lt de e n k e lte ty p e rs fo rc k o m s tfre k v e n s i te k s tb a s e n, og v i v i l g je r n e a t system et g i r p r i v i l i g e r t, h u r t ig aksess t i l s l i k e t y p e r. T i l s l u t t s k a l nevnes a t sys tem et også b ^ r g i gode m u lig h e te r f o r l i s t i n g av st^ )rre e l l e r m in dre d e le r av ordboken i a l f a b e t i s k o rd e n. V i f a n t ik k e a t noen s ta n d a rd f i l s t r u k t u r e r med t ilh ø r e n d e aksessm etoder o p p fy lt e v å re d e s ig n k ra v, og v i k o n s tr u e r te d e r f o r sys tem et som b i i r b e s k re v e t i d e t fø lg e n d e. 2. L ø s n in g s fo rs la g F o r s la g e t e r im p le m e n te rt med typ es og to ken s i form av g r a f is k e o rd, men d e t e r i n t e t t i l h in d e r f o r a t d e t kan fu n g e re på andre n iv å. V id e r e k o n s tr u e r te v i e t e n k e l t aksess system, men a l l e p ro g ra m d e le r e r u t v i k l e t med e n k e l u t v id e ls e t i l m u ltia k s e s s system f o r ø ye. 2.1 P aging system et H e le ordboken ten kes d e l t i e t a n t a l l s id e r (p a g e s ). I h u r t ig la g e r e t a v s e tte s e t område med p la s s t i l N s l i k e. H v e rt delom råde med p la s s t i l en s id e k a l i e r v i en n i s j e ( s l o t ). n av de N (n < N) n is je n e in n e h o ld e r r e s id e n te s id e r, de re s te re n d e N - n ' S i d e r som kan r u l l e s u t pa y t r e la g e r ( p la t e la g e r ) f o r å b l i e r s t a t t e t av a n d re. D e tte s k je r n å r system et v i l aks e s s e re en s id e som ik k e e r i noen av de N n is je n e i h u r t i g l a g e r e t. Se f i g. 1. For å a v g jø re h v ilk e n s id e som s k a l r u l l e s u t f r a h u r t i g l a g e r e t, e r d e t t i l h v e r s id e k n y t t e t en " h is t o r ik k v a r ia b e l" h v is v e r d i a v s p e ile r s id e n s b ru k s fre k v e n s. Den av de N-n sid en e som h a r la v e s t v e r d i f o r denne v a r ia b e le n r u l l e s u t. På denne m åten oppnås a t de sid e n e som o f t e s t r e f e r e r e s h a r m in s t s a n n s y n lig h e t f o r å b l i r u l l e t u t. 49
Av og t i l e r d e t ø n s k e lig å " lå s e " en s id e tem poræ rt f r a å b l i r u l l e t u t e t t e r re g e le n o v e r, og d e t t e kan g jø re s f r a system program m et. D et kan også nevnes a t b are dersom en s id e e r fo r a n d r e t f r a den b le h e n te t in n t i l h u r t ig la g e r e t b i i r den v i r k e l i g o v e r f ø r t t i l y t r e la g e r ved u t r u l l i n g, en d e t a l j som ø k e r s y s te m e ts e f f e k t i v i t e t.
51
52 2.2 G e n e r e lt om system et R e c o rd fo rm a t f o r elem en ten e i ordboken fre m g år i f i g. 2. De e n k e lt e b e te g n e ls e n e SCT: N este elem en ts s e k s jo n s -^ s id e ) n r. DISPL: A dresse in n en s id e f o r d i t t o. SHC: P eker t i l n e s te lo g is k e elem en t innen denne s id e, h v is s a t t : ^ : F rekven s f o r d e t t e elem en t (ty p e ) LGTH: Lengde av d a t a f e l t e t. O rdboken h a r a l t s å form av en l i s t e s t r u k t u r, og denne bygges i s in h e lh e t under la s te p ro s e s s e n. For h v e r ny to k e n gjennom søkes l i s t e n f o r å a v g jø re om d e t e r en ny ty p e e l l e r ik k e. I fø r s tn e v n te t i l f e l l e s e tte s denne in n i l i s t e n, e l l e r s økes b a re fre k v e n s f o r a n g jeld en d e ty p e med 1. Se f i g. 3. Av f i g. 3 fre m g å r d e t hvordan SHC'ene kan øke h a s tig h e te n i søkeprosessen v e s e n t lig ) v. h. a. d is s e g å r v i a l d r i mer enn en gang gjennom h v e r s id e. 52
53 53
54
55 2.3 L a s t e - s t r a t e g i Sidene kan under la s te p ro s e s s e n være i u l ik e " t i l s t a n d e r " : - N yeste s id e e r den som s i s t e r t a t t i b ru k. - Backup s id e n in n e h o ld e r lo g is k fo r g je n g e r t i l d e t e le m e n te t v i p rø v e r å p la s s e r e. - Nåværende s id e in n e h o ld e r lo g is k e t t e r f ø l g e r t i l samme. F ig. 4 a n s k u e lig g jø r d e t t e. S t r a t e g i f o r o p p f y llin g av s id e n e, d vs. av nye ty p e r v a r som v i s t under f i g. 4. f o r p la s s e r in g For å g i en in d ik a s jo n på hvordan d e t t e v i r k e r, h e n v is e r v i t i l f i g. 5. Regiene an ven d t f o r de nye elem entene v i l h e r være: Regel 1 f o r C,!) 2 D, n 3 n M, 4 CQ H e n s ik te n med la s te g re n s e n (se p r e f e r a n s e lis t e n ) som b a re anvendes n å r en s id e e r i t i l s t a n d " n y e s te ", e r å øke sjan sen e f o r a t r e g e l 1 kan anvendes og d erved f o r la n g e, u b r u tte t r å d e r in n en en s id e. D e tte m e d fø re r m in dre i n n - u t r u l l i n g og m indre overh ead fo rb u n d e t med s h o r t - c u t p e k e rn e. 55
37 57
D e tte v i l i m i d l e r t i d komme i k o n f l i k t med v å r t ^nske om å p la s s e re f l e s t m u lig h ^ y fre k v e n s ty p e r i de f^ ^ s te sid en e ( s p e s ie lt i de r e s i d e n t e ), både f o r å få ra s k aksess t i l d is s e ty p e n e, og f o r d i de f y r s t e sid en e i s to r g rad b ^ r v ir k e som en in d e k s f o r r e s te n av ordboken. For å oppnå d e t s i s t e b^^ d is s e sid e n e f y l l e s med så mange elem en t som m u lig spredd b e s t m u lig a l f a b e t i s k. V i v a lg t e d e r f o r å l a f y llin g s g r a d e n v a r ie r e som fu n k s jo n av sidenummer som a n ty d e t i f i g. 6.
39 59
3. E k s p e rim e n te r og r e s u l t a t e r Som te k s tb a s e b le Carman & Worse av A. K ie lla n d b e n y t t e t. Denne in n e h o ld e r o m tre n t 6 5.0 0 0 g r a f is k e o rd og g i r opphav t i l en ordbok med c a. 1 0.5 0 0 o rd. V i f a n t a t v å r te k n ik k v i r k e l i g ga mange h ^ y fre k v e n s o rd i de f y r s t e s id e n e, og a t te k n ik k e n med la s te g r e n s e og p la s s e rin g av ty p e r i h en h o ld t i l p r e f e r a n s e lis t e n f^^rte t i l lan g e u a v b ru d te t r å d e r i de sen ere s id e n e. En d e l fo rs ^ k b le g j o r t f o r å fin n e e t "godt" p a r a m e te r s e tt f o r s y s te m e t. Her s k a l b a re e f f e k t e n av p a r t i e l l f y l l i n g av n y e s te s id e påp ekes. A lle r e d e med f y llin g s g r a d l i t t under en f i k k v i r e s u l t a t e r som v i s t i f i g. 7, og svæ rt la v e f y ll i n g s g r a d e r ga ik k e y t t e r l i g e r e fo r b e d r in g e r.
62 Som v i s e r av f i g. 8 e r v å r t k ra v om en l a s t e t i d som e r nær p ro p o s jo n a l med a n t a l l e le m e n te r i te k s tb a s e n godt o p p f y l t. F ig. 9 v i s e r en d e l and re d a ta f r a la s te p ro s e s s e n, og v i s e r a t : - TID/TOKEN v o k s e r r e l a t i v t l i t e og fre m fo r a l t je v n t e tte rs o m ordboken ø k e r i om fang. - PR/TOKEN som e r s id e r c f e r a n s c r p r. token f o r k l a r e r mye av system et "pene" a d fe rd i d e t denne b a re vokser f r a 2,66 ved M.. = 2-l0^ t i l 3.0 ved M.. = to k e n to ken 6,5*10^ d vs. ved 11%, mens ordboken i samme i n t e r v a l l ø k e r f r a c a. 4,1-10^ ty p e s t i l c a. lo.s-lo^ ty p e s, a l t s å med 156_%. - H vis v i s e r på o p p s la g s tid /to k e n med f u l l ordbok, v a r denne c a. 0.05 s., noe v i v a r v e l t i l f r e d s med, u t s t y r e t v i b ru k te t a t t i b e t r a k t n in g. Brukes ordboken b a re f o r o p p s la g, re d u s e re s denne tid e n v e s e n t lig f o r d i v i s lip p e r a l l e " s k riv e o p e ra s jo n e r" k n y t t e t t i l p la s s e r in g av nye ty p e s. Senere t e s t e r i n d ik e r t e e t f a l l på om kring 60 % som b r in g e r o p p s la g s tid e n ned på 0,02 s. A l t i a l t mener v i d is s e r e s u lt a t e n e e r oppm untrende, og a t en s l i k e l l e r lig n e n d e d e s ig n egn er seg godt fo r k o n s tru k s jo n og b ru k av o rd b ø k e r på m in dre d atam as kin e r som ik k e t i l b y r gode d atab a sesy ste m e l l e r t ils v a r e n d e a v a n s e r t s o ftw a r e. 62
63 63