Evaluering og brukertesting Håkon Tolsby 1
Hvorfor er bruksaspektene viktige? Usability rules the Web. Simply stated, if the consumer can t find the product, then he or she will not buy it. The web is the ultimate customer-empowering environment. He or she who clicks the mouse gets to decide everything. It is so easy to go elsewhere; all the competitors in the world are but a mouseclick away. Usability used to be a secondary consideration in the computer industry because customers were not faced with the usability consequences until after they had paid for the product. But users experience a web site s usability from the very first moment they consider doing business with a company. Hence, usability has assumed a much greater importance in the Internet economy than it has in the past. Jakob Nielsen 2
Iterativ design og utvikling Iterative design, with its repeating cycle of design and testing, is the only validated methodology in existence that will consistently produce successful results. If you don t have user-testing as an integral part of your design process you are going to throw buckets of money down the drain. Bruce Tognazzini Se AskTog.com for diskusjoner om design og evaluering. 3
Hvorfor, hva hvor og når skal man evaluere? Iterativ design og evaluering er en kontinuerlig prosess som undersøker: Hvorfor: at brukeren kan bruke produktet og at de liker det. Hva: Den konseptuelle modellen, tidlige prototyper og mer komplette systemer. Hvor: i naturlige situasjoner og i laboratorium Når: gjennom hele designprosessen. Designere må kontrollere at de forstår brukeres behov. 4
Modellen for iterativ design og utvikling Identify needs/ establish requirements (Re)Design Evaluate Build an interactive version 5
Spørsmål til ettertanke: Er de som deltar i tester og undersøkelser objektive? Kan det å delta i en undersøkelse også påvirke brukernes opplevelse av nettstedet? Positivt? Negativt? På andre måter? Kan de som utfører tester og undersøkelser bidra til å påvirke resultatet? 6
Usability vs. Usefulness Hva er forskjellen? Nytte (Usefulness), i kontekst - feltstudier Brukbarhet (Usability), eksperimentelt i lab eller ved ekspertvurderinger 7
Kvantitative og kvalitative metoder Kvantitative metoder Betrakter verden som noe som kan måles, veies og telles. Kvalitative metoder Betrakter verden som noe som blir definert gjennom opplevelser og sanseinntrykk. Begge tilnærmingene har tilhengere og motstandere. I dette kurset går vi ikke inn på denne debatten, men antar en eklektisk holdning til metodevalg. 8
Objektiv Subjektiv Kvantitativ vs. Kvalitativ Subjektiv vs. objektiv Kvalitative data Kvantitative data Etnografiske data, intervjuer, observasjoner og artifakter som tolkes. Spørreskjemaer Oppgaveanalyse Usability metrics, analyse, av logger, laboratoriemålinger. 9
Metoder og teknikker Observere brukere Notater, video, lydbånd, logger, Spørre brukere om deres mening Intervju (åpent-lukket), fokusgrupper, spørreskjema Spørre eksperter om deres mening Heuristisk evaluering Teste brukeres gjennomføring Brukertester Quick and dirty Opportunistisk evaluering (Oppgaveanalyse) Kombinasjoner 10
Quick and dirty Quick & dirty evaluering: uformell evaluering av brukere og konsulenter for å bekrefte at ideene og produktet er i tråd med brukerens ønsker og behov. Quick & dirty evalueringer kan gjøres når som helst. Vekten legges på rask input til designprosessen i stedet for grundig dokumenterte resultater. 11
Feltstudier Feltstudier gjennomføres i naturlige omgivelser. Målet er å forstå hva brukere gjør naturlig og hvordan teknologien påvirker dem. I produktdesign brukes feltstudier til å: Identifisere muligheter for ny teknologi Sette opp designkrav/-spesifikasjoner Avgjøre hvordan man best kan introdusere ny teknologi. Evaluere teknologi i bruk. Etnografiske metoder 12
Usability-testing (brukertest) Representative brukere utfører typiske oppgaver. Innhenting av kvantitative målinger «usability metrics». Mest mulig kontrollerte omgivelser, i form av eksperimenter. Ofte i et eget laboratorium konstruert for formålet - et såkalt «Usability Lab». Mål og spørsmål fokuserer på hvor bra brukere utfører oppgaver Vanlig med sammenligning av flere systemer Fokus er på tiden det tar å fullføre en oppgave og antall feil Data innsamles med video, observasjon og logging av interaksjon (Screen recorder: CamStudio, Screencast). Typisk 5-10 deltagere (3-4 fungerer også). En seksjon tar ca 30 minutter Noen eksperter argumenter for at testtingen skal fortsette inntil man ikke oppdager noe nytt. 13
Eksempel på Usability Lab - Microsoft 14
Eksempel på testsituasjon 15
Forenklet testomgivelse 16
Hva måles i en usability-test Primært: tiden en oppgave tar hyppigheten av feil Andre mulige målinger: hvor lang tid det tar å lære seg å løse oppgaver vha. applikasjonen fleksibilitet mulighet til å ta opp i seg endringer i utførelsen av oppgaven Brukerens subjektive opplevelse evalueres med spørreskjema og intervjuer 17
Testplan usability-test Formålet med testen Problemer som skal testes Brukerprofil Metodologi En beskrivelse av metoder og gjennomføring (Terminologi evaluering) Testomgivelse Observatørrollen Hva som skal evalueres måledata Oppgaveliste 18
Metodologi usability-test et eksempel 0. Utfylling av avtale om anonymitet 1. Utfylling av spørreskjema om bakgrunnsinformasjon 2. Orientering om testen 3. Gjennomføring av test 4. Debrifing med oppfølgingsspørsmål/spørreskjema 5. Analyser resultatene umiddelbart 6. (rette feil/mangler før neste test??????) 19
Think-aloud teknikken Dette er en teknikk som kommer fra kognitiv psykologi der man prøver å «kikke inn i hodet til folk». Ble opprinnelig utviklet av psykologer for å skaffe til veie empiri for å forstå kognitive prosesser. Brukeren snakker høyt om hvordan han løser en oppgave. Oppvarming, lurt å starte med å venne brukeren til å tenke høyt. Brukeren skal fokusere på oppgaven ikke høyttenkningen. Kan brukes både til testing og under feltobservasjon 20
Hva slags oppgaver skal testes? Definer nøkkeloppgaver: Bedre med åpne oppgaver enn lukkede. Åpen: Finn en reise som du ønsker a ta med familien på. Lukket: Finn en reise til Tyrkia som koster under 2500. Forstå det - fri bruk strategi 21
Hva gjør man med resultatene? Analyser umiddelbart etter test Identifiser problemer Planlegg hvordan problemene kan utbedres Typiske problemer: Uklare konsepter og begreper Ordene de ser etter mangler For mye å forholde seg til Ignorer kajakk -problemer Motstå fristelsen til å legge til nye ting. Hver kritisk til forespørsler etter flere funksjoner Ta først tak i de enkle og opplagte problemene 22
Når testresultatet ikke sier noe Et vanlig problem i begynnelsen Dårlig gjennomført test Feil oppgaver 23
Andre teknikker ved testing Retrospective walk through Piggybacking 24
Heuristisk evaluering Vurdere grensesnitt ved å referere til retningslinjer (heuristics). Egnet for å finne også mindre problemer som man ikke finner ved systematisk testing (regresjonstesting). Kan brukes på papirprototyper. Minst 3-5 evaluerere anbefales. Bruke flere evaluerere for å finne flere problemer. Forskjellige evaluerere finner forskjellige problemer. De som finner få problemer finner ofte andre problemer enn de evaluerere som finner åpenbare problemer. 25
Heuristic evaluation - framgangsmåte: Evaluerererne må utforske grensesnittet hver for seg, uavhengig av hverandre. Gå gjennom grensesnittet flere ganger. Ofte lurt å få oversikt før man går ned i detaljer. Evaluerererne skal vurdere designelementer opp mot på forhånd fastlagte retningslinjer (heuristikken). Skriver ned problem med referanse til retningslinje. Må forklare hvorfor noe er et problem i forhold til heuristikken. Hvert problem listes separat. 26
Varianter Kan bruke en observatør som noterer det evaluereren finner. Observatøren kan bistå med hjelp og domenekunnskap. Gi evaluereren et scenario å vurdere ut fra. Felles møte etter evalueringen (evaluerer, observatør, designere). Cognitive walkthroughs 27
Kost/nytte (1) 28
Kost/nytte (2) Nielsen gir også et estimat som for lønnsomheten til metoden: Gitt at vi har n evaluerere og at å evalueringen koster $4000+$600 n (i faste og variable kostnader), og vi sparer $ 15000 for hvert problem vi finner. Toppunktet på kurven angir da optimal lønnsomhet, og ligger altså mellom 3 og 5 evaluerere. 29
Heuristisk evaluering Fordeler kan brukes tidlig (prototypestadiet) kan brukes for å evaluere hele designet kostnadseffektiv metode Ulemper forutsetter at det er mulig å lage gode retningslinjer representativitetsproblematikk (brukssituasjon, etc.) 30
Forslag til 10 heuristikker: Keith Instone (etter J. Nielsen) 1. Systemets status er synlig. Hvor er jeg? Hvor kan jeg gå? 2. Samsvar mellom system og den virkelige verden. Bruk brukerens språk 3. Brukerkontroll og frihet. Sørg for at brukerne kan kommet ut av uønskede tilstander. 4. Konsistens og lojalitet til standarder 5. Forhindre feil i entry-felt for skjemaer, o.l. 6. Sørg for gode navn og deskriptive lenker. 7. Fleksibilitet og effektiv bruk, shortcuts. 8. Estetikk og design, unngå irrelevans. 9. Hjelpe brukere å ta seg inn ved feil. En feilmelding bør tilby en løsning. 10. Hjelp og dokumentasjon integrert i nettstedet 31
Ben Shneiderman: Eight golden rules of interface design 1. Strive for consistency. It is important to make sure that the interface is consistent. Examples of this are making sure that labeling is consistent, terminology is similar, and layout follow a certain pattern 2. Enable frequent users to use shortcuts. When users begin to use the software more, they want to be able to reduce the amount of time it takes to interact with the program. 3. Offer informative feedback. It is important that feedback (i.e. errors, input requests) is informative. Every interaction the user has with the computer should result in an informative response. 4. Design dialogs to yield closure. Sequences of actions should be organized into a beginning, middle and end. It should be obvious to the user when a sequence is closed. 32
Ben Shneiderman: Eight golden rules of interface design 5. Offer error prevention and simple error handling. Avoid opportunities for the user to cause a critical error. Using pull down menus instead of free form input limits the user s options. 6. Permit easy reversal of actions. All actions that can be reversible, should be. This allows the user to undo something that might have been a mistake or was not appealing to them. 7. Support internal locus of control. Users want to feel in control of the software. Don t surprise the user. If the user does not feel in control, they will feel anxiety and dissatisfaction 8. Reduce short-term memory load. Human short-term memory is not perfect (rule of thumb: humans can remember 7 +/- 2 items). 33
Mori: De 10 største irritasjonsmomentene på web 1. Langsom nedlasting 2. Uforståelige hjelpefunksjoner 3. Krav om å registrere altfor detaljerte personlig opplysninger 4. Mangel på søkefunksjoner 5. Søk gir ikke relevante søkeresultater 6. Dårlig organisering av nettstedet 7. Rotete sideutlegg 8. Må scrolle ned på siden for å finne informasjon man trenger 9. Reklame 10. Pop-ups Fra Moris (www.mori.com) undersøkelse for Abbey National i februar 2002 av de største irritasjonsmomentene på web. 34
Handikappede og webbruk Fargeblind webbutikk-kunde Journalist med musesyke Døv student Blind kontorpersonal Elev med dysleksi Pensjonist som ordne med innskudd Døvblind tenåring som søker underholdning 35
Videre lesing DON T MAKE ME THINK, Kapittel 9 Interaction Design, Kapittel 12-15 36