INF1500 Høst 2016 Magnus Li Martine Rolid Leonardsen EVALUERING / DECIDE
I DAG GENERELT - Oblig 3 RASK REPETISJON FRA FORRIGE UKE - Eksempler PRAKTISK EKSEMPEL KAHOOT DECIDE - Stegene - Validitet og reliabilitet
OBLIG 3 Skal leveres 20.11 (om 1 uke) Dere skal her: - Planlegge en evaluering med DECIDE-rammeverket - Gjennomføre evalueringen. - Reflektere over det dere har gjort - Benytt begreper aktivt
EKSAMENSOPPGAVER Evaluering Definisjonsteori - Hva er de tre hovedtilnærmingene til evaluering? - Nevn de seks stegene i DECIDE. - Gi et eksempel på en måte å gjøre indirekte observasjon. - Hva ligger i begrepene pålitelighet (reliability), gyldighet (validity) og økologisk gyldighet (ecological validity)? Begrepsteori - Hvilke fordeler har man ved å gjennomføre en evaluering i kontrollerte omgivelser kontra naturlige omgivelser? - I noen situasjoner er det ikke hensiktsmessig å involvere brukere ved evaluering. Diskuter hva en slik situasjon kan være og gi eksempler på metoder eller teknikker man kan bruke. - Hva vil du si er fordelen med en ekspert- (analytisk) evaluering? - Har du noen eksempler på evalueringsformer hvor observasjon kan inngå? Hvorfor tror du observasjon kan være et nyttig verktøy her? - Hva går brukbarhetstesting (usability testing) ut på og hvilke fordeler har denne typen testing? Diskusjonsoppgaver - Hvilke fordeler oppnår man ved analytisk evaluering sammenliknet med andre tilnærminger?
EVALUERING Hva, hvordan, når - Hva vil man finne ut av? - Bestemme konsept? - Store eller små designvalg? - Finne designproblemer? - Hvordan skal man finne ut av det? - Vise skisser / storyboards til brukere? - Teste interaktiv prototype med brukere i lab? - Bruke eksperter innen HCI eller domene? - Teste prototype i naturlig miljø? DECIDE - Praktiske ting - Hvor, når, hvem?
EVALUERING Tilnærminger - Naturlige omgivelser - Kontrollerte omgivelser - Uten brukere
I NATURLIGE OMGIVELSER Brukere benytter prototype i naturlige omgivelser. Metoder - Observasjon - Spørreskjema / intervju etter naturlig interaksjon - Systemlogg - Contextual inquiry
I KONTROLLERTE OMGIVELSER Brukere gjør definerte oppgaver i kontrollerte omgivelser, for eksempel i lab. Kontrollert, i den betydning at vi har kjennskap til, og mulighet til å regulere de fleste variabler. Metoder - Observasjon - A/B -testing - Presentere storyboards / skisser - Intervju og diskusjon
EVALUERING
UTEN BRUKERE / ANALYTISK Eksperter benytter etablerte prinsipper og erfaring til å evaluere et grensesnitt. Metoder - Cognitive walkthrough - Heuristisk evaluering
UTEN BRUKERE / ANALYTISK Heuristisk Evaluering - Designere og domeneeksperter er evaluatorene - 3-5 deltakere - Plukker ut heuristikker man skal se etter - Eksempelvis: 10 usability Heruistics for User Interface Design - Kan avdekke opptil 80% ved 3-5 deltakere (Nielsen) Heuristikk: bygger på (nedfelte) erfaringer og prinsipper.
UTEN BRUKERE / ANALYTISK Cognitive walkthrough - Designet evalueres av eksperter - Fokus på om designet støtter brukeren i oppgaveløsning - Bruker psykologiske prinsipper For hvert steg: - Hvilken påvirkning vil interaksjonen ha? - Hvilke kognitive prosesser kreves fra brukeren? - Hvilke læringsproblemer kan oppstå?
EKSEMPLER EVALUERINGSMETODE
EKSEMPEL Evalueringsmetode Martine har laget wireframes for en nettside og ønsker å gjennomføre en rask, første evaluering av plassering av knapper og andre elementer. Analytisk evaluering med HCI-ekspert. eller/og Brukbarhetstesting i kontrollerte omgivelser med brukere. Hva slags evaluering burde hun gjennomføre?
PLANLEGGE EVALUERING MED DECIDE
D etermine the goals - Bestemme mål E xplore the questions - Utforske spørsmål C hoose evaluation method - Velg tilnærming I dentify the practical issues - Identifisere praktiske forhold D ecide how to deal with the ethical issues - Beslutte hvordan etiske forhold skal håndteres E valuate, interpret and present data - Evaluere, analysere, tolke og presentere data
DECIDE Determine the goals Beskrive hovedmålene i evalueringen. Hva ønsker vi å finne ut av? Målene er med på å bestemme hva slags evalueringsmetode man burde bruke. - Kontrollere at brukerens behov og at kravene er imøtekommet - Forbedre brukbarhet - Sjekke at grensesnittet er konsekvent
DECIDE Explore the questions Beskrive sentrale spørsmål i evalueringen. Spørsmålene kan brytes ned til spesifikke underspørsmål Eksempler: - Er det vanskelig å navigere i systemet? - Hva er din holdning til lignende tjenester? - Er denne funksjonen forvirrende?
DECIDE Choose evaluation method Beskrive hva slags metode man vil benytte i evalueringen, og begrunne hvorfor. Hva slags type data trenger du å samle inn? Hvilke teorier eller rammeverk er passende for konteksten? - Brukbarhetstesting i kontrollerte omgivelser? - A/B-testing i naturlige omgivelser? - Feltstudie? - Observasjon i naturlige omgivelser?
DECIDE Identify the practical issues Beskrive hvordan de praktiske forhold rundt evalueringen skal løses. - Valg av deltakere - Valg av utstyr - Lokasjon - Kostnader - Tidsrammer
DECIDE Decide how to deal with the ethical issues Vurdere om det er noen spesielle etiske utfordringer knyttet til evalueringen, og beskrive hvordan disse skal løses. Alle deltakere må få god informasjon om hva de er med på, og signere et informert samtykke. Dette skal legges frem for deltakerne i forkant av evalueringen Obs obs! Hvis man evaluerer med barn
DECIDE Evaluate, interpret and present data Valg av metode påvirker hva slags data man får ut, og hvordan disse skal behandles og presenteres. Det burde reflekteres rundt: - Validitet - Økologisk validitet (Hawthorne effekten) - Reliabilitet - Bias (HALO-effekten) - Omfang / scope (generaliserbarhet)
EVALUERING Faktorer Når man skal designe en evaluering er noen grunnbegreper viktige. Scope / generaliserbarhet - Kan funnene generaliseres utover utvalget? Indre validitet (i boken bare validity) - Måler jeg det jeg hevder å måle? Økologisk validitet - Gjør miljøet i studien det mulig å generalisere til situasjoner i ekte omgivelser? Reliabilitet - Vil jeg få samme resultat ved nye målinger?
FAKTORER Bias Eller skjevhet kan gi systematiske feil i resultatet. Disse oppstår ubevisst eller bevisst hos både deltaker og forsker. Eksempler - Utvalgsbias - Intervjuer-bias - Respons-bias - Observasjons-bias / Hawthorne effect - Ytelsesbias
FAKTORER Indre validitet Kalles i boken bare validitet Begrepet beskriver problemet vi har snakket mye om. Hvor sikkert kan man si at fenomenet observert i studien skyldes variablene som hevdes? Studier i kontrollerte omgivelser vil dermed ha en høyere indre validitet enn studier gjennomført i naturlige omgivelser. Bias er også en viktig faktor. For å sikre høy validitet må det tas høyde for alle mulige typer bias.
FAKTORER Økologisk validitet En bestemt type ytre validitet, som går på hvor vidt omgivelsene i studien legger til rette for å kunne generalisere til de naturlige omgivelsene for fenomenet. Her vil åpenbart studier i naturlige omgivelser gi en høyere økologisk validitet enn studier i kontrollerte omgivelser.
FAKTORER Reliabilitet Hvor vidt kan resultatene fra studien reproduseres? Dersom samme studie gjøres på nyttpå samme måte, vil man få det samme resultatet? Målinger er ofte gjenstand for både tilfeldige og systematiske feil. Tilfeldige feil kan man ikke gjøre noe med annet enn å foreta flere målinger for å få et så riktig snitt som mulig. Systematiske feil kommer ofte fra ulike bias. Disse kan vi forsøke å kontrollere.
FAKTORER Validitet og reliabilitet
EKSEMPEL EVALUERINGSPROSESSEN
Vi skal evaluere! To grensesnitt for utforskskjerm i app (Snapsale.com) vs. Eksempel fra 2015
EVALUERINGSPLAN Mål - Hvilke type utforming er mest hensiktsmessig for brukeren? - Primærmålgruppe jenter 18-30 år Sentrale spørsmål - Hvilket av de to legger opp til enklest navigasjon? - Hvilken av de to presenterer informasjonen på den mest optimale måten? - Skjønner brukeren hva de forskjellige knappene gjør? Evalueringsmetode - Formativ A/B-test i kontrollerte omgivelser - Kvalitativ data - Think-a-loud evt. spørreskjema - Gi oppgaver
EVALUERINGSPLAN Praktiske forhold: - Lokasjon: Grupperom på IFI - Varighet 15 minutter - Deltakere: 10 personer (Jenter mellom 18 og 30 år) - Kostnad: Print, - Utstyr: Båndopptager, penn
EVALUERINGSPLAN Etikk: - Samtykkeerklæring Datakvalitet og presentasjon - Målet er ikke å kunne generalisere til alle i målgruppen - Men vi har valgt ut representative deltakere med tanke på generaliserbarhet - Data vi får inn er kvalitative, og analyse er dermed avhengig av subjektive meninger hos de som analyserer, dette svekker reliabiliteten. - Da undersøkelsene gjøres i kontrollerte omgivelser har vi kontroll på mange variable, noe som gjør at vi enklere kan si at vi måler det vi mener å måle. Det er fortsatt rom for flere typer bias, særlig mellom deltaker og observatør/intervjuer, så vi prøver å holde en nøytral stemning for å sikre sterkere validitet.
GJENNOMFØRING Evalueringen dokumenteres.
REFLEKSJON Forventninger: - Vi forventet at deltakerne forsto grensesnittets funksjonalitet Opplevelser: - Kunne ha dokumentert mer underveis - Deltakerne hadde forskjellige oppfatninger Avvik fra plan: - Vi trodde at det skulle ta 15 minutter, tok noe mer tid Lærdom vi tar med oss: - Planleggingsprosessen er svært viktig - Dokumentering er viktig - Viktig å lage gode oppgaver