Was bringt Usability Evaluation
Ausführungen der Präsentation am World Usability Day 2018 in Rapperswil
In der Usability-Community wird davon ausgegangen, dass Design getestet und nach allgemein gültigen Kriterien der Usability beurteilt werden kann. Usability Evaluation, so wird postuliert, ist also die objektive Aussensicht und das Gegenmittel gegen selbstherrliche Designer oder tyrannische Manager. Die Literatur aus Usability- und Designforschung zeigt hingegen, dass Usability Evaluation nicht das hält, was sie verspricht. Die falschen Versprechen basieren auf Fehlannahmen, mit der Theorie und Praxis bis heute zu kämpfen haben. Nicht indem sie Usability misst, sondern indem sie Fehlannahmen der Designer aufdeckt, trägt Usability Evaluation entscheidendes zum Designprozess bei. So die Argumentation im folgenden Artikel.
Folgende Fehlannahmen, führen zu einem falschen Bild des Designprozesses und zu unnötigen Konflikten, zwischen den Beteiligten am Designprozess: 1. Usability ist messbar 2. Usability Metriken machen den Designprozess weniger subjektiv Die Idee, dass Usability messbar sei, kommt aus seiner Entstehungsgeschichte. Das Konzept stammt ursprünglich aus dem Engineering: ## Entwicklung der HCI-Evaluation [^Kaye 07]  Die Wurzeln des Usability-Konzepts liegen im Engineering. Als in den 40er und 50er Jahren die ersten Computer gebaut wurden, entstanden auch die ersten Benutzerinterfaces. Damals eher aufwändig zu bedienen, in Form von Kabeln, Steckkarten, Knöpfen und Schaltern. Aber das war nicht so wichtig, viel wichtiger war es, die Geräte zuverlässiger zu machen, damit sie nicht andauernd abstürzten. Als dies gelungen war, beschäftigte sich eine nächste Generation von Ingenieuren damit, die Computer schneller zu machen, damit die Operatoren und Operatorinnen [^Light 99], so wurden die Nutzer damals genannt, nicht minutenlang auf die Resultate warten mussten. Ein Nachhall davon ist bis heute sichtbar, wo in Produkt-Spezifikationen immer noch steht, wie viele GHz ein Prozessor hat. Obwohl diese Information heutzutage immer weniger wichtig ist. In den 60er Jahren waren Computer bereits schnell genug, dass sie einen grossen Teil ihrer Zeit damit verbrachten, auf die Eingabe der Nutzer zu warten. Aus dieser Zeit stammt darum auch das *Timesharing*. Der Fokus der Evaluation verschob sich darum immer mehr auf die Nutzer. Aus dieser Zeit stammen wichtige Erkenntnisse der Kognitionswissenschaft. Zum Beispiel, dass die Zeit zwischen einer Eingabe und dem visuellen Feedback maximal 0.1 Sekunden betragen durfte [^Miller 68], dass Menschen kein allzu grosses Arbeitsgedächtnis hatten [^Miller 56] und viele andere Prinzipien wie Fitts's Law [^Fitts 64]. Die Anwendung der wissenschaftlichen Methode zur stetigen Verbesserung der Interaktion zwischen Mensch und Maschine war bis dahin eine unglaubliche Erfolgsgeschichte. Genau wie vorher die Zuverlässigkeit und die Geschwindigkeit der Rechner gemessen wurde, sollten nun auch Zuverlässigkeit, Geschwindigkeit und Zufriedenheit der Nutzer gemessen und stetig verbessert werden. Irgendwann etablierte sich dafür der Begriff «Usability». ## Usability ist nicht messbar Die Usability-Experten knüpften an die Tradition der vorigen Generationen an und versuchten in den 80er und 90er Jahren zu klären, was ein Interface «usable» macht [^Carroll 84]. Aus dieser Zeit stammen eine Vielzahl verschiedener Definitionen, Ansätze und Evaluationsmethoden [^Hornbaek 06] [^Sarodnick 11]. Zum Anfang des Jahrtausends wurde klar, dass auch nach 30 Jahren kein Konsens darüber bestand was "Usability" genau misst. [^Hornbaek 07]. Rolf Molich führte in dieser Zeit eine Reihe von Studien durch in denen er mehrere Teams von Usability-Experten jeweils das gleiche Interface bewerten liess und kommt zum Schluss, dass die Annahme, dass Usability Experten alle dasselbe tun und zu denselben Resultaten kommen falsch ist. > Our main conclusion is that our simple assumption that we are all doing the same and getting the same results in a usability test is plainly wrong. [^Molich 04] Die Experten fanden in ihren Evaluationen grösstenteils höchst unterschiedliche Probleme. In über 70% der Fälle gab es von den neun Teams kein anderes, dass das gleiche Problem auch gefunden hatte. Und das sogar, wenn die gleiche Aufgabe getestet wurde. Letztes Jahr stellte Noam Tractinsky in einer Diskussion ausführlich dar, dass der Begriff «Usability» vor allem dazu diente eine Reihe verwandter Ideen zusammenzufassen und keine irgendwie messbare Grösse darstellte. [^Tractinsky 17]. Diese Metriken können sich aber widersprechen. So kann es zum Beispiel vorkommen, dass nach einer Design-Iteration zwar die *Task-completion-time* tiefer ist als vorher, die *Error rate* dagegen gestiegen ist. So schlägt auch Tractinsky in seiner Kritik am bisherigen Usability-Konstrukt vor, dass dieses in mehrere messbare Variablen aufgeteilt und separat betrachtet werden.  Diese Sichtweise wird durch eine Analyse von Kaspar Hornbaek und Effie Lai unterstützt. Sie stellten in ihrer Meta-Analyse fest, dass die ISO-Metriken[^ISO]: Efficiency, Effectiveness und Satisfaction, eine schwache positive Korrelation aufweisen. [^Hornbaek 07] Das heisst, in etwas mehr als der Hälfte der Fälle macht ein Interface, das effektiver ist, die Nutzer auch zufriedener. Oder in etwas mehr als der Hälfte der Fälle ist ein Interface effektiver, mit dem die Nutzer auch zufriedener sind. Das heisst aber im Umkehrschluss auch, dass in etwas weniger als der Hälfte der Fälle, die Nutzer mit einem Interface auch unzufriedener sein können, obwohl es effektiver ist usw. Die ISO-Metriken widersprechen sich also auch immer wieder. ## Usability-Metriken machen den Designprozess nicht weniger subjektiv  Wenn Usability nicht mehr pauschal messbar ist, ergibt sich ein Problem: Der Anspruch, dass der Gestaltungsprozess dank Usability Evaluation weniger subjektiv ist[^Bias 13], lässt sich dadurch, aus meiner Sicht, nicht mehr erheben. Denn die Entscheidung welche Untergrösse wie stark zu gewichten ist, ist wiederum nicht objektiv.[^Gross 12] So mag ein Designer argumentieren, dass seine schönen Animationen wichtig für die Gestaltung sind, weil sie in den Nutzertests die Zufriedenheit erhöhen. Der Kunde wiederum, der nicht für diese Animationen bezahlen möchte, kann ebenso berechtigt argumentieren, dass dadurch die Effizienz sinkt. Eine sehr ähnliche Situation findet sich in einem Artikel über Sozialpolitik aus den 70er-Jahren [^Rittel 73]. Horst Rittel und Melvin Webber beschreiben wie Entscheidungen über soziale Massnahmen wie Armutsbekämpfung getroffen werden. Ihre Beobachtungen decken sich mit dem, was in den vielen Fällen auch im Design geschieht: Jeder Beteiligte interpretiert die Fakten auf die Weise, die am besten zu dem passt, was er oder sie sich sowieso schon vorgenommen hatte. > People choose those explanations which are most plausible to them. Somewhat but not much exaggerated, you might say that everybody picks that explanation of a discrepancy which fits his intentions best and which conforms to the action-prospects that are available to him. [^Rittel 73] Laut Rittel und Webber sind solche Situationen typisch für «wicked problems». Eine weitere unbequeme Eigenschaft von «wicked problems» ist, dass es keine definitive Formulierung des Problems gibt. Die Beteiligten sind sich zwar einig, dass ein Problem vorliegt, sie sind sich aber im Voraus nie ganz einige, was das Problem ist, das es zu lösen gilt. Rittel und Weber formulieren es so: > The formulation of a wicked problem is the problem! [^Rittel 73] Wenn aber nicht klar ist, welches Problem es zu lösen gilt. Wie lässt sich dann entscheiden, mit welchen Metriken eine potenzielle Lösung evaluiert werden kann? ## Das Prinzip der Überraschung Es besteht aber kaum ein Zweifel daran, dass Usability Evaluation einen wertvollen Beitrag zum Design liefern kann. So gaben auch in einer Studie aus dem Jahr 2001, 103 Experten aus dem UCD-Bereich an, dass Usability Evaluation sehr wichtig für ihre Praxis sei. Sie war laut Umfrage auch eine der am häufigsten verwendeten UCD-Methoden. [^Mao 01] Es stellt sich also die Frage, worin der Beitrag der Usability Evaluation besteht. Mit der «Verwissenschaftlichung des Designs»[^Bonsiepe 67] beschäftigte sich nicht nur das HCI-Design. Das Thema wurde auch in andere Designdisziplinen, wie Produktdesign und Architektur, zum Teil viel früher, diskutiert.[^Bonsiepe 67] Die Autoren stellen fest, dass die Resultate von sorgfältiger Analysen und Messungen von Designern oft als wenig nützlich für die Gestaltung angesehen werden: > Ohne mit einer voreiligen Erklärung aufwarten zu wollen, sei nur verzeichnet, dass bislang keine Designmethodologie – auch nicht in ihrer fortgeschrittenen Gestalt wie bei Ch. Alexander – Techniken berät, diesen Übersetzungsprozess eines analytischen Schemas in eine Form erfolgreich zu bewerkstelligen. Hier also hätten zukünftige Bemühungen in eine methodologische Appretur des Designprozesses anzusetzen. [^Bonsiepe 67], p. 29 Die Beobachtung, die Bonsiepe hier sehr direkt beschreibt, wird als *Applicability Gap* bezeichnet. Auch aktuellere Autoren erwähnen das Problem [^Melican 04], [^Chow 05]: Es gibt keinen eindeutigen, direkten Weg vom (noch so guten) mentalen Modell zur Form. Das Problem lässt sich gut an einem Beispiel illustrieren: Angenommen Sie gestalten einen Stuhl. Und sie möchten wissen wie hoch er sein muss, damit Leute gut darauf sitzen können (eine Sitability-Metrik sozusagen). Dafür beauftragen sie einen Experten, der für sie zwei Stuhlhöhen testet. Es stellt sich heraus, dass der kleinere besser als der grössere ist. Sie testen also eine noch kleinere Variante. Und wieder ist der kleinere besser. Als sie bei der optimalen Grösse ankommen, erscheint Ihnen der Stuhl nun doch etwas zu klein. Sie erkundigen sich also über die Tester, und es stellt sich heraus, dass der Experte auch Kinder in die Messung miteinbezogen hatte. Daran hatten sie ja gar nicht gedacht, sie kommen zum Schluss, dass sie einen höhenverstellbaren Stuhl gestalten müssen.  Am Anfang wird davon ausgegangen, dass das Problem bekannt ist. Der Designer geht die Gestaltung darum analytisch an. Es besteht scheinbar ein direkter Zusammenhang zwischen den Erkenntnissen der Messung (Durchschnittsgrösse) und dem neuen Design (kleinerer Stuhl). Die überraschende Erkenntnis, dass das Design auch Kinder berücksichtigen sollte, führt dagegen nicht direkt zu einer Änderung des Designs, sondern zu einer Änderung des Problemverständnisses. Das neue Problemverständnis führt einerseits zu einem neuen Design, das nicht direkt auf den Metriken basiert. Und das neue Design macht die alte Metrik in der Folge sogar nutzlos. So argumentieren die obigen Autoren[^Chow 05], [^Melican 04], dass die Definition und Neudefinition von Metriken innerhalb des Designprozesses geschieht. Wie aber die Metriken angepasst werden sollen, wird erst klar, nachdem ein neues Design besteht[^Lucero 07], das auf die Überraschungen reagiert. Die Behauptung ist daher, dass es vor allem die Überraschungen sind, die den Designprozess vorantreiben. Das ist vermutlich der Grund, warum Designer Rohdaten wie Videoaufnahmen oder Transkripte aus Usability Evaluationen bevorzugen.[^Chow 05], [^Melican 04] Aus ihnen resultieren viel eher Überraschungen. Aus dem gleichen Grund kommt vermutlich auch Jakob Nielsen zu der Empfehlung, dass für die Usability Evaluation nur fünf Nutzer nötig sind. [^Nielsen 00]. Er zeigt sehr schön auf, dass jeder weitere Nutzer immer weniger neue Probleme findet. Donald Schön, ein Designtheoretiker aus den 80er Jahren, beschreibt den Vorgang wie folgt: > The practitioner allows himself to experience surprise, puzzlement, or confusion in a situation which he finds uncertain or unique. He reflects on the phenomena before him, and on the prior understandings which have been implicit in his behaviour. He carries out an experiment which serves to generate both a new understanding of the phenomena and the change in the situation. [^Schön 83] In diesem neuen Verständnis konzentriert sich die Usability Evaluation nicht auf die Verbesserung von Metriken, sondern auf die Überprüfung von Annahmen über das Problem. Es liegt also im Endeffekt beim Designer zu entscheiden, welches das beste Design gemäss seinem Verständnis des Problems ist. Es liegt hingegen in der Verantwortung der Usability Experten, dem Designer aufzuzeigen, welche seiner Annahmen falsch sind. ## Quellen [^Alves 14]: R. Alves, P. Valente, and N. J. Nunes, “The state of user experience evaluation practice,” presented at the the 8th Nordic Conference, New York, New York, USA, 2014, pp. 93–102. [^Bargas 11]: J. A. Bargas-Avila and K. Hornbaek, “Old wine in new bottles or novel challenges - a critical analysis of empirical studies of user experience.,” CHI, p. 2689, 2011. [^Bias 13]: Bias, R.G., Kortum, P., Sauro, J. & Gillan, D. (2013). Clothing the naked emperor: The unfulfilled promise of the science of usability. Interactions, 20(6), 72-77. [^Bonsiepe 67]: Bonsiepe, Gui: Arabesken der Rationalität. Anmerkungen zur Methodologie des Design. Ulm. 1967. [^Carroll 84]: Carroll, John M., and Mary Beth Rosson. Usability Specifications as Tool in Iterative Development. No. RC-10437. IBM THOMAS J WATSON RESEARCH CENTER YORKTOWN HEIGHTS NY, 1984. [^Chow 05]: R. Chow, “For User Study. The Implications of Design,” 2005. [^Fitts 64]: Fitts, Paul M.; Peterson, James R. (February 1964). "Information capacity of discrete motor responses". Journal of Experimental Psychology. 67 (2): 103–112. doi:10.1037/h0045689. [^Frye 17]: Frye, Annika, "Design und Improvisation", 2017, transcript Verlag, Bielefeld [^Gross 12]: A. Gross and S. Bongartz, “Why do I like it? - investigating the product-specificity of user experience.,” NordiCHI, p. 322, 2012. [^Halgren 09]: Shannon Hagren, "Sample Usability Study Full Report: Retail Web Application", Sage Research and Design, 2009, www.sage-research.com [^Hassenzahl 00]: Hassenzahl, M. The effect of perceived hedonic quality on product appealingness. International Journal of Human- Computer Interaction, 2001, 13, 4, 481-499. [^Hornbaek 06]: Hornbæk, K. (2006). Current practice in measuring usability: Challenges to usability studies and research, International Journal of Human-Computer Studies, 64(2), 79-102 [^Hornbaek 07]: Hornbæk, K., and Law, E. L. Meta-analysis of correlations among usability measures. In Proc. CHI 2007, ACM Press (2007), 617-626. [^ISO]: DIN EN ISO 9241 [^Kaye 07]: Joseph Kaye, "What History Can Teach Us About Evaluation in HCI", 2007. Accessed 2018-08-28: https://www.youtube.com/watch?v=pgoPtM5xELY [^Light 99]: Light, Jennifer S. "When computers were women." Technology and culture 40.3 (1999): 455-483. [^Lucero 07]: A. Lucero, T. Lashina, E. M. A. Diederiks, and T. Mattelmäki, “How probes inform and influence the design process.,” DPPI, p. 377, 2007. [^Mao 01]: J.-Y. Mao, K. Vredenburg, P. W. Smith, and T. Carey, “User-centered design methods in practice - a survey of the state of the art.,” CASCON, 2001. [^Melican 04]: J. Melican, “User studies: Finding a place in design practice and education,” 2004 [^Miller 56]: Miller, G. A. (1956). "The magical number seven, plus or minus two: Some limits on our capacity for processing information". Psychological Review. 63 (2): 81–97. doi:10.1037/h0043158. PMID 13310704. [^Miller 68]: Miller, Robert B. "Response time in man-computer conversational transactions." Proceedings of the December 9-11, 1968, fall joint computer conference, part I. ACM, 1968. [^Molich 04]: R. Molich, M. R. Ede, K. Kaasgaard, and B. Karyukin, “Comparative usability evaluation,” Behaviour & Information Technology, vol. 23, no. 1, pp. 65–74, Jan. 2004. [^Nielsen 00]: J. Nielsen, “Why You Only Need to Test with 5 Users,” 2000. [Online]. Available: https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/. [Accessed: 17-Oct-2018]. [^Nielsen 06]: J. Nielsen, “Quantitative Studies: How Many Users to Test?,” 26-Jun-2006. [Online]. Available: https://www.nngroup.com/articles/quantitative-studies-how-many-users/. [Accessed: 17-Oct-2018]. [^Rittel 73]: H. W. J. Rittel and M. M. Webber, Dilemmas in a General Theory of Planning. 1973. [^Sarodnick 11]: Sarodnick Florian, Brau Henning, *Methoden der Usability Evaluation. Wissenschaftliche Grundlagen und praktische Anwendung.* Verlag Hans Huber. Bern. 2. Auflage. 2011. [^Schön 83]: Donald A. Schön, The reflective practitioner - how professionals think in action. Basic Books, 1983 [^Tractinsky 17]: N. Tractinsky, “The Usability Construct: A Dead End?,” pp. 1–90, Feb. 2017.