Was bringt Usability Evaluation

In der Usability-Community wird davon ausgegangen, dass Design getestet und nach allgemein gültigen Kriterien der Usability beurteilt werden kann. Usability Evaluation, so wird postuliert, ist also die objektive Aussensicht und das Gegenmittel gegen selbstherrliche Designer oder tyrannische Manager. Die Literatur aus Usability- und Designforschung zeigt hingegen, dass Usability Evaluation nicht das hält, was sie verspricht. Die falschen Versprechen basieren auf Fehlannahmen, mit der Theorie und Praxis bis heute zu kämpfen haben. Nicht indem sie Usability misst, sondern indem sie Fehlannahmen der Designer aufdeckt, trägt Usability Evaluation entscheidendes zum Designprozess bei. So die Argumentation im folgenden Artikel.

Zum Thema gibt es auch einen Vortrag am World Usabilit Day 2018 in Rapperswil.

Folgende Fehlannahmen, führen zu einem falschen Bild des Designprozesses und zu unnötigen Konflikten, zwischen den Beteiligten am Designprozess:

Usability ist messbar
Usability Metriken machen den Designprozess weniger subjektiv

Die Idee, dass Usability messbar sei, kommt aus seiner Entstehungsgeschichte. Das Konzept stammt ursprünglich aus dem Engineering:

Entwicklung der HCI-Evaluation ^[1]

Die Wurzeln des Usability-Konzepts liegen im Engineering. Als in den 40er und 50er Jahren die ersten Computer gebaut wurden, entstanden auch die ersten Benutzerinterfaces. Damals eher aufwändig zu bedienen, in Form von Kabeln, Steckkarten, Knöpfen und Schaltern. Aber das war nicht so wichtig, viel wichtiger war es, die Geräte zuverlässiger zu machen, damit sie nicht andauernd abstürzten.

Als dies gelungen war, beschäftigte sich eine nächste Generation von Ingenieuren damit, die Computer schneller zu machen, damit die Operatoren und Operatorinnen ^[2], so wurden die Nutzer damals genannt, nicht minutenlang auf die Resultate warten mussten. Ein Nachhall davon ist bis heute sichtbar, wo in Produkt-Spezifikationen immer noch steht, wie viele GHz ein Prozessor hat. Obwohl diese Information heutzutage immer weniger wichtig ist.

In den 60er Jahren waren Computer bereits schnell genug, dass sie einen grossen Teil ihrer Zeit damit verbrachten, auf die Eingabe der Nutzer zu warten. Aus dieser Zeit stammt darum auch das Timesharing. Der Fokus der Evaluation verschob sich darum immer mehr auf die Nutzer. Aus dieser Zeit stammen wichtige Erkenntnisse der Kognitionswissenschaft. Zum Beispiel, dass die Zeit zwischen einer Eingabe und dem visuellen Feedback maximal 0.1 Sekunden betragen durfte ^[3], dass Menschen kein allzu grosses Arbeitsgedächtnis hatten ^[4] und viele andere Prinzipien wie Fitts's Law ^[5].

Die Anwendung der wissenschaftlichen Methode zur stetigen Verbesserung der Interaktion zwischen Mensch und Maschine war bis dahin eine unglaubliche Erfolgsgeschichte. Genau wie vorher die Zuverlässigkeit und die Geschwindigkeit der Rechner gemessen wurde, sollten nun auch Zuverlässigkeit, Geschwindigkeit und Zufriedenheit der Nutzer gemessen und stetig verbessert werden. Irgendwann etablierte sich dafür der Begriff «Usability».

Usability ist nicht messbar

Die Usability-Experten knüpften an die Tradition der vorigen Generationen an und versuchten in den 80er und 90er Jahren zu klären, was ein Interface «usable» macht ^[6]. Aus dieser Zeit stammen eine Vielzahl verschiedener Definitionen, Ansätze und Evaluationsmethoden ^[7] ^[8].

Zum Anfang des Jahrtausends wurde klar, dass auch nach 30 Jahren kein Konsens darüber bestand was "Usability" genau misst. ^[9]. Rolf Molich führte in dieser Zeit eine Reihe von Studien durch in denen er mehrere Teams von Usability-Experten jeweils das gleiche Interface bewerten liess und kommt zum Schluss, dass die Annahme, dass Usability Experten alle dasselbe tun und zu denselben Resultaten kommen falsch ist.

Our main conclusion is that our simple assumption that we are all doing the same and getting the same results in a usability test is plainly wrong. ^[10]

Die Experten fanden in ihren Evaluationen grösstenteils höchst unterschiedliche Probleme. In über 70% der Fälle gab es von den neun Teams kein anderes, dass das gleiche Problem auch gefunden hatte. Und das sogar, wenn die gleiche Aufgabe getestet wurde.

Letztes Jahr stellte Noam Tractinsky in einer Diskussion ausführlich dar, dass der Begriff «Usability» vor allem dazu diente eine Reihe verwandter Ideen zusammenzufassen und keine irgendwie messbare Grösse darstellte. ^[11]. Diese Metriken können sich aber widersprechen. So kann es zum Beispiel vorkommen, dass nach einer Design-Iteration zwar die Task-completion-time tiefer ist als vorher, die Error rate dagegen gestiegen ist. So schlägt auch Tractinsky in seiner Kritik am bisherigen Usability-Konstrukt vor, dass dieses in mehrere messbare Variablen aufgeteilt und separat betrachtet werden.

Diese Sichtweise wird durch eine Analyse von Kaspar Hornbaek und Effie Lai unterstützt. Sie stellten in ihrer Meta-Analyse fest, dass die ISO-Metriken^[12]: Efficiency, Effectiveness und Satisfaction, eine schwache positive Korrelation aufweisen. ^[9:1] Das heisst, in etwas mehr als der Hälfte der Fälle macht ein Interface, das effektiver ist, die Nutzer auch zufriedener. Oder in etwas mehr als der Hälfte der Fälle ist ein Interface effektiver, mit dem die Nutzer auch zufriedener sind.

Das heisst aber im Umkehrschluss auch, dass in etwas weniger als der Hälfte der Fälle, die Nutzer mit einem Interface auch unzufriedener sein können, obwohl es effektiver ist usw. Die ISO-Metriken widersprechen sich also auch immer wieder.

Usability-Metriken machen den Designprozess nicht weniger subjektiv

Diskussionen über die wichtigste Metrik

Wenn Usability nicht mehr pauschal messbar ist, ergibt sich ein Problem: Der Anspruch, dass der Gestaltungsprozess dank Usability Evaluation weniger subjektiv ist^[13], lässt sich dadurch, aus meiner Sicht, nicht mehr erheben. Denn die Entscheidung welche Untergrösse wie stark zu gewichten ist, ist wiederum nicht objektiv.^[14] So mag ein Designer argumentieren, dass seine schönen Animationen wichtig für die Gestaltung sind, weil sie in den Nutzertests die Zufriedenheit erhöhen. Der Kunde wiederum, der nicht für diese Animationen bezahlen möchte, kann ebenso berechtigt argumentieren, dass dadurch die Effizienz sinkt.

Eine sehr ähnliche Situation findet sich in einem Artikel über Sozialpolitik aus den 70er-Jahren ^[15]. Horst Rittel und Melvin Webber beschreiben wie Entscheidungen über soziale Massnahmen wie Armutsbekämpfung getroffen werden. Ihre Beobachtungen decken sich mit dem, was in den vielen Fällen auch im Design geschieht: Jeder Beteiligte interpretiert die Fakten auf die Weise, die am besten zu dem passt, was er oder sie sich sowieso schon vorgenommen hatte.

People choose those explanations which are most plausible to them. Somewhat but not much exaggerated, you might say that everybody picks that explanation of a discrepancy which fits his intentions best and which conforms to the action-prospects that are available to him. ^[15:1]

Laut Rittel und Webber sind solche Situationen typisch für «wicked problems». Eine weitere unbequeme Eigenschaft von «wicked problems» ist, dass es keine definitive Formulierung des Problems gibt. Die Beteiligten sind sich zwar einig, dass ein Problem vorliegt, sie sind sich aber im Voraus nie ganz einige, was das Problem ist, das es zu lösen gilt.

Rittel und Weber formulieren es so:

The formulation of a wicked problem is the problem! ^[15:2]

Wenn aber nicht klar ist, welches Problem es zu lösen gilt. Wie lässt sich dann entscheiden, mit welchen Metriken eine potenzielle Lösung evaluiert werden kann?

Das Prinzip der Überraschung

Es besteht aber kaum ein Zweifel daran, dass Usability Evaluation einen wertvollen Beitrag zum Design liefern kann. So gaben auch in einer Studie aus dem Jahr 2001, 103 Experten aus dem UCD-Bereich an, dass Usability Evaluation sehr wichtig für ihre Praxis sei. Sie war laut Umfrage auch eine der am häufigsten verwendeten UCD-Methoden. ^[16] Es stellt sich also die Frage, worin der Beitrag der Usability Evaluation besteht.

Mit der «Verwissenschaftlichung des Designs»^[17] beschäftigte sich nicht nur das HCI-Design. Das Thema wurde auch in andere Designdisziplinen, wie Produktdesign und Architektur, zum Teil viel früher, diskutiert.^[17:1]

Die Autoren stellen fest, dass die Resultate von sorgfältiger Analysen und Messungen von Designern oft als wenig nützlich für die Gestaltung angesehen werden:

Ohne mit einer voreiligen Erklärung aufwarten zu wollen, sei nur verzeichnet, dass bislang keine Designmethodologie – auch nicht in ihrer fortgeschrittenen Gestalt wie bei Ch. Alexander – Techniken berät, diesen Übersetzungsprozess eines analytischen Schemas in eine Form erfolgreich zu bewerkstelligen. Hier also hätten zukünftige Bemühungen in eine methodologische Appretur des Designprozesses anzusetzen. ^[17:2], p. 29

Die Beobachtung, die Bonsiepe hier sehr direkt beschreibt, wird als Applicability Gap bezeichnet. Auch aktuellere Autoren erwähnen das Problem ^[18], ^[19]: Es gibt keinen eindeutigen, direkten Weg vom (noch so guten) mentalen Modell zur Form.

Das Problem lässt sich gut an einem Beispiel illustrieren:

Angenommen Sie gestalten einen Stuhl. Und sie möchten wissen wie hoch er sein muss, damit Leute gut darauf sitzen können (eine Sitability-Metrik sozusagen). Dafür beauftragen sie einen Experten, der für sie zwei Stuhlhöhen testet. Es stellt sich heraus, dass der kleinere besser als der grössere ist. Sie testen also eine noch kleinere Variante. Und wieder ist der kleinere besser. Als sie bei der optimalen Grösse ankommen, erscheint Ihnen der Stuhl nun doch etwas zu klein. Sie erkundigen sich also über die Tester, und es stellt sich heraus, dass der Experte auch Kinder in die Messung miteinbezogen hatte. Daran hatten sie ja gar nicht gedacht, sie kommen zum Schluss, dass sie einen höhenverstellbaren Stuhl gestalten müssen.

Direkte und Indirekte Weg zu einem Design

Am Anfang wird davon ausgegangen, dass das Problem bekannt ist. Der Designer geht die Gestaltung darum analytisch an. Es besteht scheinbar ein direkter Zusammenhang zwischen den Erkenntnissen der Messung (Durchschnittsgrösse) und dem neuen Design (kleinerer Stuhl). Die überraschende Erkenntnis, dass das Design auch Kinder berücksichtigen sollte, führt dagegen nicht direkt zu einer Änderung des Designs, sondern zu einer Änderung des Problemverständnisses. Das neue Problemverständnis führt einerseits zu einem neuen Design, das nicht direkt auf den Metriken basiert. Und das neue Design macht die alte Metrik in der Folge sogar nutzlos.

So argumentieren die obigen Autoren^[19:1], ^[18:1], dass die Definition und Neudefinition von Metriken innerhalb des Designprozesses geschieht. Wie aber die Metriken angepasst werden sollen, wird erst klar, nachdem ein neues Design besteht^[20], das auf die Überraschungen reagiert.

Die Behauptung ist daher, dass es vor allem die Überraschungen sind, die den Designprozess vorantreiben. Das ist vermutlich der Grund, warum Designer Rohdaten wie Videoaufnahmen oder Transkripte aus Usability Evaluationen bevorzugen.^[19:2], ^[18:2] Aus ihnen resultieren viel eher Überraschungen. Aus dem gleichen Grund kommt vermutlich auch Jakob Nielsen zu der Empfehlung, dass für die Usability Evaluation nur fünf Nutzer nötig sind. ^[21]. Er zeigt sehr schön auf, dass jeder weitere Nutzer immer weniger neue Probleme findet.

Donald Schön, ein Designtheoretiker aus den 80er Jahren, beschreibt den Vorgang wie folgt:

The practitioner allows himself to experience surprise, puzzlement, or confusion in a situation which he finds uncertain or unique. He reflects on the phenomena before him, and on the prior understandings which have been implicit in his behaviour. He carries out an experiment which serves to generate both a new understanding of the phenomena and the change in the situation. ^[22]

In diesem neuen Verständnis konzentriert sich die Usability Evaluation nicht auf die Verbesserung von Metriken, sondern auf die Überprüfung von Annahmen über das Problem. Es liegt also im Endeffekt beim Designer zu entscheiden, welches das beste Design gemäss seinem Verständnis des Problems ist. Es liegt hingegen in der Verantwortung der Usability Experten, dem Designer aufzuzeigen, welche seiner Annahmen falsch sind.

Quellen

Joseph Kaye, "What History Can Teach Us About Evaluation in HCI", 2007. Accessed 2018-08-28: https://www.youtube.com/watch?v=pgoPtM5xELY ↩︎
Light, Jennifer S. "When computers were women." Technology and culture 40.3 (1999): 455-483. ↩︎
Miller, Robert B. "Response time in man-computer conversational transactions." Proceedings of the December 9-11, 1968, fall joint computer conference, part I. ACM, 1968. ↩︎
Miller, G. A. (1956). "The magical number seven, plus or minus two: Some limits on our capacity for processing information". Psychological Review. 63 (2): 81–97. doi:10.1037/h0043158. PMID 13310704. ↩︎
Fitts, Paul M.; Peterson, James R. (February 1964). "Information capacity of discrete motor responses". Journal of Experimental Psychology. 67 (2): 103–112. doi:10.1037/h0045689. ↩︎
Carroll, John M., and Mary Beth Rosson. Usability Specifications as Tool in Iterative Development. No. RC-10437. IBM THOMAS J WATSON RESEARCH CENTER YORKTOWN HEIGHTS NY, 1984. ↩︎
Hornbæk, K. (2006). Current practice in measuring usability: Challenges to usability studies and research, International Journal of Human-Computer Studies, 64(2), 79-102 ↩︎
Sarodnick Florian, Brau Henning, Methoden der Usability Evaluation. Wissenschaftliche Grundlagen und praktische Anwendung. Verlag Hans Huber. Bern. 2. Auflage. 2011. ↩︎
Hornbæk, K., and Law, E. L. Meta-analysis of correlations among usability measures. In Proc. CHI 2007, ACM Press (2007), 617-626. ↩︎ ↩︎
R. Molich, M. R. Ede, K. Kaasgaard, and B. Karyukin, “Comparative usability evaluation,” Behaviour & Information Technology, vol. 23, no. 1, pp. 65–74, Jan. 2004. ↩︎
N. Tractinsky, “The Usability Construct: A Dead End?,” pp. 1–90, Feb. 2017. ↩︎
DIN EN ISO 9241 ↩︎
Bias, R.G., Kortum, P., Sauro, J. & Gillan, D. (2013). Clothing the naked emperor: The unfulfilled promise of the science of usability. Interactions, 20(6), 72-77. ↩︎
A. Gross and S. Bongartz, “Why do I like it? - investigating the product-specificity of user experience.,” NordiCHI, p. 322, 2012. ↩︎
H. W. J. Rittel and M. M. Webber, Dilemmas in a General Theory of Planning. 1973. ↩︎ ↩︎ ↩︎
J.-Y. Mao, K. Vredenburg, P. W. Smith, and T. Carey, “User-centered design methods in practice - a survey of the state of the art.,” CASCON, 2001. ↩︎
Bonsiepe, Gui: Arabesken der Rationalität. Anmerkungen zur Methodologie des Design. Ulm. 1967. ↩︎ ↩︎ ↩︎
J. Melican, “User studies: Finding a place in design practice and education,” 2004 ↩︎ ↩︎ ↩︎
R. Chow, “For User Study. The Implications of Design,” 2005. ↩︎ ↩︎ ↩︎
A. Lucero, T. Lashina, E. M. A. Diederiks, and T. Mattelmäki, “How probes inform and influence the design process.,” DPPI, p. 377, 2007. ↩︎
J. Nielsen, “Why You Only Need to Test with 5 Users,” 2000. [Online]. Available: https://www.nngroup.com/articles/why-you-only-need-to-test-with-5-users/. [Accessed: 17-Oct-2018]. ↩︎
Donald A. Schön, The reflective practitioner - how professionals think in action. Basic Books, 1983 ↩︎