Game-based Assessments – mehr als nur Spielerei?

Den Traumjob finden, Unternehmensinformationen recherchieren und letztendlich die Bewerbung abschicken – all dies passiert heutzutage häufig über das Smartphone. Kein Wunder, dass nun auch in der Personalauswahl mobiloptimierte Auswahlverfahren zunehmend an Bedeutung gewinnen (Nikou & Economides, 2018). Dabei erfreuen sich vor allem sogenannte Game-based Assessments steigender Beliebtheit.

‍
Unter gamified oder Game-based Assessments versteht man spielerisch aufbereitete psychologische Testverfahren. Idee dieser Testverfahren ist, dass Ergebnisse in psychometrisch entwickelten Minispielen Rückschlüsse auf kognitive, soziale und persönlichkeitsbasierte Eigenschaften von Bewerbern zulassen. Wissenschaftliche Studien legen nahe, dass dies tatsächlich möglich ist (z. B. Brown et al. 2014). Gleichermaßen vertrauen immer mehr große Unternehmen wie etwa LinkedIn, Tesla, McKinsey oder Deloitte auf diese neue Methode der Personalauswahl.

‍

Spiele auf dem Smartphone statt mehrstündige Testverfahren und weite Anreisen

Das klingt soweit gut, doch eignen sich die Verfahren tatsächlich, um zwischen geeigneten und ungeeigneten Bewerber:innen zu unterscheiden? Diese Frage beschäftigt derzeit viele Personalverantwortliche. Häufig stehen diese den Verfahren dabei noch eher skeptisch gegenüber. Begründete Skepsis oder Verschlafen eines Trends? Zeit sich diese Verfahren genauer in Bezug auf zentrale wissenschaftliche Testgütekriterien anzuschauen. Denn nur wenn diese Kriterien erfüllt sind, kann von einem wissenschaftlich fundierten Testverfahren gesprochen werden (Kubinger, 2019).

Wir wollen uns die drei Hauptgütekriterien der klassischen Testtheorie (Objektivität, Reliabilität, Validität) und zwei wichtige Nebengütekriterien (Fairness, Ökonomie) genauer anschauen.

‍

Objektivität

Objektivität eines Testverfahrens liegt vor, wenn verschiedene Personalverantwortliche zur selben Einschätzung eines Bewerbenden kommen. Gefahren für die Objektivität ergeben sich vor allem im klassischen Jobinterview. So können die Urteile der Personalverantwortlichen durch verschiedenste Aspekte, wie etwa die empfundene Sympathie für den Bewerbenden, beeinflusst werden. Somit ergibt sich ein verzerrtes Bild der Fähigkeiten und Persönlichkeitseigenschaften des Bewerbenden – das Verfahren ist nicht objektiv. An dieser Stelle kommt einer der zentralen Vorteile von Game-based Assessments zum Tragen. Denn durch die technologiebasierte Durchführung und automatisierte Testauswertung, die sich neueste Erkenntnisse im Bereich des maschinellen Lernens zunutze machen, lassen sich zahlreiche Fehlerquellen reduzieren – die Objektivität des Verfahrens steigt. Ein Nachteil der Game-based Assessments ist hingegen, dass keine Sicherheit darüber besteht, ob es sich bei dem Spielenden tatsächlich um den Bewerbenden handelt und nicht etwa um eine andere Person (auch als „Impersonation“ bezeichnet). Dieses Problem besteht jedoch bei allen online durchgeführten Auswahlverfahren und ist einer der Gründe, weshalb Game-based Assessments bislang vor allem in der Bewerbervorselektion Anwendung finden.

‍

Reliabilität

Ein weiteres wichtiges Gütekriterium ist die Reliabilität eines Testverfahrens. Diese beschreibt das Ausmaß, zu dem ein Test ein Merkmal (z. B. eine kognitive Fähigkeit oder eine Persönlichkeitseigenschaft) genau (d. h. ohne Messfehler) misst. Dies gelingt in der Regel besser, je mehr Daten über diese Person zur Verfügung stehen. Dies lässt sich an einem einfachen Beispiel verdeutlichen: Stell dir vor, du führst einen Konzentrationstest nach einem langen, stressigen Arbeitstag durch. Zudem wirst du von der lauten Musik deiner Nachbarn gestört. Das Testergebnis wird folglich vermutlich nicht deine tatsächliche Konzentrationsfähigkeit widerspiegeln (sogenannte „Traits“), sondern eher eine situationsbedingte und temporäre Messung dieser darstellen (sogenannter „State“, vgl. Fleeson 2001). Denn mit Sicherheit wirst du schlechter abschneiden als an einem Tag, an dem du ausgeschlafen und ungestört sind. Wird deine Konzentrationsfähigkeit jedoch an verschiedenen Tagen erfasst, gleichen sich solche zufällige Messfehler zunehmend aus. Dies wird in der Statistik auch als zentraler Grenzwertsatz bezeichnet. Genau an diesem Punkt setzt die Idee der Game-based Assessments an. Statt von einem einzigen Testergebnis auf die Konzentrationsfähigkeit des Bewerbenden zu schließen, werden die Ergebnisse verschiedener Spieldurchläufe gespeichert und gemittelt. Folglich resultiert eine genauere Schätzung der tatsächlichen Konzentrationsfähigkeit (Trait) des Bewerbenden.

‍

Validität

Doch ein Verfahren soll natürlich nicht nur genau messen, sondern eben auch das Richtige (Validität). In der Personalauswahl ist man dabei primär an der Vorhersagevalidität interessiert – der Test soll also eine bestimmte Größe möglichst genau vorhersagen. Eine häufig verwendete Größe ist die zukünftige Arbeitsleistung des Bewerbers. Ähnlich wie bei der Reliabilität und Objektivität existieren verschiedene Fehlerquellen, die sich negativ auf die Vorhersagevalidität auswirken können. Zum einen sind hier Antworttendenzen der Bewerber:innen zu nennen. Ein besonderes Problem bei der Anwendung klassischer Testverfahren stellt soziale Erwünschtheit dar. Darunter versteht man die Tendenz von Bewerber:innen, bewusst Antworten auszuwählen, die sie in einem positiven Licht dastehen lassen. Dies ist insbesondere von Bedeutung, wenn das Ziel des Tests leicht zu durchschauen ist. Und dies ist insbesondere in der Persönlichkeitsdiagnostik häufig der Fall. Sehen wir uns beispielhaft eine Aussage aus dem Big Five, einem der bekannten Verfahren in der Persönlichkeitsdiagnostik (Asendorpf & Neyer, 2012) an. Bewerber werden dabei gebeten ihre Zustimmung zu folgender Aussage anzugeben:

„Ich sehe mich selbst als jemand, der zuverlässig und gewissenhaft ist.“

Es liegt auf der Hand, dass nur wenige Menschen eine solche Aussage im Bewerbungsverfahren für ihren Traumjob verneinen würden. Ob sich das Item also eignet, um zwischen gewissenhaften und nicht gewissenhaften Bewerber:innen zu unterscheiden, ist fraglich.

‍
Doch nicht immer versuchen Bewerbende die Ergebnisse aktiv zu manipulieren. Ebenso häufig haben sie einfach Schwierigkeiten damit, ihre eigenen Persönlichkeitseigenschaften, Stärken und Schwächen einzuschätzen. Denn was bedeutet denn überhaupt gewissenhaft oder extrovertiert sein? Und wie gewissenhaft oder extrovertiert bin ich eigentlich? Dies ist oft gar nicht so leicht zu beantworten und wird in der Psychologie auch als mangelnde Fähigkeit zur Introspektion bezeichnet. Um die Frage zu vereinfachen, nehmen Bewerbende häufig einen Vergleich zu Personen im Umfeld vor. Damit wird primär die Frage beantwortet: Wie gewissenhaft oder extrovertiert bin ich im Vergleich zu den Personen in meinem Umfeld? Eine Reihe wissenschaftlicher Studien zeigt, dass diese Änderung der Frage häufig zu Verzerrungen führt (z.B. Schwarz, 1999).

‍
Game-based Assessments umgehen genau diese Problematik

‍Statt sich allein auf die Selbstauskunft des Bewerbenden zu verlassen, werden in den Minispielen zusätzlich Verhaltensnuancen der Bewerber:innen erfasst. So wird beispielsweise die Präferenz der Bewerber für Geschwindigkeit im Vergleich zu Genauigkeit in den einzelnen Spielen beobachtet. Die so erfassten Verhaltensnuancen werden anschließend genutzt, um die fehleranfällige Selbstauskunft des Bewerbenden um objektive Daten zu ergänzen. Eine optimale Gewichtung der Daten gelingt dabei mit Hilfe intelligenter selbstlernender Algorithmen. Tatsächliches Verhalten erfassen statt sich allein auf die Aussage des Bewerbenden verlassen – klingt logisch oder? Und auch wissenschaftliche Forschung zeigt, dass dieser Ansatz bei der Erfassung vieler Merkmale zu valideren Ergebnissen führt als eine reine Selbstauskunft (z.B. Baumeister et al., 2007).

‍

Testfairness

Ein weiteres wichtiges Gütekriterium ist die Testfairness. So sollte keine Gruppe in einem Testverfahren systematisch benachteiligt werden (z. B. basierend auf Geschlecht oder ethnischem Hintergrund). Dies ist jedoch bei vielen Testverfahren der Fall, da beispielsweise Fragen auf westliche Kulturkreise ausgerichtet sind (Camilli, 2006). Geschlecht, ethnischer Hintergrund und Hautfarbe – dies spielt für das Testergebnis der weitgehend sprachfreien Minispiele hingegen keine Rolle. Auch für die teils geäußerte Sorge, dass Personen mit Gaming-Erfahrung bei der Bearbeitung Vorteile haben könnten, existieren bisher keine wissenschaftlichen Nachweise. Eignungsdiagnostische Verfahren bewerten hier nur die Faktoren, die für den Arbeitserfolg relevant sind, und lassen irrelevante Merkmale, wie Geschlecht oder soziale Herkunft außen vor. Dadurch entsteht mehr Fairness und Chancengleichheit.

‍

Testökonomie

Das letzte betrachtete Kriterium, die Testökonomie, wurde bereits zu Anfang kurz angesprochen. So sollten sich Auswahlverfahren durch eine geringe Zeitdauer, geringe Kosten und einen geringen Aufwand für den Bewerbenden auszeichnen. Game-based Assessments folgen hier der Idee einer „zero-footprint“ Messung – eine Belastung für Bewerbende existiert quasi nicht mehr – stattdessen machen die Spiele häufig sogar richtig Spaß. Da die einzelnen Aufgaben mit Hilfe von intelligenten Algorithmen individuell auf den Bewerbenden angepasst werden können(man spricht auch von adaptivem Testen), werden die Spiele zudem nicht langweilig. Doch nicht nur Bewerber:innen, sondern auch Unternehmen profitieren. So sind die Kosten- und Zeiteinsparungspotenziale im Vergleich zu anderen Testverfahren (z.B. Assessment-Center) enorm. Dies gilt insbesondere bei sehr heterogenen und internationalen Zielgruppen.

‍

Jetzt kostenlos herunterladen: Unser tabellarischer Überblick zu den zentralen Fehlerquellen beruflicher Eignungsdiagnostik und der Adressierung dieser durch Game-based Assessments.

‍

Fazit

Die Betrachtung zeigt, dass es die modernen Verfahren durchaus mit etablierten psychometrischen Verfahren aufnehmen können. Denn Spaß, Messgenauigkeit, Validität und Fairness – diese Faktoren müssen sich nicht ausschließen. In Kombination tragen sie zu einer Personalauswahl bei, die sich an wissenschaftlichen Standards orientiert und den sich ändernden Bedürfnissen einer neuen Zielgruppe gerecht wird.

Alle Testgütekriterien in der Praxis umzusetzen ist jedoch nicht immer leicht. So erfüllen viele auf dem Markt existierende psychometrische Spiele nicht die genannten Gütekriterien (König et al., 2010). Folglich sollten die Verfahren kritisch geprüft werden, bevor sie als Teil einer professionellen Personalauswahl Anwendung finden. Die DIN 33430 zur beruflichen Eignungsdiagnostik schafft hier einen wichtigen Bezugsrahmen

Dr. Aline Lanzrath

Psychologin