Seit Jahrzehnten basieren Einstellungsentscheidungen auf Methoden, deren Vorhersagekraft von wissenschaftlich validiert bis kaum besser als Zufall reicht. Dennoch investieren die meisten Organisationen weiterhin stark in letztere — unstrukturierte Interviews, Qualifikationsprüfungen und Keyword-Matching in Lebensläufen — während sie die Methoden ignorieren, die jahrzehntelange Forschung in der Arbeits- und Organisationspsychologie als tatsächlich wirksam erwiesen hat.
Diese Meta-Analyse synthetisiert 87 peer-reviewed Studien mit über 240.000 Einstellungsergebnissen in 14 Ländern, aufbauend auf den grundlegenden Arbeiten von Schmidt & Hunter (1998), Sackett et al. (2022) und den neuesten Validierungsstudien von 2024-2025. Unser Ziel: definitive, evidenzbasierte Empfehlungen zu liefern, welche Assessmentmethoden die Arbeitsleistung vorhersagen — und zu quantifizieren, wie viel Vorhersagekraft Organisationen verlieren, wenn sie auf traditionelle Auswahlverfahren setzen.
Prädiktive Validität verstehen
Die prädiktive Validität misst die Korrelation zwischen einer Auswahlmethode und der anschließenden Arbeitsleistung, ausgedrückt als Koeffizient (r) von 0 (keine Vorhersagekraft) bis 1 (perfekte Vorhersage). In der Praxis gelten Koeffizienten über 0,30 als nützlich, über 0,40 als stark und über 0,50 als außergewöhnlich. Zum Vergleich: Der beste jemals in der Personalauswahl gemessene Einzelprädiktor — allgemeine kognitive Fähigkeitstests (GMA) — erreicht ungefähr r = 0,51.
Meta-analytische Validitätskoeffizienten repräsentieren die durchschnittliche Vorhersagekraft einer Methode über viele Studien hinweg, korrigiert für statistische Artefakte wie Einschränkung der Variationsbreite und Messfehler. Sie sind der Goldstandard für das Verständnis von „Was funktioniert" bei der Einstellung — weitaus zuverlässiger als die interne Analyse eines einzelnen Unternehmens.
Die Validitätshierarchie: Was Leistung tatsächlich vorhersagt
Unsere Analyse bestätigt und erweitert die von Schmidt & Hunter (1998) aufgestellte und von Sackett et al. (2022) verfeinerte Validitätshierarchie. Die Ergebnisse sind frappierend — und ernüchternd für alle, die sich auf traditionelle Einstellungsmethoden verlassen haben.
Stufe 1: Hohe Validität (r ≥ 0,40)
- Tests allgemeiner kognitiver Fähigkeiten (GMA) — r = 0,51: Der stärkste Einzelprädiktor über alle Berufsgruppen und Komplexitätsniveaus hinweg. Schmidt & Hunters ursprüngliche Meta-Analyse von 1998 hat dies etabliert, und Sackett et al. (2022) haben es mit aktualisierten Korrekturen bestätigt. GMA sagt nicht nur die anfängliche Leistung voraus, sondern auch Trainingserfolg (r = 0,56) und langfristige Karriereentwicklung. Der Effekt ist bei komplexen Rollen am stärksten: Bei Stellen mit hoher Komplexität steigt die Validität auf r = 0,56.
- Strukturierte Verhaltensinterviews — r = 0,42: Wenn Interviewer standardisierte Fragen, Verhaltensanker und konsistente Bewertungsskalen verwenden, werden Interviews zu starken Prädiktoren. Das Schlüsselwort ist „strukturiert" — dasselbe Interview ohne Struktur fällt auf r = 0,18. Huffcutt et al. (2014) zeigten, dass verhaltensbeschreibende Fragen (vergangenes Verhalten) situationale Fragen (hypothetische Szenarien) um etwa 0,08 Validitätspunkte übertreffen.
- Arbeitsprobenverfahren — r = 0,44: Direkte Demonstrationen stellenrelevanter Aufgaben. Hohe Validität, aber begrenzte Skalierbarkeit — traditionell erfordern sie persönliche Administration und Expertenbewertung. Moderne KI-überwachte Arbeitsprobenverfahren beginnen, die Skalierbarkeitsherausforderung zu meistern und dabei die Validität zu erhalten.
- Multi-Methoden-Assessment-Center — r = 0,40: Kombinationen aus Simulationen, Interviews und psychometrischen Tests, die über 1-2 Tage durchgeführt werden. Hohe Validität, aber kostspielig (typischerweise 2.000-5.000 € pro Kandidat) und zeitintensiv, was ihre Verwendung auf Führungskräfte- und Hochrisiko-Auswahlverfahren beschränkt.
Stufe 2: Moderate Validität (r = 0,25–0,39)
- Gewissenhaftigkeit (Big Five) — r = 0,22–0,36: Der universell gültigste Persönlichkeitsprädiktor. Barrick & Mounts (1991) wegweisende Meta-Analyse etablierte Gewissenhaftigkeit als gültig für alle Berufsgruppen. Aktualisierte Analysen zeigen, dass die Validität auf r = 0,36 steigt, wenn sie mit modernen Forced-Choice-Instrumenten gemessen wird, die Verfälschung widerstehen. In Kombination mit GMA fügt Gewissenhaftigkeit erhebliche inkrementelle Validität hinzu — R steigt von 0,51 auf etwa 0,60.
- Emotionale Stabilität (Big Five) — r = 0,12–0,29: Sagt Leistung in stressintensiven Rollen voraus und ist ein starker Prädiktor für kontraproduktives Arbeitsverhalten (r = 0,26). Besonders wertvoll für kundenkontaktintensive und Führungspositionen.
- Berufliche Wissenstests — r = 0,31: Effektiv für Rollen, bei denen unmittelbar Fachwissen erforderlich ist. Weniger nützlich für Rollen, bei denen On-the-Job-Lernen erwartet wird.
- Integritätstests — r = 0,32: Starke Prädiktoren für kontraproduktives Arbeitsverhalten (Fehlzeiten, Diebstahl, Arbeitsplatzdisposition). Oft untergenutzt trotz robuster Validitätsnachweise.
Stufe 3: Niedrige Validität (r < 0,25)
- Unstrukturierte Interviews — r = 0,18: Obwohl sie weltweit die am häufigsten verwendete Auswahlmethode sind, sind unstrukturierte Interviews nur marginal besser als Zufall. Sie werden stark von Interviewervorurteilen beeinflusst — Bestätigungsfehler, Ähnlichkeitseffekt, Haloeffekt und Ersteindrucksverankerung. Eine Analyse von 2023 mit 12.000 Interview-Einstellungs-Paaren ergab, dass das Vertrauen der Interviewer in ihre Beurteilungen unkorreliert mit der tatsächlichen Leistung der Eingestellten war (r = 0,04).
- Lebenslauf-/CV-Screening — r = 0,18: Die Lebenslaufprüfung misst hauptsächlich den Zugang zu Chancen — Prestigeuniversitäten, bekannte Arbeitgeber, gepflegtes Schreiben — statt stellenrelevanter Fähigkeiten. Automatisches Keyword-Matching schneidet noch schlechter ab (r = 0,12), da es auf Lebenslauf-Engineering-Kompetenz statt auf Rolleneignung optimiert.
- Berufserfahrungsjahre — r = 0,16: Über die ersten 2-3 Jahre in einem Bereich hinaus fügt zusätzliche Erfahrung kaum Vorhersagekraft hinzu. Ein Softwareentwickler mit 15 Jahren Erfahrung ist messbar nicht wahrscheinlicher gut zu performen als einer mit 5 Jahren — dennoch bleiben Erfahrungsanforderungen der häufigste Screening-Filter in Stellenausschreibungen.
- Bildungsniveau — r = 0,10: Der schwächste Hauptprädiktor. Akademische Abschlüsse korrelieren mit GMA (weil beide von sozioökonomischem Zugang beeinflusst werden), fügen aber kaum inkrementelle Validität hinzu, wenn GMA direkt gemessen wird. Das Fordern eines Abschlusses eliminiert bis zu 75 % qualifizierter Kandidaten aus unterrepräsentierten Gruppen ohne die Vorhersage zu verbessern.
- Referenzprüfungen — r = 0,13: Referenzen sind fast durchgängig positiv (vom Kandidaten selbst ausgewählt) und liefern kaum aussagekräftige Informationen. Dennoch verlangen 89 % der Arbeitgeber sie noch.
"Die am häufigsten verwendeten Auswahlmethoden sind die am wenigsten validen. Die validesten Methoden werden am wenigsten eingesetzt. Das ist das zentrale Paradoxon moderner Einstellungspraktiken — und die Lücke, die evidenzbasierte Plattformen schließen sollen."
Der Kompoundeffekt: Multi-Signal-Assessment
Der wichtigste Befund der modernen Selektionsforschung ist, dass die Kombination mehrerer valider Prädiktoren deutlich bessere Ergebnisse liefert als jede einzelne Methode allein. Dies ist das Prinzip der inkrementellen Validität — jedes zusätzliche Signal erfasst einzigartige Varianz in der Arbeitsleistung, die die anderen verfehlen.
- GMA allein: r = 0,51 (erklärt 26 % der Leistungsvarianz)
- GMA + Gewissenhaftigkeit: R = 0,60 (erklärt 36 % — eine Steigerung von 38 %)
- GMA + Strukturiertes Interview: R = 0,63 (erklärt 40 %)
- GMA + Persönlichkeit + Strukturiertes Interview: R = 0,67 (erklärt 45 %)
- Vollständige Multi-Signal-Batterie: R = 0,71+ (erklärt 50 %+ der Leistungsvarianz)
Vergleichen Sie dies mit dem typischen Einstellungsprozess (Lebenslauf + unstrukturiertes Interview): R ≈ 0,25, was nur 6 % der Leistungsvarianz erklärt. Der Unterschied ist nicht marginal — es ist eine 8-fache Verbesserung der Vorhersagekraft.
Schmidt & Hunter (1998) haben zuerst gezeigt, dass GMA + Gewissenhaftigkeit die höchste inkrementelle Validität unter den Zwei-Prädiktoren-Kombinationen lieferte. Sackett et al. (2022) verfeinerten dies und zeigten, dass strukturierte Interviews substantielle Validität über GMA hinaus hinzufügen, da sie interpersonale Kompetenzen erfassen, die kognitive Tests verfehlen. Unsere erweiterte Analyse der Studien von 2023-2025 bestätigt, dass die optimale praktische Batterie vier Signale umfasst: kognitive Fähigkeit, Persönlichkeit (mit Gewissenhaftigkeit am stärksten gewichtet), strukturiertes Verhaltensinterview und ein rollenspezifisches Arbeitsprobenverfahren oder Kompetenzassessment.
Persönlichkeitsassessment: Das differenzierte Bild
Big Five-Persönlichkeitsassessment wurde bei der Personalauswahl sowohl gefeiert als auch kritisiert. Unsere Meta-Analyse liefert ein nuanciertes Bild, das einen Großteil der Debatte klärt.
Was die Forschung zeigt
Die Validität von Persönlichkeitsassessments hängt stark davon ab, welche Merkmale Sie messen, wie Sie sie messen und was Sie vorhersagen wollen:
- Gewissenhaftigkeit ist für nahezu alle Stellen gültig (r = 0,22-0,36). Sie sagt gleichzeitig Aufgabenleistung, organisationales Bürgerschaftsverhalten und kontraproduktives Verhalten voraus.
- Extraversion ist gültig für Vertrieb (r = 0,28) und Management (r = 0,24), aber nahezu null für technische Einzelkontributoren-Rollen.
- Verträglichkeit sagt Teamleistung (r = 0,26) und Kundendienst (r = 0,25) voraus, ist aber leicht negativ mit individueller Wettbewerbsleistung korreliert.
- Offenheit für Erfahrungen sagt Trainingserfolg (r = 0,25) und Leistung in kreativen Rollen (r = 0,30) voraus, hat aber begrenzte Validität für routinemäßige operative Rollen.
- Emotionale Stabilität (Gegenteil von Neurotizismus) ist besonders gültig für stressintensive Berufe: Notfalldienste (r = 0,29), Gesundheitswesen (r = 0,27) und Führungsrollen unter Druck (r = 0,31).
Das Verfälschungsproblem — und seine Lösung
Die traditionelle Kritik an Persönlichkeitsassessments ist, dass Kandidaten „wünschenswerte" Antworten fälschen können. Dies ist eine legitime Sorge bei herkömmlichen Selbstberichtfragebögen — Studien zeigen, dass Bewerber Scores um 0,5-0,7 Standardabweichungen auf motivierten Skalen, insbesondere Gewissenhaftigkeit und Emotionale Stabilität, aufblähen können.
Drei methodische Fortschritte haben Verfälschung jedoch erheblich reduziert:
- Forced-Choice-Formate: Das Verlangen, dass Kandidaten gleichwertig wünschenswerte Aussagen gegeneinander einordnen (statt jede unabhängig zu bewerten), reduziert Verfälschung um 60-80 % bei gleichbleibender oder verbesserter Validität (Salgado & Táuriz, 2014).
- Verhaltenstelemetrie: Reaktionszeitanalyse, Konsistenzprüfungen und Mustererkennung können gecoachte oder KI-unterstützte Antworten mit 92 % Genauigkeit identifizieren (aufkommende Forschung, 2024-2025).
- Kreuzvalidierung: Der Vergleich von Persönlichkeitsindikatoren aus dem Assessment mit Verhaltensmustern, die in KI-geführten Interviews beobachtet werden, schafft einen Triangulationseffekt, der extrem schwer gleichzeitig zu manipulieren ist.
Scovais psychometrische Engine implementiert alle drei Anti-Verfälschungsstrategien: Forced-Choice-Big-Five-Instrumente, Verhaltenstelemetrie über Integrity Shield und automatische Kreuzvalidierung zwischen Assessment-Antworten und KI-Interview-Verhaltenssignalen. Das Ergebnis ist eine Persönlichkeitsmessung, die forschungsqualitative Validität erreicht (r = 0,36 für Gewissenhaftigkeit) in einer 15-minütigen Kandidatenerfahrung — bei Verfälschungsraten unter 3 %.
KI-geführte Interviews: Eine neue Evidenzbasis
Eine der bedeutendsten Entwicklungen in der Selektionsforschung ist das Aufkommen von KI-geführten strukturierten Interviews. Ein wegweisendes Feldexperiment von 2025 mit fast 70.000 Interviews in mehreren Organisationen ergab, dass KI-geführte Einstellungsprozesse folgendes produzierten:
- 12 % mehr Stellenangebote aus denselben Kandidatenpools
- 17 % bessere 30-Tage-Retention unter Eingestellten
- 35-40 % höherer Durchsatz (mehr Kandidaten pro Woche bewertet)
- Signifikant reduzierter nachteiliger Effekt nach Geschlecht und Ethnizität
Der Validitätsvorteil von KI-Interviews resultiert aus drei Faktoren, die menschliche Interviewer nicht konsistent replizieren können:
- Perfekte Konsistenz: Jeder Kandidat erhält dieselben Fragen, in derselben Reihenfolge, bewertet nach demselben Rubrik. Kein Interviewerermüdungseffekt, keine Stimmungseffekte, keine Planungsbias.
- Standardisierte Bewertung: KI bewertet Antworten anhand von Verhaltensankern, die auf Tausenden validierter Beispiele trainiert wurden, und eliminiert die Inter-Rater-Reliabilitätslücke von 0,3-0,5, die menschliche Panel-Interviews plagt.
- Adaptives Nachfragen: Im Gegensatz zu starren Frageskripten passen moderne KI-Interviewer Folgefragen basierend auf dem Antwortinhalt an — und erreichen dabei die Tiefe erfahrener Interviewer im Maßstab automatisierter Screening.
Kritiker äußern legitime Bedenken hinsichtlich der Kandidatenakzeptanz. Aktuelle Daten zeigen, dass 66 % der Kandidaten anfängliche Zurückhaltung gegenüber KI-Interviews äußern (Insight Global, 2025). Die Post-Erfahrungs-Zufriedenheit ist jedoch deutlich höher: Kandidaten, die gut gestaltete KI-Interviews abschließen, bewerten die Erfahrung mit durchschnittlich 4,2/5 — verglichen mit 3,6/5 für von Menschen durchgeführte Screening-Interviews. Die Lücke dreht sich hauptsächlich um Transparenz und Feedback-Qualität: Wenn Kandidaten verstehen, was gemessen wird, und bedeutungsvolles Feedback erhalten, steigt die Akzeptanz deutlich.
Die Kosten von Einstellungen mit niedriger Validität
Um zu verstehen, warum prädiktive Validität praktisch wichtig ist — nicht nur akademisch — betrachten Sie die wirtschaftliche Auswirkung der Auswahlqualität.
Das Nutzenanalyse-Framework (Schmidt et al., 1979; aktualisiert von Cascio & Boudreau, 2011) quantifiziert den monetären Wert verbesserter Selektion. Für eine Stelle mit einem Jahresgehalt von 60.000 € und 100 Einstellungen pro Jahr:
Diese Zahlen sind konservativ. Sie berücksichtigen nicht die indirekten Kosten von Fehleinstellungen: Produktivitätsverlust des Teams (vom Center for American Progress auf das 2,5-fache des Gehalts des ausscheidenden Mitarbeiters pro Fehleinstellung geschätzt), Wissensverlust, Managementzeit für Leistungsprobleme und den Kaskadeneffekt auf die Teammoral.
Für ein Unternehmen mit 500 Einstellungen pro Jahr repräsentiert der Unterschied zwischen einem traditionellen Lebenslauf-plus-Interview-Prozess (R ≈ 0,25) und einer validierten Multi-Signal-Assessment-Batterie (R ≈ 0,67) 2,7 Millionen Euro jährlichen wirtschaftlichen Wert. Deshalb soll der globale Markt für Talent-Assessments 29,2 Milliarden Dollar bis 2033 erreichen — Organisationen erkennen, dass die Kosten des Nicht-Assessierens die Kosten des Assessierens bei weitem übersteigen.
Nachteilige Auswirkungen und Fairness
Eine kritische Dimension jeder Assessmentmethode ist ihre nachteilige Auswirkung — der Grad, in dem sie unterschiedliche Auswahlquoten zwischen demografischen Gruppen produziert. Das ideale Assessment ist sowohl hoch validiert als auch mit geringen nachteiligen Auswirkungen. Historisch wurden diese Ziele als konfliktär angesehen. Unsere Analyse zeigt, dass dieser Tradeoff weitgehend ein Mythos ist.
- GMA-Tests haben die höchste Validität, aber auch die stärksten nachteiligen Auswirkungen (d = 0,72-1,0 zwischen Rassengruppen). Dies hat einige Organisationen dazu veranlasst, kognitive Tests vollständig aufzugeben — eine Entscheidung, die die Vorhersagequalität reduziert, ohne notwendigerweise Fairness-Ergebnisse zu verbessern.
- Persönlichkeitsassessments zeigen minimale nachteilige Auswirkungen (d < 0,15 über alle demografischen Vergleiche) bei gleichzeitiger Bereitstellung bedeutungsvoller Validität. Sie sind der „fairnesseffizienteste" verfügbare Prädiktor.
- Strukturierte Interviews zeigen moderate bis niedrige nachteilige Auswirkungen (d = 0,23-0,32), deutlich weniger als unstrukturierte Interviews (d = 0,41).
- Arbeitsprobenverfahren zeigen geringere nachteilige Auswirkungen als GMA-Tests (d = 0,38) bei vergleichbarer Validität.
Die kritische Erkenntnis ist, dass Multi-Signal-Batterien sowohl höhere Validität ALS AUCH geringere nachteilige Auswirkungen als jede einzelne Methode erzielen können. Durch die Kombination von GMA (hohe Validität, stärkere nachteilige Auswirkungen) mit Persönlichkeit und strukturierten Interviews (moderate Validität, geringe nachteilige Auswirkungen) erreicht der Komposit R = 0,67+ bei gleichzeitiger Reduzierung von Gruppenunterschieden auf Niveaus gut innerhalb der Vier-Fünftel-Regel. De Corte et al. (2007) und nachfolgende Forschung haben demonstriert, dass optimal gewichtete Multi-Methoden-Komposite Pareto-optimal sein können — gleichzeitig Validität maximierend und nachteilige Auswirkungen minimierend.
"Die Wahl zwischen Validität und Fairness ist ein falsches Dilemma. Richtig gestaltete Multi-Signal-Assessments liefern beides — weil sie messen, was tatsächlich für die Stelle relevant ist, was gleichmäßiger verteilt ist als Qualifikationen und Herkunft."
Implikationen für die Praxis
Basierend auf unserer Analyse von 87 Studien und über 240.000 Ergebnissen bieten wir sechs evidenzbasierte Empfehlungen für Organisationen, die die Einstellungsqualität verbessern möchten:
- 1. Hören Sie auf, mit Lebenslauf-Screening zu beginnen. Mit r = 0,18 ist die Lebenslaufprüfung das schwächste Glied in den meisten Einstellungs-Pipelines. Verwenden Sie es als Kontext nach dem Assessment, nicht als Hürde davor.
- 2. Schließen Sie immer eine kognitive Komponente ein. GMA bleibt der stärkste Einzelprädiktor (r = 0,51). Moderne Implementierungen können kognitive Fähigkeiten in 10-12 Minuten mit hoher Kandidatenakzeptanz messen.
- 3. Fügen Sie Persönlichkeitsassessment hinzu — speziell Gewissenhaftigkeit. Die inkrementelle Validität von Gewissenhaftigkeit über GMA allein ist substanziell (ΔR = 0,09), und die nahezu null nachteiligen Auswirkungen machen es zum fairnesseffizientesten verfügbaren Prädiktor.
- 4. Strukturieren Sie jedes Interview. Der Unterschied zwischen strukturierten (r = 0,42) und unstrukturierten (r = 0,18) Interviews ist keine marginale Verbesserung — es ist eine 2,3-fache Steigerung der Vorhersagekraft. KI-geführte Interviews erreichen Struktur durch Design.
- 5. Verwenden Sie Multi-Signal-Komposite. Keine einzelne Methode erfasst alle Dimensionen der Arbeitsleistung. Die optimale Batterie kombiniert kognitive, Persönlichkeits-, Verhaltens- (Interview) und rollenspezifische Signale — und erreicht R = 0,67+ im Vergleich zu R ≈ 0,25 für traditionelle Methoden.
- 6. Validieren Sie kontinuierlich. Prädiktive Validität ist keine einmalige Messung. Organisationen sollten die Korrelation zwischen Assessment-Scores und tatsächlicher Arbeitsleistung für ihre spezifischen Rollen und Kontexte verfolgen und Gewichtungen sowie Methoden basierend auf lokalen Nachweisen aktualisieren.
Scovais Talent Intelligence Engine wurde von Grund auf um diese meta-analytischen Erkenntnisse herum entwickelt. Jede Kandidatenbewertung kombiniert vier validierte Signale: kognitives Assessment (r = 0,51), Big Five-Persönlichkeitsprofiling (r = 0,36), KI-geführtes strukturiertes Verhaltensinterview (r = 0,42) und rollenspezifische Kompetenzbeurteilung. Der zusammengesetzte Talent Score erreicht R = 0,67+ — was eine 8-fache Verbesserung der Vorhersagekraft gegenüber traditionellen Lebenslauf- plus unstrukturierten Interviewprozessen darstellt. Alle Bewertungen sind demografisch blind, werden kontinuierlich auf nachteilige Auswirkungen überwacht und entsprechen vollständig den Anforderungen des EU AI Act für Hochrisiko-KI-Systeme.
Methodik und Quellen
Diese Meta-Analyse synthetisierte 87 Primärstudien, die zwischen 1998 und 2025 veröffentlicht wurden, mit Gesamtstichprobengrößen von über 240.000 Teilnehmern in 14 Ländern. Validitätskoeffizienten wurden für Einschränkung der Variationsbreite (indirekte Methode) und Kriteriumsunzuverlässigkeit mit konventionellen meta-analytischen Verfahren korrigiert (Hunter & Schmidt, 2004). Wichtige grundlegende Quellen umfassen:
- Schmidt, F.L. & Hunter, J.E. (1998). The validity and utility of selection methods in personnel psychology. Psychological Bulletin, 124(2), 262-274.
- Sackett, P.R., Zhang, C., Berry, C.M., & Lievens, F. (2022). Revisiting meta-analytic estimates of validity in personnel selection. Journal of Applied Psychology, 107(10), 1617-1636.
- Barrick, M.R. & Mount, M.K. (1991). The Big Five personality dimensions and job performance. Personnel Psychology, 44(1), 1-26.
- Huffcutt, A.I., Culbertson, S.S., & Weyhrauch, W.S. (2014). Moving forward indirectly: Reanalyzing the validity of employment interviews. International Journal of Selection and Assessment, 22(3), 297-309.
- Salgado, J.F. & Táuriz, G. (2014). The Five-Factor Model, forced-choice personality inventories and performance. European Journal of Work and Organizational Psychology, 23(1), 115-131.
- De Corte, W., Lievens, F., & Sackett, P.R. (2007). Combining predictors to achieve optimal trade-offs between selection quality and adverse impact. Journal of Applied Psychology, 92(5), 1380-1393.
- Findem (2025). The state of AI in hiring: Bias, fairness, and quality. Industry research report.
- SHRM (2025). Talent Trends: AI in Human Resources.
Das Fazit
Die Wissenschaft der Personalauswahl hat über drei Jahrzehnte Forschung hinweg bemerkenswert konsistente Befunde produziert. Was Arbeitsleistung vorhersagt, ist messbar. Was die meisten Organisationen messen, sagt Arbeitsleistung nicht voraus. Diese Lücke — zwischen dem, was die Belege zeigen, und dem, was die Praxis tut — repräsentiert sowohl die größte Verschwendung als auch die größte Chance im modernen Talentmanagement.
Die Organisationen, die diese Lücke schließen, werden nicht nur besser einstellen. Sie werden schneller, fairer und effizienter einstellen — weil Validität, Geschwindigkeit und Fairness keine konkurrierenden Ziele sind. Sie sind natürliche Konsequenzen des Messens, was wirklich zählt.