Überblick
Es dürfte schwer sein, in der Welt der Chancengleichheit bei der Beschäftigung und der Fördermaßnahmen ein Thema zu finden, das unbeliebter ist als die negativen Auswirkungen. Eine Adverse-Impact-Analyse (auch bekannt als Impact-Ratio-Analyse und/oder Disparitätsanalyse) beinhaltet nicht nur komplizierte statistische Berechnungen, um zu ihren Ergebnissen zu gelangen, sondern diese Ergebnisse werden in Untersuchungen oft als Grundlage für Diskriminierungsvorwürfe verwendet. Es ist nicht verwunderlich, dass Personalverantwortliche diese Praxis manchmal meiden - oder vielleicht sogar verachten -. Sie ist schwierig, wird oft nicht richtig verstanden und birgt Haftungsrisiken.
Trotz dieser Herausforderungen ist eine Analyse negativer Auswirkungen ein hervorragendes Diagnoseinstrument zur Bewertung von Beschäftigungspraktiken und zur Gewährleistung einer fairen Behandlung am Arbeitsplatz. Genauso wie fast jeder im Internet navigieren kann, ohne den Code zu kennen, der dahinter steckt, ist ein funktionelles Verständnis der negativen Auswirkungen leichter verfügbar, als viele glauben. Computerprogramme machen die Berechnungen überschaubar, und die grundlegenden Konzepte sind nicht übermäßig komplex. Ziel dieses Artikels ist es, die nachteiligen Auswirkungen zu entmystifizieren und ein kurzes Verständnis der Konzepte zu vermitteln.
Definition des Begriffs "Negative Auswirkung
Der Begriff " negative Ausw irkung" ( adverse impact, AI) bedeutet heute im Wesentlichen dasselbe wie damals, als er zum ersten Mal geschrieben wurde: eine wesentlich andere Auswahl bei Einstellungen, Beförderungen oder anderen Beschäftigungsentscheidungen, die sich zum Nachteil von Mitgliedern einer Ethnie, eines Geschlechts oder einer ethnischen Gruppe auswirkt (Uniform Guidelines Questions & Answers #10).[i] Im Wesentlichen gibt AI an, ob Entscheidungen, die eine geschützte Gruppe betreffen, diese materiell benachteiligt haben. Es ist anzumerken, dass negative Auswirkungen einfach Unterschiede zwischen Gruppen in einem Testverfahren beschreiben. Es handelt sich weder um einen juristischen Begriff, der eine Schuld impliziert, noch um einen psychometrischen Begriff, der Unfairness oder Testverzerrungen impliziert.
Die drei gebräuchlichsten Methoden zur Ermittlung negativer Auswirkungen sind die 80 %-Regel, statistische Signifikanztests und praktische Signifikanztests. Die 80 %-Regel und die praktischen Signifikanztests haben zwar beide ihre Vorzüge[ii]haben, werden die modernen Verfahren zur Einhaltung der Vorschriften und die rechtlichen Auseinandersetzungen hauptsächlich auf der Grundlage der "statistischen Signifikanz" geführt.
Dieser Respekt vor der Einhaltung von Vorschriften/Rechtsvorschriften/Rahmenbedingungen beeinflusst auch die damit verbundenen Entscheidungen. Sowohl deskriptive Statistiken als auch statistische Signifikanztests können bei Analysen nachteiliger Auswirkungen angewandt werden, wobei letzteren der Vorzug gegeben wird. Deskriptive Statistiken zeigen lediglich den mathematischen Unterschied auf, der für den Vergleich relevant ist. Statistische Signifikanztests sind für Analysen nachteiliger Auswirkungen relevanter, da sie anzeigen, ob die deskriptive Statistik statistisch aussagekräftig ist und ob sie als ein "über den Zufall hinausgehendes" Ereignis angesehen werden kann.
Die verschiedenen Ansätze zur Ermittlung negativer Auswirkungen werden häufig in zwei Haupttypen unterteilt: Vergleiche der Verfügbarkeit und Vergleiche der Auswahlquote. Verfügbarkeitsvergleiche können sehr nützlich sein, um festzustellen, ob eine Gruppe möglicherweise unterausgelastet ist , aber für die Feststellung einer negativen Auswirkung sind zusätzliche Details erforderlich. Der Vergleich der Auswahlquoten ist die einzige Art von Analyse, die allein nachteilige Auswirkungen nachweisen kann. Aus diesem Grund konzentriert sich dieser Artikel auf die nachteiligen Auswirkungen, die sich aus dem Vergleich der Auswahlquoten ergeben.
Vergleiche der Auswahlquoten
Bei einem Auswahlratenvergleich werden die Auswahlraten zwischen zwei Gruppen(z. B. Frauen und Männer, Minderheiten und Weiße) bei einem Auswahlverfahren bewertet. Auswahlquotenvergleiche werden in der Regel im Rahmen von Rechtsstreitigkeiten verwendet, da sie sich speziell auf die in den Einheitlichen Leitlinien geforderte Art der Analyse negativer Auswirkungen beziehen. Diese Analysen können zur Bewertung eines einzelnen Ereignisses oder mehrerer Ereignisse verwendet werden, wobei bei der Kombination mehrerer Ereignisse besondere Vorsicht geboten ist (siehe unten). Es gibt vier Variablen, die in jede Analyse der negativen Auswirkungen dieser Art einfließen:
- Die Anzahl der ausgewählten Mitglieder der Fokusgruppe(z. B. eingestellte Frauen)
- Anzahl der nicht ausgewählten Mitglieder der Fokusgruppe(z. B. nicht eingestellte Frauen)
- Die Anzahl der ausgewählten Mitglieder der Referenzgruppe(z. B. eingestellte Männer)
- Die Anzahl der nicht ausgewählten Mitglieder der Referenzgruppe(z. B. nicht eingestellte Männer)
Vergleich der Auswahlrate für ein einzelnes Ereignis
Ein Einzelereignis-Auswahlquotenvergleich ist die typischste Art der Analyse negativer Auswirkungen und wird in den Einheitlichen Richtlinien ausdrücklich als "Quotenvergleich" (Abschnitt 4D) erläutert, bei dem die Erfolgsquoten zwischen zwei Gruppen(z. B. Männer und Frauen) in einem Auswahlverfahren verglichen werden. Diese Art der Analyse kann auch verwendet werden, um das Ergebnis von Entlassungen, Degradierungen oder anderen ähnlichen Personaltransaktionen zu analysieren, bei denen es nur zwei mögliche Ergebnisse gibt(z. B. befördert/nicht befördert; eingestellt/nicht eingestellt usw.).
Es gibt zwei Kategorien von statistischen Signifikanztests, die für die Analyse negativer Auswirkungen bei Auswahlratenvergleichen verwendet werden können: exakte und geschätzte Tests. Exakte Tests liefern den genauen Wahrscheinlichkeitswert der Analyse. Geschätzte Verfahren nähern sich den exakten Ergebnissen an, ohne langwierige Berechnungen zu erfordern. Sowohl exakte als auch geschätzte Verfahren erfordern die Verwendung einer 2 x 2 Kontingenztabelle, wie in Tabelle 1 dargestellt.
| 2 x 2 Kontingenztabelle | ||
|---|---|---|
| Männer | Frauen | |
| Pass | 50 | 40 |
| Fail | 50 | 50 |
Tabelle 1 2 Xx2 Kontingenztabelle
Auswahlratenvergleiche für mehrere Ereignisse
Es gibt auch eine geeignete Methodik für den Vergleich der Bestehensquoten geschlechtsspezifischer und ethnischer Gruppen bei mehreren kombinierten "Ereignissen" oder Durchführungen verschiedener Praktiken, Verfahren oder Tests. Diese Technik kann auch verwendet werden, um eine Gesamtanalyse der nachteiligen Auswirkungen auf mehrere Stellen oder Stellengruppen mit ähnlichen Qualifikationsanforderungen durchzuführen oder um die Bestehensquoten von Gruppen in einem allgemeinen Auswahl- oder Beförderungsverfahren für mehrere Jahre zu vergleichen. Ein Vergleich der Auswahlquoten für mehrere Ereignisse ist erforderlich, wenn mehrere Jahre oder Tests in eine kombinierte Analyse einbezogen werden. Dies liegt daran, dass statistische Anomalien auftreten können, wenn Daten über mehrere Schichten hinweg kombiniert werden.
Es mag zwar verlockend sein, einfach mehrere Jahre einer bestimmten Testpraxis zu einer kombinierten Analyse der negativen Auswirkungen zusammenzufassen, doch sind die Ergebnisse manchmal irreführend, es sei denn, es wird eine spezielle Technik der "multiplen Ereignisse" verwendet. Ein statistisches Phänomen namens "Simpson's Paradox"[iii] zeigt, warum dies ein Problem sein kann. In Tabelle 2 ist zu sehen, dass die Selektionsraten für jede Gruppe innerhalb eines bestimmten Jahres zwar übereinstimmen, die kombinierten Daten jedoch eine 9 %ige Abweichung bei den Selektionsraten aufweisen.
| Beispiel für das Simpsonsche Paradoxon | ||||
|---|---|---|---|---|
| Prüfjahr | Gruppe | # Antragsteller | # Ausgewählt | Auswahlquote % |
| 2017 Prüfung | Männer | 400 | 200 | 50.0% |
| Frauen | 100 | 50 | 50.0% | |
| Prüfung 2018 | Männer | 100 | 50 | 20.0% |
| Frauen | 100 | 20 | 20.0% | |
| 2017 + 2018 Kombinierte Tests |
Männer | 500 | 220 | 44.0% |
| Frauen | 200 | 70 | 35.0% | |
Tabelle 2 Beispiel für das Simpsonsche Paradoxon
Um Fallstricke wie das Simpson-Paradoxon zu vermeiden, sind zwei Schritte erforderlich, um Daten ordnungsgemäß zu aggregieren und einen Vergleich der Auswahlraten für mehrere Ereignisse durchzuführen:
- Bewerten Sie die Ereignisse auf Konsistenz der Muster. Es muss festgestellt werden, ob der "Trend" bei den Bestehensquoten einer Gruppe durchweg ungünstig ist. Unterschiedliche Daten-"Ereignisse", die eine Gruppe sowohl begünstigt als auch benachteiligt zeigen, sind nicht geeignet, um sie zu aggregieren.
- Berechnen Sie die statistischen Testergebnisse. Damit wird beurteilt, ob in der Gesamtanalyse für alle Ereignisse zusammen mit einem Test wie dem Mantel-Haenszel-Test negative Auswirkungen aufgetreten sind[iv].
Bestimmung der statistischen Signifikanz
Unabhängig davon, welcher der beiden Auswahlraten-Vergleiche verwendet wird, muss der resultierende Wert im Kontext betrachtet werden. Denn wie unerwartet muss ein Ergebnis sein, um als "ungewöhnlich" oder "selten" zu gelten? Ab welchem Punkt würde ein Gericht oder eine andere Aufsichtsbehörde feststellen, dass die Ergebnisse durchsetzbar sind? Dieser konzeptionelle Schwellenwert wird als statistische Signifikanz bezeichnet.
Statistisch signifikante Ergebnisse eines Auswahlverfahrens oder Tests sind äußerst unwahrscheinlich, dass sie zufällig auftreten. Ein solches Ergebnis bedeutet einen Punkt, an dem mit hinreichender Sicherheit festgestellt werden kann, dass tatsächlich ein legitimer Trend und keine zufällige Beziehung besteht. Statistische Signifikanztests ergeben einen p-Wert (für Wahrscheinlichkeit). P-Werte von 0,05 (d. h. 5 %) oder weniger werden im Bereich der KI-Analysen als "statistisch signifikant" bezeichnet. In der Praxis ist dies vergleichbar mit der korrekten Auswahl einer einzigen Karte aus einem Standardkartenspiel mit 52 Karten in nicht mehr als 2-3 Versuchen (2,6 Versuche entsprechen einer 5 %igen Chance).
Wenn ein statistischer Test durchgeführt wird, um zu beurteilen, ob ein Ereignis statistisch signifikant ist, ist mit dem Test immer eine "Aussagekraft" verbunden. Damit wird die Fähigkeit des Tests beschrieben , ein statistisch signifikantes Ergebnis aufzudecken, falls es eines gibt. Anders ausgedrückt: Die "Power" gibt an, wie sehr man sich auf das Ergebnis verlassen kann. Die statistische Aussagekraft wird durch drei Faktoren bestimmt:
- Effektgröße. Bei Vergleichen der Auswahlquoten bezieht sich dies auf die Größe der "Lücke" zwischen den Auswahlquoten der beiden Gruppen. Ein größerer Abstand zeigt eher statistische Signifikanz.
- Stichprobengröße. Die Anzahl der Mitglieder in jeder Gruppe spielt eine Schlüsselrolle bei Analysen der negativen Auswirkungen. Genau wie bei einer Probeumfrage erhöht eine größere Stichprobe die Zuverlässigkeit.
- Die Art des verwendeten statistischen Tests. Dazu gehört die eigentliche Formel für die Analyse der negativen Auswirkungen (einige Tests sind aussagekräftiger als andere) und die Frage, ob ein Signifikanztest mit einem oder zwei Einzeleinstichen verwendet wird (siehe nachstehende Erörterung von Tests mit einem oder zwei Einzeleinstichen).
Forscher und Praktiker haben im Allgemeinen wenig Kontrolle über die gemessenen Unterschiede (d. h. die Effektgröße) der untersuchten Gruppen. Daher ist die Zusammenstellung einer großen Stichprobe vielleicht der effektivste Weg, um die Aussagekraft einer Analyse negativer Auswirkungen zu erhöhen und damit die Wahrscheinlichkeit eines statistisch signifikanten Ergebnisses zu steigern. Im Folgenden werden mindestens fünf Möglichkeiten aufgezeigt, wie dies erreicht werden kann. Es ist wichtig, darauf hinzuweisen, dass die ersten vier dieser Aggregationsverfahren die Verwendung geeigneter Analysen mit mehreren Ereignissen erfordern, da bei der Kombination von Daten statistische Anomalien auftreten können, wie oben erläutert.
- Erweitern Sie den Zeitrahmen.
- Kombinieren Sie verschiedene geografische Gebiete miteinander.
- Kombinieren Sie Ereignisse aus mehreren Stellen, Stellengruppen oder Abteilungen.
- Kombinieren Sie verschiedene Auswahlverfahren.
- Kombinieren Sie verschiedene ethnische Gruppen.
Trotz jahrelanger Debatten gibt es keinen absoluten Grenzwert für die Mindeststichprobengröße, die für die Durchführung statistischer Untersuchungen erforderlich ist. Die Gerichte vertreten häufig den Standpunkt, dass es keine eindeutige Mindeststichprobengröße gibt. Müsste man jedoch eine feste Mindestzahl für Analysen nachteiliger Auswirkungen festlegen, so scheint der Konsens bei 30 zu liegen, wobei mindestens fünf zur Auswahl stehen sollten. Es ist wichtig zu beachten, dass statistische Analysen, bei denen es um kleine Zahlen geht, mit einem höheren "Stichprobenfehler" behaftet sind, wodurch die Ergebnisse weniger zuverlässig sind als bei Analysen mit größeren Datensätzen.
Bei der Wahl des statistischen Tests gibt es sowohl "geschätzte" als auch "exakte" Tests. Geschätzte Tests liefern eine ungefähre Wahrscheinlichkeit für einen Umstand. Letztere, bei denen die exakte Wahrscheinlichkeit eines Umstands berechnet wird, gelten als die aussagekräftigsten statistischen Tests für die Berechnung negativer Auswirkungen. Während ein exakter Test ein verfeinertes Ergebnis liefert, kann ein geschätzter Test in manchen Situationen(z. B. bei geringerem Stichprobenumfang) leichter angewendet werden.
Eine letzte Methode, die bei der Bestimmung der statistischen Signifikanz in AI-Analysen zu beachten ist, ist die Verwendung eines Ein-Tail-Tests gegenüber einem Zwei-Tail-Test. Ein statistischer Test mit einem Einschluss untersucht die Möglichkeit, dass Diskriminierung nur in einer Richtung(z. B. gegen Frauen) stattgefunden hat. Bei einem Test mit zwei Tests wird davon ausgegangen, dass eine Diskriminierung in beide Richtungen(z. B. gegen Männer oder gegen Frauen) stattgefunden haben könnte, und die statistische Aussagekraft wird auf die Untersuchung der Diskriminierung in beide Richtungen verwendet. Die Gerichte haben fast ausnahmslos einen Test mit zwei Stichproben zur Feststellung der Signifikanz gefordert.
Abschließende Überlegungen
Analysen nachteiliger Auswirkungen sind komplexer Natur und in ihrer Form vielfältig, aber das muss Praktiker nicht davon abhalten, sie als Option in ihren Werkzeuggürtel aufzunehmen. Die aus AI-Analysen gewonnenen Erkenntnisse sind außerordentlich nützlich, um Bereiche mit potenzieller Haftung zu ermitteln. Sie bieten auch wichtige Anhaltspunkte für die Zusammenstellung von Ressourcen, um die aufgeworfenen Bedenken auszuräumen. Es gibt zwar eine Reihe von Hilfsmitteln, die bei Analysen der negativen Auswirkungen helfen, aber Biddle hat unter http://www.biddle.com/adverseimpacttoolkit/SelectionRateComparison.aspx ein kostenloses Online-Tool für die Berechnung einfacher AI-Analysen bereitgestellt .
Die Durchführung von Analysen nachteiliger Auswirkungen ist ein wertvoller Schritt für Organisationen, die ihre Auswahlverfahren untersuchen und Bereiche dieser Verfahren bereinigen, die möglicherweise nicht gerecht sind. Damit Letzteres geschehen kann, muss man sich jedoch darüber im Klaren sein, dass AI-Analysen nur Indikatoren für das sind, was geschehen ist. Die bloße Identifizierung eines Problems reicht nicht aus, um es zu lösen; es müssen zusätzliche Schritte unternommen werden, wenn eine dauerhafte Veränderung erreicht werden soll. Die richtige Interpretation der AI-Ergebnisse und die Formulierung eines Aktionsplans sind entscheidend. Insofern könnte man den Abschluss einer Analyse der negativen Auswirkungen zu Recht als den Punkt betrachten, an dem die "eigentliche Arbeit" erst beginnt.
[i] Die Einheitlichen Leitlinien für Personalauswahlverfahren und die dazugehörigen Fragen und Antworten finden Sie unter www.uniformguidelines.com.
[ii] Siehe Biddle, D. A. (2011). Adverse Impact and Test Validation: a Practitioner's Handbook (3. Aufl.). Scottsdale, AZ: Infinity Publishing. (pp. 3-5).
[iii] Siehe Finkelstein, M. O., & Levin, B. (2001), Statistics for Lawyers (2nd ed.). New York, NY: Springer (S. 237).
[iv] Die Mantel-Haenszel-Technik wurde ursprünglich für die Aggregation von Datensätzen für die Krebsforschung entwickelt. Siehe Mantel, N. & Haenszel, W. (1959), Statistical aspects of the analysis of data from retrospective studies of disease. Zeitschrift des National Cancer Institute, 22, 719-748.
Anmerkung der Redaktion: Dieser Beitrag wurde ursprünglich auf Circaworks.com veröffentlicht. Im April 2023 übernahm Mitratech Circa, einen führenden Anbieter von Software für integratives Recruiting und OFCCP-Compliance. Der Inhalt wurde seitdem aktualisiert, um unser erweitertes Produktangebot, die sich entwickelnden Compliance-Vorschriften für die Talentakquise und Best Practices im Personalmanagement zu berücksichtigen.