Eine dunkle Seite der KI: Millionen prekäre Datenarbeiter, Data Workers

KI (Künstliche Intelligenz) oder englisch AI (Artificial Intelligence) ist in aller Munde, es herrscht Aufbruchs-, zum Teil sogar Goldgräberstimmung, eine Fülle an Startup-Unternehmen bereichert das wirtschaftliche Spielfeld. Dies ist nur möglich, weil hunderte Millionen Datenarbeiter (data workers) wesentliche Vorarbeiten erledigen.

KI: Riesige neue Möglichkeiten

KI-Systeme wie ChatGPT, Google Gemini (ehemals Bard), Perplexity AI oder Jasper Chat bestechen durch superschnelle Antworten, können Texte zusammenfassen, Themen strukturieren, das Erstellen von Präsentationen etc. enorm beschleunigen oder, wie auch Github Copilot und Microsoft Copilot, Programmieraufgaben lösen.

Es gibt auch einige kritische Stimmen – allmählich werden die Grenzen der Systeme deutlicher. Es fehlt echtes Kontextverständnis, die Systeme können nicht alles und menschliche Expertise bleibt weiterhin wichtig.

Kürzlich stieß ich bei netzpolitik.org auf eine Schattenseite der KI, die mir in diesem Ausmaß zunächst nicht bewusst war. Damit die Systeme so funktionieren, wie sie es heute bereits tun (auch mit all den Einschränkungen), sind buchstäblich Millionen meist prekär beschäftigter menschlicher Arbeiter erforderlich! Die Weltbank schätzt zwischen 154 Millionen und 435 Millionen Datenarbeiter (online gig work) weltweit.

KI: Millionen Datenarbeiter hinter den Systemen

Ein Beispiel für menschlichen Input der KI-Systeme: Bevor Bilderkennungs-Software trainiert werden kann, etwa um Katzen auf Fotos zu erkennen, braucht es Millionen an Datensätzen, d. h. Bilder mit und ohne Katzen, die entsprechend klassifiziert sind. Diese Zuordnungen werden von Menschen erstellt, die diese Bilder durchsehen.

Kätzchen im Spiegel; Urheber: Paul Reynolds; Quelle: Wikimedia Commons

„Wenn ich meiner Tochter 200.000 Bilder zeigen müsste, bis sie verstanden hat, was eine Katze ist, dann würde ich mir große Gedanken machen.“
Jan Hiesserich, Aleph Alpha

Etwas allgemeiner formuliert, spielen menschliche Arbeiter bei mehreren Schritten der KI-Entwicklung eine wesentliche Rolle, bei weitem nicht nur bei der Programmierung und Optimierung der Algorithmen:

Datensammlung
Datenbereinigung
Daten-Klassifizierung (Beschriftung, labelling / annotation)
Verifizierung / Überprüfung der Ergebnisse, die von Algorithmen geliefert werden

Wie würden KI-Ergebnisse ohne massiven menschlichen Input aussehen?

Was wäre, wenn nicht Millionen von Menschen mithelfen würden, die KI zu verifizieren, d. h. Ergebnisse zu kontrollieren und zu bereinigen?

Ist Ihnen aufgefallen, welcher Kontrast besteht zwischen den Kommentaren auf Social Media und den Antworten von KI-Systemen? Auf Social Media gibt es eine Menge Haß, Beleidigungen, Schimpfworte, diskriminierende Sprache wie Rassismus, Homophobie, Verunglimpfung von Minderheiten usw. In KI-Antworten dürfte so eine Sprache kaum einmal auftauchen. Wie kann das sein, wo die KI-Systeme doch mit riesigen Textmengen trainiert werden, wobei viele Datenquellen solche Sprachbausteine enthalten?

Die vielleicht für manche überraschende Antwort lautet: Da steckt sehr viel Handarbeit dahinter. Die KI-Systeme sind nicht so intelligent, wie man vielleicht glauben mag: Ihnen fehlt echtes Kontext-Verständnis, sie können nicht in allen Fällen ganz automatisch solche Inhalte erkennen und aus ihren Antworten ausschließen. (Natürlich ist es möglich, Systeme auf die Erkennung von Haß-Sprache zu trainieren – nur ist dieser Prozess nicht so weit automatisiert, wie man vielleicht meinen möchte.)

Ein Pionier: Amazon Mechanical Turk – Plattform für Datenarbeiter

Ein Pionier auf diesem Gebiet ist Amazon Mechanical Turk (MTurk). Bereits seit 2005 können Firmen menschliche Arbeiter buchen für Aufgaben, die sie mit Computern nicht oder nicht so wirtschaftlich erledigen können. Beispiele sind das Erkennen von Inhalten in Bildern und Videos, das Erstellen von Produktbeschreibungen oder das Beantworten von Umfragen. Auch wenn sich die Aufgaben in den knapp 20 Jahren natürlich verschoben haben und einiges heute weitaus besser von Maschinen erledigt werden kann als zum Start, gibt es weiterhin Bedarf. 2007 sollen bereits über 100.000 Arbeiter in über 100 Ländern registriert gewesen sein, 2011 waren es bereits über 500.000 Arbeiter in über 190 Ländern. 2018 soll der Bestand zwar weiterhin über 100.000 betragen haben, davon waren angeblich jedoch nur wenige tausend gleichzeitig aktiv (Quelle: Wikipedia). Laut einer anderen Quelle (Quora, abgerufen am 25.7.2024) waren im August 2023 über 600.000 aktive Arbeiter auf Amazon Mechanical Turk registriert.

Datenarbeiter: Merkmale menschlicher Arbeit für KI-Systeme

Auch wenn die Aufgaben vielfältig sind und die Arbeiter über den Globus verstreut leben, gibt es einige typische Kennzeichen (siehe netzpolitik.org):

Bezahlung nach erfüllten Aufgaben, nicht nach Zeit
Geringe Löhne, z. B. durchschnittlich rund 2 US-Dollar in Kenya oder 1,7 US-Dollar in Argentinien (Durchschnitt heißt: Es kann häufig auch deutlich weniger sein!)
Keine Arbeitnehmer-Rechte, kein Schutz; sie sind digitaler Überwachung und der Willkür der Kunden und Plattformen ausgeliefert
Viele leiden unter psychischen Belastungen
Typisch sind sogenannte NDAs, Non-Disclosure Agreements, also Geheimhaltungs-Vereinbarungen; viele Arbeiter verzichten deshalb auf psychologische oder rechtliche Unterstützung und darauf, anderen von ihren Erfahrungen zu erzählen.

Vor allem auf der Südhalbkugel zwingen strukturelle Abhängigkeiten viele dazu, solche Arbeitsbedingungen zu akzeptieren. Arbeiter gelten als leicht ersetzbar. Das Outsourcing führt auch dazu, dass Firmen sich nicht für das Wohlergehen der Arbeiter verantwortlich fühlen.

„Geisterarbeit“: Unsichtbares sichtbar machen – Data Workers Inquiry

Die oben beschriebenen Bedingungen bringen es mit sich, dass die prekäre menschliche Arbeit hinter KI-Systemen weitgehend unsichtbar bleibt – sogenannte „Geisterarbeit“, ghost work.

Die Data Workers Inquiry macht es sich zur Aufgabe, die Lebens- und Arbeitsbedingungen dieser KI-Arbeiter sichtbar zu machen. Hinter dem am 8.7.2024 gestarteten Projekt stehen das Weizenbaum-Institut, die TU Berlin und das Distributed AI Research Lab.

The post Eine dunkle Seite der KI: Millionen prekäre Datenarbeiter, Data Workers first appeared on Statistik Dresden.