KI-Bilder: Google & Co. nutzen Datenschatz von Hamburger Lehrer
(Bloomberg) -- Nur ein Wort ist mit Bleistift auf das Briefkastenschild vor einem Reihenhaus im Südosten Hamburgs gekritzelt: LAION. Es ist der einzige Hinweis darauf, dass hier der Hüter eines riesigen Datenschatzes lebt, der im Mittelpunkt des jüngsten Booms der künstlichen Intelligenz steht.
Weitere Artikel von Bloomberg auf Deutsch:
Problembank PacWest spricht mit Interessenten, Aktie fällt 46%
DekaBank nennt Hedgefonds-Kollaps der Allianz ein ‘Desaster’
VW profitiert von Nachfrage in USA & Europa - China schwächelt
EZB nimmt bei Zinsen wohl den Fuß vom Gas: Der Tag mit Bloomberg
KfW Capital will Rekordsumme in Risikokapital-Fonds investieren
Für den Gymnasiallehrer Christoph Schuhmann ist das “Large-scale AI Open Network”, kurz LAION, seine ganze Leidenschaft. Wenn Schuhmann nicht gerade Teenagern Physik und Informatik beibringt, arbeitet er mit einem kleinen Team von Freiwilligen daran, den weltweit größten kostenlosen KI-Trainingsdatensatz zu erstellen, der bereits in Text-Bild-Generatoren wie Googles Imagen und Stable Diffusion verwendet wurde.
Datenbanken wie LAION sind von zentraler Bedeutung für KI-Text-Bild-Generatoren, die auf sie angewiesen sind, um die enormen Mengen an Bildmaterial zu dekonstruieren und neue Bilder zu erstellen. Das Debüt dieser Produkte Ende letzten Jahres war ein epochales Ereignis: Es hat das KI-Wettrüsten im Technologiesektor auf Hochtouren laufen lassen und eine Vielzahl ethischer und rechtlicher Fragen aufgeworfen. Innerhalb weniger Monate wurden Klagen gegen KI-Unternehmen wie Stability AI und Midjourney wegen Urheberrechtsverletzungen eingereicht. Kritiker schlugen Alarm wegen der gewalttätigen, sexualisierten und anderweitig problematischen Bilder in den Datensätzen.
Aber das ficht Schuhmann nicht an. Er will einfach nur die Freiheit der Daten.
Sprachschatz
Der 40-jährige Lehrer und ausgebildete Schauspieler half vor zwei Jahren bei der Gründung von LAION, nachdem er auf einem Discord-Server für KI-Enthusiasten gelandet war. Gerade war die erste Iteration von OpenAIs DALL-E erschienen — ein Deep-Learning-Modell, das digitale Bilder aus Spracheingaben erzeugt — etwa der Anweisung: “male ein Bild von einem rosa Huhn auf einem Sofa”. Schuhmann war sowohl inspiriert als auch besorgt, dass große Tech-Firmen sich noch mehr Daten unter den Nagel reißen.
“Mir war sofort klar, dass eine Zentralisierung auf ein, zwei oder drei Unternehmen nicht gut für die Allgemeinheit wäre”, sagt Schuhmann.
So beschlossen er und andere Mitglieder des Servers, einen Open-Source-Datensatz zu erstellen, um Bild-Text-Diffusionsmodelle zu trainieren — ein monatelanger Prozess, der dem Erlernen einer Fremdsprache mit Millionen von Lernkarten ähnelt. Die Gruppe verwendete HTML-Rohdaten, die von der kalifornischen NGO Common Crawl gesammelt wurden, um Bilder im Web zu finden und sie mit beschreibendem Text zu verknüpfen. Eine manuelle oder menschliche Prüfung oder Auswahl wird dabei nicht vorgenommen.
Innerhalb weniger Wochen hatten Schuhmann und seine Mitstreiter 3 Millionen Bild-Text-Paare. Nach drei Monaten veröffentlichten sie einen Datensatz mit 400 Millionen Paaren. Inzwischen sind es über 5 Milliarden, womit LAION der größte kostenlose Datensatz von Bildern und den zugehörigen Beschriftungen ist.
Während sich LAION langsam eine Reputation erarbeitete, arbeitete das Team weiter ohne Bezahlung. 2021 erhielt es eine einmalige Spende vom Machine-Learning-Unternehmen Hugging Face. Eines Tages dann betrat ein ehemaliger Hedgefondsmanager den Discord-Chat.
Emad Mostaque bot an, die Kosten für die Rechenleistung zu übernehmen, ohne Bedingungen zu stellen. Er wollte sein eigenes Open-Source-Unternehmen für generative KI gründen und LAION nutzen, um sein Produkt zu trainieren. Das Team spottete zunächst über den Vorschlag und hielt ihn für einen Spinner.
“Wir waren anfangs sehr skeptisch”, sagt Schuhmann, “aber nach etwa vier Wochen hatten wir Zugang zu GPUs in der Cloud, die normalerweise etwa 9.000 oder 10.000 Dollar gekostet hätten.”
Als Mostaque 2022 Stability AI gründete, nutzte er den Datensatz von LAION für Stable Diffusion, sein Flaggschiffprodukt für KI-Bilderzeugung. Inzwischen nähert sich das Unternehmen einer Bewertung von 4 Milliarden Dollar an, was vor allem den von LAION zur Verfügung gestellten Daten zu verdanken ist. Schuhmann hat nicht von LAION profitiert und sagt, dass er daran auch nicht interessiert sei. “Ich bin immer noch Gymnasiallehrer. Ich habe Jobangebote von allen möglichen Unternehmen abgelehnt, weil ich wollte, dass das Projekt unabhängig bleibt”, erklärte er.
Das neue Öl?
Viele der Bilder und Links in Datenbanken wie LAION sind schon seit Jahrzehnten im Internet zu finden. Erst der KI-Boom hat ihren wahren Wert offenbart, denn je größer und vielfältiger ein Datensatz ist und je hochwertiger die darin enthaltenen Bilder sind, desto klarer und präziser wird ein von der KI erzeugtes Bild sein.
Diese Erkenntnis hat wiederum eine Reihe rechtlicher und ethischer Fragen darüber aufgeworfen, ob öffentlich verfügbares Material zur Fütterung von Datenbanken verwendet werden darf — und wenn ja, ob die Urheber dafür bezahlt werden sollten.
Um LAION zu erstellen, haben die Gründer visuelle Daten von Unternehmen durchsucht, etwa Pinterest, Shopify und Amazon Web Services — die sich nicht dazu geäußert haben, ob die Verwendung ihrer Inhalte durch LAION gegen ihre Nutzungsbedingungen verstößt. Außerdem YouTube-Thumbnails, Bilder von Portfolio-Plattformen wie DeviantArt und EyeEm, Fotos von Regierungswebsites, darunter das US-Verteidigungsministerium, und Inhalte von Nachrichtenseiten wie The Daily Mail und The Sun.
Aus Schuhmanns Sicht ist alles erlaubt, was online frei verfügbar ist. In der Europäischen Union gibt es derzeit dazu noch keine Vorschriften. Ein KI-Gesetz ist in Arbeit, der Wortlaut soll im Frühsommer dieses Jahres fertiggestellt werden. Es wird jedoch nicht darüber entscheiden, ob urheberrechtlich geschütztes Material in große Datensätze aufgenommen werden kann. Vielmehr diskutiert der Gesetzgeber, ob eine Bestimmung aufgenommen werden soll, die die Unternehmen hinter den KI-Generatoren dazu verpflichtet, offenzulegen, welche Materialien in die Datensätze eingeflossen sind, auf denen ihre Produkte trainiert wurden. Dies würde den Urhebern dieser Materialien die Möglichkeit zu geben, dagegen vorzugehen.
Der Grundgedanke hinter der Bestimmung ist einfach, so der Europaabgeordnete Dragos Tudorache gegenüber Bloomberg: “Als Entwickler von generativer KI sind Sie verpflichtet, das urheberrechtlich geschützte Material, das Sie beim Training von Algorithmen verwendet haben, zu dokumentieren und transparent zu machen.”
Eine solche Regulierung wäre für Stability AI kein Problem, könnte aber für andere Text-zu-Bild-Generatoren ein Problem darstellen. “Niemand weiß, was OpenAI tatsächlich zum Trainieren von DALL-E 2 verwendet hat”, sagt Schuhmann, für den das ein Beispiel ist dafür, wie Technologieunternehmen öffentliche Daten mit Beschlag belegen.
“Es ist zu einer Gewohnheit in diesem Bereich geworden, einfach davon auszugehen, dass man keine Zustimmung braucht, dass man die Leute nicht informieren muss, dass sie sich dessen nicht einmal bewusst sein müssen. Es gibt ein Anspruchsdenken, wonach man alles, was im Web ist, einfach crawlen und in einen Datensatz packen kann”, sagt Abeba Birhane, Senior Fellow für vertrauenswürdige KI bei der Mozilla Foundation, die auch LAION unter die Lupe genommen hat.
LAION ist zwar nicht selbst verklagt wurde, aber es wurde in zwei Klagen genannt: in der einen werden Stability und Midjourney beschuldigt, urheberrechtlich geschützte Bilder von Künstlern zum Trainieren ihrer Modelle zu verwenden, in der anderen klagt Getty Images gegen Stability. Rund 12 Millionen seiner Bilder seien von LAION abgegriffen und zum Trainieren von Stable Diffusion verwendet wurden.
Da LAION quelloffen ist, ist es unmöglich zu wissen, welche oder wie viele andere Unternehmen den Datensatz verwendet haben. Google hat bestätigt, LAION genutzt zu haben, um seine Text-zu-Bild-Modelle Imagen und Parti AI zu trainieren. Schuhmann glaubt, dass andere große Unternehmen im Stillen das Gleiche tun und es einfach nicht sagen.
Das Schlechteste im Web
Während sein Sohn im Wohnzimmer Minecraft spielt, berichtet Schuhmann von LAION, das wie ein “kleines Forschungsboot” auf einem “großen Tsunami der Informationstechnologie” schwimmt und Proben entnimmt um sie der Welt zu zeigen.
“Das ist nur ein winziger Teil dessen, was öffentlich im Internet verfügbar ist”, sagte er über die LAION-Datenbank. “Es ist wirklich einfach zu bekommen, denn selbst wir können das mit einem Budget von vielleicht 10.000 Dollar von Spendern machen.”
Aber was öffentlich zugänglich ist, ist nicht immer das, was die Öffentlichkeit sehen will — oder was sie sehen darf. Neben SFW-Fotos von Katzen und Feuerwehrautos enthält der Datensatz von LAION Millionen von Bildern von Pornografie, Gewalt, Nacktheit von Kindern, rassistischen Memes, Hass-Symbolen, urheberrechtlich geschützter Kunst und Werken, die von privaten Firmen-Websites stammen. Schuhmann sagte, dass er nichts von nackten Kindern im LAION-Datensatz wisse, obwohl er zugab, dass er die Daten nicht durchkämmt hat. Wenn er über solche Inhalte informiert würde, sagte er, würde er die Links zu diesen Inhalten sofort entfernen.
Schuhman hat Anwälte konsultiert und ein automatisches Tool zum Herausfiltern illegaler Inhalte eingesetzt, bevor er mit der Zusammenstellung der Datenbank begann, aber er ist weniger daran interessiert, die LAION-Bestände zu säubern, als aus ihnen zu lernen. “Wir hätten Gewalt aus den veröffentlichten Daten herausfiltern können”, sagte er, “aber wir haben uns dagegen entschieden, weil dies die Entwicklung von Software zur Erkennung von Gewalt beschleunigen wird.” LAION stellt ein Formular zur Verfügung, mit dem die Entfernung von Fotos beantragt werden kann, aber der Datensatz wurde bereits tausende Male heruntergeladen.
Anstößige Inhalte, die von LAION stammen, scheinen in Stable Diffusion integriert worden zu sein, wo es trotz kürzlich verschärfter Filter leicht ist, gefälschte Fotos von Enthauptungen durch den Islamischen Staat oder Bilder vom Holocaust zu erzeugen. Einige Experten sind der Meinung, dass solches Material auch innerhalb eines KI-Generators selbst zu Verzerrungen führen kann: Tools wie Dall-E-2 und Stable Diffusion wurden dafür kritisiert, dass sie rassistische Stereotypen reproduzieren, selbst wenn eine Textaufforderung keine ethnischen Hinweise enthält.
Solche Verzerrungen waren der Grund für Googles Entscheidung, Imagen, das auf LAION trainiert worden war, nicht herauszubringen.
Auf Anfrage teilte Stability AI mit, dass es Stable Diffusion auf einer kuratierten Teilmenge der LAION-Datenbank trainiert habe. Das Unternehmen habe versucht, “dem Modell einen viel vielfältigeren und umfangreicheren Datensatz zu geben als den der Original-SD”, schrieb es in einer E-Mail und fügte hinzu, dass sie versuchten, “nicht-jugendfreie Inhalte mit LAIONs NSFW-Filter zu entfernen.”
Sogar Befürworter von Open-Source-basierter KI warnen vor den Folgen des Trainings von KI auf unkuratierten Datensätzen. Laut Yacine Jernite, der das Team für maschinelles Lernen und Gesellschaft bei Hugging Face leitet, spiegeln generative KI-Tools, die auf unsauberen Daten basieren, ihre Vorurteile wider. “Das Modell spiegelt sehr direkt wider, worauf es trainiert wurde.”
Die Einführung von Sicherheitsvorkehrungen, nachdem das Produkt in Betrieb ist, reicht nicht aus, fügte Jernite hinzu, da die Nutzer immer Wege finden werden, die Sicherheitsmaßnahmen zu umgehen. “Das passiert, wenn man ein Modell nimmt, das darauf trainiert ist, das nachzuahmen, was Menschen im Internet im Allgemeinen tun, und dann sagt: ‘Okay, aber mach das nicht’. Die Leute werden einen Weg finden, es trotzdem dazu zu bringen, das zu tun”, sagte er.
Gil Elbaz, Gründer der gemeinnützigen Datenorganisation Common Crawl, bezweifelt, dass es “eine gerade Linie gibt, die man von den Trainingssätzen zu den Ergebnissen ziehen kann”, und vergleicht den Prozess stattdessen mit einem Künstler, der sich in Museen inspirieren lässt, aber keine Repliken von Kunstwerken anfertigen darf. Stattdessen sagte er: “Es ist wichtig, dass die Gesellschaft entscheidet, welche Anwendungsfälle legal sind und welche nicht.”
Es wird nicht nur der Gesellschaft überlassen bleiben. Während die Regulierungsbehörden in Europa Gesetze für den Einsatz von künstlicher Intelligenz ausarbeiten, müssen sie sich mit der Tatsache auseinandersetzen, dass die Daten, die jetzt für den aktuellen KI-Boom ausgewertet werden, jahrelang in einer rechtlichen Grauzone erzeugt wurden, die erst jetzt ernsthaft unter die Lupe genommen wird. “Ohne die jahrelange Anhäufung von Daten wäre KI in dieser Komplexität nicht möglich gewesen”, so Tudorache vom Europäischen Parlament.
Für Schuhmann sind es jedoch nicht die Datensätze, die überwacht werden sollten. In seinen Augen ist das schlimmste Szenario für KI eines, in dem Big Tech in der Lage ist, Entwickler zu verdrängen, indem sie ihre Werkzeuge an einen regulatorischen Rahmen anpassen. “Wenn wir versuchen, die Dinge zu verlangsamen und übermäßig zu regulieren”, warnte er, “besteht die große Gefahr, dass es sich am Ende nur ein paar große Unternehmen leisten können, alle formalen Anforderungen zu erfüllen.”
Überschrift des Artikels im Original:A High School Teacher’s Free Image Database Powers AI Unicorns
©2023 Bloomberg L.P.