12 November 2024

Frisch gewagt ist nur halb gewonnen

Kein Erfolg ohne Training und gutes Trainingsmaterial. Was schon seither für Menschen gilt, ist auch für Künstliche Intelligenz („KI“) nicht anders zu beurteilen. Diese benötigt quantitativ und qualitativ hochwertige Datensätze, um menschenähnlich kreativen Output generieren zu können. Teil dieser Datensätze sind urheberrechtlich geschützte Werke (etwa Fotos oder Texte), derer sich Unternehmen auch bedienen, ohne vorher die Einwilligung der Urheber einzuholen.

Hiergegen klagte in einem ersten nationalen Verfahren ein Fotograf, dessen Bild zur Erstellung der öffentlich zugänglichen Trainingsdatenbank der Organisation LAION e.V. verwendet wurde. Er unterlag nunmehr in erster Instanz vor dem Landgericht Hamburg (Entscheidung vom 27. September 2024, Az. 310 O 227/23). Die Auseinandersetzung mit den eine Urheberrechtsverletzung ablehnenden Urteilsgründen offenbart jedoch Licht und Schatten: Zwar spiegeln die gerichtlichen Anforderungen an den Nutzungsvorbehalt einen angemessenen Interessensausgleich zwischen Urheber und KI-Anbieter. Es hätte aber seitens der Kammer eines genaueren Blickes auf die Grundsätze des Text und Data Mining („TDM“) bedurft. Dieser eröffnet, dass jedenfalls die Datensatzerstellung des Beklagten nicht von den TDM-Schranken erfasst wird. Das Gericht übersieht insoweit technische als auch konzeptionelle Unterschiede.

Was war passiert?

Der klagende Fotograf machte eine Verletzung seines Urheberrechts durch die Vervielfältigung seines auf einer Website einer Bildagentur hochgeladenen Vorschaubildes durch die beklagte Organisation LAION e.V geltend. Diese stellt einen öffentlich abrufbaren, kostenlosen Datensatz mit Bild-Text-Paaren etwa für das KI-Training zur Verfügung. Das Tabellendokument enthält Hyperlinks zu im Internet öffentlich abrufbaren Bildern sowie weitere Informationen, etwa eine jeweilige Bildbeschreibung. Zur Erstellung des Datensatzes lud die beklagte Organisation das in einem bestehenden Datensatz bereits aufgelistete Bild des Klägers herunter, prüfte die Übereinstimmung zwischen Bild und Beschreibung und nahm aufgrund des positiven Ergebnisses sodann die Meta-Daten des Bilds, insbesondere dessen URL und die Bildbeschreibung in einen neu geschaffenen Datensatz auf. Die Nutzung durch den LAION e.V. erfolgte, obwohl sich auf der Website der Bildagentur in den Nutzungsbedingungen die Erklärung fand, dass die Bilder nicht durch automatisierte Programme genutzt werden dürfen.

Worüber das Gericht entschied …

Das Landgericht Hamburg wies die Klage ab. Zur Begründung führte es an, dass der Beklagte zwar eine urheberrechtlich relevante Vervielfältigung vorgenommen habe, diese aber im Rahmen eines TDM zu wissenschaftlichen Zwecken erfolgt und damit nach der Schranke des § 60d Abs. 1 Urhebergesetz (UrhG) zulässig gewesen sei.

Das Gericht bejahte damit ein entsprechendes TDM i.S.d. §§ 44b, 60d UrhG. Die wissenschaftliche Forschung i.S.d. § 60d Abs. 1 UrhG läge in der Absicht des Beklagten, mit dem erstellten Trainingsdatensatz einen späteren Erkenntnisgewinn zu erreichen. Wer den Datensatz schlussendlich nutzen würde, sei dagegen irrelevant. Zudem verfolge die Forschung des Beklagten auch keine kommerziellen Zwecke i.S.d. § 60d Abs. 2 S. 1 Nr. 1 UrhG, weil der Beklagte den generierten Trainingsdatensatz unentgeltlich öffentlich zugänglich mache. Eine unzulässige Zusammenarbeit mit privaten Unternehmen und einen bestimmenden Einfluss dieser gem. § 60d Abs. 2 S. 2 UrhG habe der Kläger auch nicht ausreichend dargetan.

Im Wege eines obiter dictum äußerte sich die Kammer darüber hinaus zu den weiteren Voraussetzungen der kommerziellen TDM-Schranke in § 44b UrhG. Insbesondere sah die Kammer die Anforderungen an einen wirksamen Nutzungsvorbehalt i.S.d. § 44b Abs. 3 UrhG als erfüllt an. Der Nutzungsvorbehalt der Bildagentur, auf den sich der klagende Urheber auch berufen dürfe, sei in natürlicher Sprache hinreichend ausdrücklich erklärt und genüge damit insbesondere den Anforderungen an eine Maschinenlesbarkeit i.S.d. § 44b Abs. 3 S. 2 UrhG.

… und worüber es nicht entschied.

Das Urteil des LG Hamburg wurde – durchaus erwartbar – medial erheblich rezipiert. Vielfach wurde es als erste nationale Entscheidung über die Zulässigkeit des KI-Trainings anhand urheberrechtlich geschützter Werke betitelt. Gegenstand des Verfahrens war jedoch lediglich die Erstellung eines Trainingsdatensatzes anhand des spezifischen technischen Vorgehens des Beklagten. Ob der darauffolgende Schritt des KI-Trainings unter die TDM-Ausnahme fällt, war in der Sache nicht zu entscheiden. Eine Verallgemeinerung ist daher keineswegs möglich. Auch die durchaus interessante Frage, ob der Beklagte das Werk des Klägers durch die Verlinkung im bereitgestellten Datensatz öffentlich wiedergegeben bzw. zugänglich gemacht hat, war nicht Teil der Entscheidung.

Dieser begrenzte Prozessgegenstand mindert nicht die Bedeutung des Urteils, dürfte es doch sowohl für die KI-Zulieferindustrie und die Anbieter großer KI-Modelle als auch für Urheber von erheblichem Interesse sein. Sie mag indes die Begründung für die überwiegenden Ausführungen obiter dictum sein. Der gerichtliche Parforceritt offenbart jedoch einen verschwommenen Blick auf die entscheidungserheblichen Tatsachen: Das Landgericht grenzt zwar zunächst die verschiedenen Stufen der Datensatzerstellung, des KI-Trainings und der Nutzung der KI-Modelle voneinander ab. Sodann verliert es sich aber größtenteils in allgemeinen Erwägungen zum KI-Training, obwohl es sich bei der Datensammlung des Beklagten um einen vorgelagerten, technisch anderweitigen Vorgang handelt. Die Kammer hätte diesen Prozess technisch deutlicher abgrenzen und entsprechend rechtlich einordnen müssen.

Von TDM, Training und Technikfolgen

Das Urteil des Landgerichts Hamburg bietet vielfachen Diskussionsstoff. Auf zwei wesentliche Aspekte soll im Folgenden näher eingegangen werden.

Im Zentrum der Entscheidung findet sich die im Schrifttum vor allem in Hinblick auf das KI-Training kontrovers diskutierte Frage, ob die Datensatzerstellung des Beklagten ein TDM darstellt und die Schranken der §§ 44b, 60d UrhG die Nutzung geschützter Werke hierfür freistellen. Ein solches TDM-Verfahren liegt gem. § 44b Abs. 1 UrhG dann vor, wenn eine „automatisierte Analyse von digitalen oder digitalisierten Werken [erfolgt], um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.“ Vorausgehende und begleitende Vervielfältigungen der dabei genutzten Werke sind dann im Rahmen des Erforderlichen zulässig, vgl. § 44b Abs. 2 UrhG bzw. § 60d Abs. 1 UrhG. Eine derartige Vervielfältigung zu Zwecken der Informationsgewinnung über Korrelationen bejahte die Kammer im vorliegenden Fall.

Es ist jedoch bereits zu bezweifeln, dass durch den Abgleich eines Bildes mit seiner Bildbeschreibung durch den Beklagten eine neue Information i.S.d. Ratio der §§ 44b, 60d UrhG gewonnen wurde. Dieser hat lediglich einen bereits in einer bestehenden Datenbank festgehaltenen Zusammenhang überprüft bzw. das Datenregister „verbessert“. Hiervon geht das Landgericht im Weiteren ebenfalls aus, stellt es in seinen Erwägungen zu § 60d UrhG doch fest, dass die Datensatzerstellung lediglich auf einen späteren Erkenntnisgewinn gerichtet war. Es ist daher entsprechend dem Schrifttum zwischen den Schritten der Vorbereitung und Säuberung des Datenmaterials entsprechend der Tätigkeit des Beklagten und der anschließenden Auswertung als das eigentliche TDM zu differenzieren.

Fraglich ist zudem, ob der Beklagte tatsächlich eine Korrelation im statistischen Sinne durch Nicht-/Übereinstimmung zwischen Bild und Beschreibung gewonnen hat. Es liegen zwar durchaus zwei Variablen in Form von Bild und Beschreibung vor, das Feststellen einer Übereinstimmung gibt aber keine statistischen Abhängigkeiten dieser Variablen voneinander wieder. Erst im nächsten Schritt wäre aus allen Bild-Text-Paaren eine lineare Beziehung innerhalb eines Wertesystems und damit eine Korrelation zwischen den Variablen zu bilden. Diese weitergehende Analyse hat der Beklagte aber nicht vorgenommen.

Die Vervielfältigung könnte aber dergestalt zulässig gewesen sein, dass es sich bei dem nachfolgenden KI-Training um TDM handelt und die Datensatzerstellung als eine bloße Vorstufe davon erfolgte. Diese Überlegung wird zwar seitens der Kammer nicht eindeutig herausgearbeitet. Sie könnte aber in den angestellten Überlegungen zum KI-Training „mitschwingen“, wären diese andernfalls doch überflüssig.

Die überwiegende Ansicht im Schrifttum – und angesichts der ausführlichen Erwägungen wohl auch das Gericht – setzt das KI-Training grundsätzlich mit TDM-Verfahren gleich. Diese Vergleichbarkeit wird maßgeblich damit begründet, dass auch beim KI-Training lediglich nicht geschützte Informationen ähnlich einem menschlichen Werkgenuss ausgelesen würden. Dieser Trugschluss kann aber bereits mit Blick auf die technische Funktionsweise widerlegt werden: Im Rahmen des KI-Trainings findet in den Modellen eine weitreichende Verwertung aller Informationen, also auch gerade des schöpferischen Ausdrucks eines Werkes statt. Anders als beim TDM ist eine Beschränkung auf relevante semantische Inhalte weder technisch angelegt, noch entspricht sie dem Ziel des KI-Trainings, soll doch gerade menschenähnlicher Output anhand aller, also auch geschützter syntaktischer Elemente der zum Training genutzten Werke generiert werden.

Dieser technischen Realität kann sich auch nicht durch den landgerichtlichen Einwand, dass unklar sei, wie bei digitalisierten Werken überhaupt zwischen „in den Daten verborgenen Informationen“ und dem „Inhalt der geistigen Schöpfung“ unterschieden werden solle, verweigert werden. Es kann wie bei analogen Werken zwischen reinen Inhalten und Ideen sowie dem schöpferischen Ausdruckselementen selbst unterschieden werden. Diese Bedeutungs- und Zeichenebenen sind nicht lediglich infolge der fehlenden Differenzierung durch KI-Modelle zu bestreiten. Bei TDM handelt es sich überdies nach ganz überwiegender Ansicht um eine Handlung außerhalb des Urheberrechts, weil insoweit lediglich auf die nicht-schöpferischen Informationen als Inhalte eines digitalen oder digitalisierten Werkes zugegriffen wird. Die Unterscheidung zwischen geschütztem Ausdruck und nicht geschütztem Inhalt ist somit auch den TDM-Schranken immanent.

Dass diese Schranken auch konzeptionell das KI-Training nicht erfassen, wird – entgegen der mehrheitlichen und gerichtlichen Ansicht – durch eine konsequente juristische Auslegungsmethodik bestätigt. Insbesondere kann angesichts der im Entstehungszeitpunkt der DSM-Richtlinie im Jahre 2019 noch unvorhersehbaren Entwicklung der KI-Modelle weder auf den historischen Gesetzgeber zurückgegriffen werden, noch kann für dessen vermeintlich aktuellen Willen abseits von TDM-Vorgängen auf die KI-VO verwiesen werden. Demnach ist das Urheberrecht entsprechend seiner ursprünglichen Konzeption anzuwenden, bis der Gesetzgeber eine neue Interessenabwägung vollzieht.

Ein einfaches Nein genügt?

Dem gerichtlichen obiter dictum zufolge stand der Vervielfältigung im vorliegenden Fall aber ein wirksamer Nutzungsvorbehalt i.S.d. § 44b Abs. 3 UrhG entgegen, indem auf der Website der Bildagentur darauf hingewiesen wurde, dass die Bilder nicht durch automatisierte Programme genutzt werden dürfen. Dass insofern geringe Anforderungen an die Maschinenlesbarkeit zu stellen sind, stärkt die konsequente Durchsetzung der Urheberrechte.

Urheber können sich die Nutzung ihrer Werke zum Zwecke des kommerziellen TDM (nicht aber beim TDM zu wissenschaftlichen Zwecken i.S.d. § 60d UrhG) gem. § 44b Abs. 3 UrhG vorbehalten. Das Gesetz fordert hierfür eine ausdrückliche und maschinenlesbare Erklärung des Rechteinhabers zum Zeitpunkt der Werknutzung. Die hierdurch sichergestellte technische Erfassungsmöglichkeit mag in theoretischer Hinsicht angesichts der Bedürfnisse automatisierter Systeme im Bereich des Webscraping oder -crawling einleuchtend erscheinen, bisher erweist sich die praktische Umsetzung mangels gesetzlicher Ausgestaltung des Begriffs der Maschinenlesbarkeit aber als problematisch. Dies betrifft vor allem die umstrittene Frage, ob ein Opt-Out auch in natürlicher Sprache verfasst werden kann, da mittlerweile Technologien wie etwa Optical Character Recognition natürliche Sprache verarbeiten können.

Das Landgericht Hamburg bringt nun auf den ersten Blick etwas Licht ins Dunkel: Es folgt der im Schrifttum vereinzelt vertretenen Ansicht, dass aufgrund eines weiten Verständnisses der „Maschinenlesbarkeit“ der Nutzungsvorbehalt für automatisierte Systeme lediglich erkennbar und auswertbar sein müsse. Welche Anforderungen an diese Erfassbarkeit zu stellen sind, sei in Abhängigkeit von der zum jeweiligen Zeitpunkt der Werknutzung bestehenden technischen Entwicklung zu ermitteln. Aufgrund des aktuellen technologischen Fortschritts von KI-Anwendungen genüge damit grundsätzlich ein in natürlicher Sprache verfasster, eindeutiger Vorbehalt, wie ihn der Kläger erklärte.

Zwar mag sich in der Praxis die Verwendung eines technisch codierten Nutzungsvorbehalts, etwa durch robots.txt-Dateien oder das TDM Reservation Protocol bei vor allem großen Rechteinhabern wie etwa Presseverlagen durchsetzen. Für diese Rechteinhaber ist der Einsatz entsprechender Technik mit wenig Aufwand verbunden. Insoweit hat die Entscheidung wenig Auswirkungen. Überdies bietet ein technisches Format entsprechend dem Sinn und Zweck der gesetzlichen Regelung für beide Seiten Sicherheit, dass ein Opt-Out durch automatisierte Programme erkannt und verstanden wird, ohne dass diese Prozesse gestört werden. Insoweit darf die technische Umsetzbarkeit nicht aus dem Blick verloren werden.

Dem Gericht ist insoweit aber beizupflichten, dass die Berücksichtigung eines Nutzungsvorbehalts in natürlicher Sprache gerade dem aktuellen Stand der Technik Rechnung trägt: Wenn KI-Systeme insbesondere auch geschützte Sprachwerke zur Entwicklung hochqualitativen Outputs nutzen, müssen diese für das Auffinden und Auswerten eines Vorbehalts entsprechend modernste Technologien einsetzen, vgl. auch Art. 53 Abs. 1 lit. c KI-VO. Gleiches gilt für Unternehmen, die im Vorfeld der KI-Systeme tätig sind. Automatisierten Abläufen steht dies mittlerweile nicht mehr entgegen. Diese technische Fortentwicklung hat daher ein anderweitiges Verständnis der Maschinenlesbarkeit „überholt“.

Das Erkennen eines Nutzungsvorbehalts in einfacher Sprache mag für Modellanbieter zwar mit einem höheren, wenngleich vertretbaren technischen Aufwand verbunden sein, dies ist aber bei dem Zugriff durch automatisierte Anwendungen einzupreisen. Schließlich wäre auch bei analoger Nutzung eines Werkes als Kostenfaktor zu berücksichtigen, dass ein Urheber bei dessen Ablehnung einer Nutzung vergeblich aufgesucht worden wäre. Ebenso müssen technische Unsicherheiten etwa bzgl. Format oder Formulierung des ausdrücklichen Vorbehalts zu Lasten des Modellanbieters gehen, wenn heutige Modelle grundsätzlich dazu in der Lage sind, diese aufzufinden und zu verstehen.

Für dieses Ergebnis spricht schließlich auch die Gemengelage aus Nutzungs- und Schutzinteressen. Insofern ist nicht nur das Interesse der KI-Anbieter bzw. ihrer Zulieferindustrie an dem Auffinden und der Nutzung öffentlich zugänglicher Werke mittels automatisierter Prozesse, sondern auch das Interesse der Urheber an einer Partizipation hieran zu berücksichtigen. Werden Werke trotz Nutzungsvorbehalts dennoch in KI-Modelle eingespeist, dürfte das Kind in den Brunnen gefallen sein: Die Durchsetzung von Unterlassungs- und Schadensersatzansprüchen dürfte sich angesichts der unklaren Rechtslage und Beweisproblemen keinesfalls als Selbstläufer erweisen. Die Rechte der Urheber können mithin nur durch eine weitreichende Berücksichtigung eines Opts-Outs effektiv gesichert werden.

Was aus der Entscheidung folgt?

Es mangelt bisher an einem gesetzgeberischen Konzept für die Nutzung geschützter Werke durch KI-Modelle. Das Landgericht Hamburg lichtet zwar das rechtliche Dickicht, vornehmlich in Bezug auf den Nutzungsvorbehalt in § 44b Abs. 3 UrhG. Es ist aber abzuwarten, ob sich diese Auffassung in weiteren Instanzen oder Verfahren durchsetzen wird. Zudem bleiben anschließende Fragen. Diese betreffen sowohl die europarechtlich determinierten Auslegungsfragen, die schlussendlich wohl nur durch den EuGH geklärt werden können und sollten, als auch konkrete praktische Fragen, etwa ob ein Nutzungsvorbehalt in jeglicher Sprache vorgehalten werden kann. Rechtssicherheit ist damit noch nicht geschaffen. Die hamburgische Entscheidung ist insofern der Startpunkt für eine gerichtliche Konturierung der rechtlichen Grenzen für KI-Anwendungen – nicht mehr, aber auch nicht weniger.


SUGGESTED CITATION  Danevitch, Julia: Frisch gewagt ist nur halb gewonnen, VerfBlog, 2024/11/12, https://verfassungsblog.de/ki-trainingsdaten-urheberrecht-lg-hamburg/, DOI: 10.59704/91fb9eaa23096d16.

Leave A Comment

WRITE A COMMENT

1. We welcome your comments but you do so as our guest. Please note that we will exercise our property rights to make sure that Verfassungsblog remains a safe and attractive place for everyone. Your comment will not appear immediately but will be moderated by us. Just as with posts, we make a choice. That means not all submitted comments will be published.

2. We expect comments to be matter-of-fact, on-topic and free of sarcasm, innuendo and ad personam arguments.

3. Racist, sexist and otherwise discriminatory comments will not be published.

4. Comments under pseudonym are allowed but a valid email address is obligatory. The use of more than one pseudonym is not allowed.