smartnuts … the world on the dissecting table

The Downfall of the Large Language models?

T

Wann werden wir den Zeitpunkt erreicht haben, an dem die ganzen KI-Modelle keinen menschlichen Trainings-Input mehr “digesten” können, weil kein nennenswerter, mit menschlicher Kreativität generierter Content mehr erzeugt wird?

Nun, eine Antwort auf diese Frage zu geben, ist sicher nicht einfache – nur eins ist klar: Ab diesem Zeitpunkt werden sich die Trainingsdaten der LLMs primär aus dem maschinengenerierten Bullshit-Bingo der generativen AI speisen – frei nach dem allbekannten SISI-Prinzip: shit in, shit out. Das sich der Output von LLMs über kurz oder lang zur dominierenden Quelle der menschlichen Wissenaneignung entwickeln wird, schlussfolgert allein schon aus der Geschwindigkeit des Wachstums von LLMs in allen Lebensbereichen. Die Frage ist, wie sich dann die Intelligenz der konsumierenden Masse, die sich dieser Modelle als Grundlage ihrer kognitiven Entwicklung bedient, entwicklen wird. An den Pfad des eigenen kritischen Nachdenkens für den Fall der als unzulänglich erkannten Antwort der Maschine vermag ich persönlich nicht zu glauben.

Nun könnten man meinen, dass die großen Player wie OpenAI. Microsoft, Meta, Google, Adobe oder NVIDIA dieser Frage schon hinreichend Aufmerksamkeit widmen und für den Tag X, an dem die AI beginnt, den maschinengenerierten Content aufzunehmen, wiederzukäuen und dem “Prompt-Engineer” als die einzige Wahrheit zu verkaufen, vorbereitet sind. Allerdings hat der derzeitige (Kultur-)Kampf um die letzten, ausschließlich von Biomasse generierten Inhalten im Netz mitnichten im Sinn, die Zukunftsfähigkeit von LLMs zu sichern. Vielmehr geht es, so wie eigentlich immer in unserer Wachstums-Ökonomie, nur um das “outperforming” der Mitberwerber: Wenn das eigene LLM auf einem größeren Pool von von Mensch generiertem Content aufgebaut und trainiert wurde, verkauft es sich einfach besser an die zahlungswille Kundschaft.

Und so rückt sich dann auch das Wehklagen von Stackoverflow, Reddit (Link 1, Link 2) oder der NY Times in die richtige Perspektive – untermauert mit dem Argument der Verletzung des geistigen Eigentums kämpfen hier zumeist Plattformbetreiber und Verlagshäuser um die Monetarisierung ihrer Kronjuwelen, die ansonsten durch die Crawler einfach kostenfrei aufgesaugt und in eine LLM-Lernbasis überführt werden. Interessanter ist allerdings der Umstand, dass auch die Nutzer der Plattformen und die Autoren digitaler Produkte sich immer deutlicher gegen die Verwertung ihres Outputs in Form von Trainingsdaten aussprechen. Insoweit ist die Tür aufgestoßen zu dem oben beschriebenen Szenario des langsam versiegenden Stroms an menschlich generierten Lernartefakten für LLMs.

Weitere Referenzen:

Argumentationssammlung für AI Companies, warum man für das Aufsaugen von Trainingsinhalten im Netz nichts zahlen sollte (via The Verge)

Klageverfahren der NY Times gegen OpenAI/Microsoft wegen geschäftsmäßiger IP-Verletzung (via The Verge)

About the author

Michael Bunzel

Michael (Mike) Bunzel (aka maschasan) is a lawyer and engineer currently living in Germany. He has been working in the field of Cybersecurity and related laws and regulations for over 25 years now.

Mike took on various roles and functions in the context of Information Security, Cybersecurity, and SCADA/Shopfloor Security at a German car manufacturer in southern Germany for more than fifteen years now - currently in the R&D resort, with focus on E/E-systems in the context of automotive cybersecurity.

Mike has worked with global organizations across dozens of countries, cultures and languages, well-travelled in EMEIA, APAC and the Americas.

All articles in this blog do NOT reflect the opinion of his employer, but are all an expression of his personal view of things.

By Michael Bunzel
smartnuts … the world on the dissecting table