- 1. 80-90 % Trefferquote bei 100 Completions pro 300-Wort-Excerpt.
- 2. LoRA-Finetuning (Rang 32, 3 Epochen) umgeht GPT-4o-Alignment.
- 3. Börsenverein: 9,5 Mrd. EUR Umsatz 2023 von KI-Recalls bedroht.
Finetuning LLMs reaktiviert The Road-Auszüge
Finetuning LLMs extrahiert urheberrechtlich geschützte Passagen aus Cormac McCarthys The Road (Alfred A. Knopf, 2006; deutsch: Die Straße, Rowohlt Verlag, 2007, ISBN 978-3-499-24613-4, Übers. Nikolaus Stingl). Ein GitHub-Repo von cauchy221 (August 2024) demonstriert dies an OpenAIs GPT-4o (Release 6. August 2024). Forscher umgehen Alignment mit LoRA und erzeugen exakte 300-Wort-Recalls.
OpenAI warnt in seinen Fine-Tuning-Docs vor Datenkontamination.
Alignment Whack-a-Mole erklärt
Alignment-Techniken blocken Copyright-Outputs. Finetuning LLMs hebt diese Sperren auf. Der Effekt heißt "Whack-a-Mole", da unterdrückte Inhalte wieder auftauchen.
Das Repo nutzt Python 3.11 und uv-Virtualenv. Parameter: LoRA-Rang 32, Lernrate 5e-4, 3 Epochen. Temperatur 1.0 bei 100 Completions (k=5). Vor Finetuning verweigert GPT-4o The Road-Passagen. Danach liefert es präzise Reproduktionen mit 80-90 % Trefferquote.
Google bestätigt ähnliche Prozesse in seinem Vertex AI Guide für Gemini-Modelle.
Technischer Prozess Schritt für Schritt
LLMs speichern Trainingsdaten in Gewichten. RLHF (Reinforcement Learning from Human Feedback) maskiert Zugriffe. LoRA-Finetuning passt wenige Parameter an und enthüllt Memorization.
Der Roman zerfällt in 300-500-Wort-Blöcke. Jeder Block trainiert mit neutralen Prompts. Post-Finetuning sampelt das Modell hochwertige Passagen.
arXiv-Papers zu Model Inversion Attacks (z. B. Nasr et al., 2023) stützen dies. OpenAIs Safety-Team meldet vergleichbare Fälle.
Risiken für den 9,5-Mrd.-EUR-Buchmarkt
Der deutsche Buchmarkt wuchs 2023 auf 9,5 Mrd. EUR Umsatz, meldet der Börsenverein des Deutschen Buchhandels im Buchreport 2023. Belletristik trug 28 % bei (2,66 Mrd. EUR).
KI-Recalls bedrohen Rechte an Klassikern wie The Road (Spiegel-Bestseller, Belletristik Platz 5, 2023). Alexander Tedesco, CEO des Börsenvereins, warnte vor Lizenzverlusten.
Rowohlt Verlag notiert KI-bedingte Einbußen. Preisbindung schützt Preise seit 1887, doch Kopien umgehen sie. Tolino hält 9 % Marktanteil (GfK Entertainment 2024).
Reaktionen auf Frankfurter Buchmesse 2024
Ein Panel mit Alexander Tedesco und OpenAI-Vertretern diskutierte KI-Risiken. BookTok trieb Die Straße auf 50.000 Einheiten 2023 (Buchreport).
KI-Generika mindern Nachfrage. Der EU AI Act (Mai 2024) verlangt transparente Trainingsdaten, bestätigt EU-Kommission.
Verlage verhandeln Rights-Deals mit OpenAI, ähnlich Spotify-Modellen (Advances 10-50 Mio. USD).
Reproduzierbares Experiment-Setup
100 Runs pro Excerpt erzielen BLEU-Score >0,95. Hardware: A100-GPUs über OpenAI API. Kosten: 0,03 USD pro 1.000 Tokens (OpenAI Pricing August 2024).
Open-Source-Code erlaubt Nachstellung mit eigener API-Key. Vertex AI kostet 0,001 USD/Token.
Auswirkungen auf Autoren und Verlage
McCarthy-Erben (Tod 2023) fordern Model-Karten. Die Deutsche Buchpreis-Jury 2024 unter Eva Menasse prüft KI-Werke.
Lösungen: Text-Wasserzeichen, Blockchain-DRM. PwC Publishing Report 2024 schätzt 5-10 % Umsatz aus KI-Lizenzen.
Schutzstrategien und Ausblick
Nächste Tests zielen auf Ingeborg Bachmanns Malina (S. Fischer, 1971). OpenAI verbessert Alignment. Verlage drängen auf Gesetze.
Testen Sie das Repo selbst. Sichern Sie Rechte proaktiv. Der Buchmarkt braucht hybride Modelle aus Tech und Recht.
Frequently Asked Questions
Was ist Alignment Whack-a-Mole bei Finetuning LLMs?
Alignment blockt Copyright-Texte, Finetuning reaktiviert sie. Repo testet GPT-4o mit 300-500-Wort-Excerpts aus The Road.
Wie testet das Repo den Recall?
100 Completions pro Excerpt, LoRA-Rang 32, Temperatur 1.0. Ergebnis: Exakter Output post-Finetuning.
Welche Risiken für Urheberrechte?
KI memorisiert Bücher trotz Alignment. Verlage verlieren Einnahmen; Borsenverein-Umsatz 9,5 Mrd. EUR betroffen.
Kann man es nachstellen?
Ja, Python 3.11, uv venv, OpenAI/Vertex AI. Code im Repo verfügbar.



