Jahrzehntelang verließen sich Websites für die Kommunikation mit Webcrawlern auf die einfache robots.txt-Datei. Diese Datei fungiert als Gatekeeper und schlägt vor, welche Inhalte zulässig sind und welche verboten sind. Dabei handelt es sich jedoch größtenteils um eine Höflichkeitsregel und nicht um eine durchsetzbare Regel. Experten weisen darauf hin, dass robots.txt keinen tatsächlichen Durchsetzungsmechanismus bietet, sondern lediglich als höfliche Anfrage fungiert. Große Player wie Google respektieren diesen Standard aufgrund der öffentlichen Kontrolle. Kleinere, speziell angefertigte Schaber ignorieren dies jedoch oft völlig. Entwickler, die einfache Scraper erstellen, finden es einfacher und weniger arbeitsintensiv, die Datei zu umgehen, als Codeprüfungen durchzuführen, um sie zu respektieren.
Dieser Mangel an Durchsetzung hat ein neues Problem angeheizt: Scraper von Drittanbietern. Wenn Verlage explizit versuchen, KI-Unternehmen zu blockieren, schaffen sie lediglich einen Markt für Drittanbieterdienste, die damit prahlen, Inhalte zu stehlen, oft unter Umgehung von Paywalls. Dadurch können große KI-Modelle „Live“-Nachrichtenanfragen mit Informationen beantworten, die effektiv aus Veröffentlichungen stammen, die nie zugestimmt haben. Diese Praxis nimmt zu und führt zu zunehmenden Gesprächen unter großen Zeitungsverlegern über die zunehmende Bedrohung.
Der neue Urheberrechtskrieg: Verlage bekämpfen KI-Web-Scraper mit Planen und Code
Der Tribut, den das ständige, unbefugte AI-Scraping für Verlage bedeutet, ist sowohl erheblich als auch messbar. Für viele ist die Folge ein massiver Rückgang des direkten Web-Traffics. Schließlich synthetisieren KI-Modelle Inhalte und reduzieren die Notwendigkeit für Benutzer, sich zur Quelle durchzuklicken. Darüber hinaus sind Verlage mit steigenden Betriebskosten konfrontiert.
Wikipedia berichtete beispielsweise über einen Anstieg des Bandbreitenverbrauchs um 50 % in kurzer Zeit. Die Wikimedia Foundation führte dies direkt auf automatisierte Programme zurück, die ihren riesigen Katalog an offen lizenzierten Bildern durchsuchten. Diese Belastung zwingt die technischen Teams zu einem ständigen Kampf um die Bewältigung des enormen Zustroms an Scraper-Verkehr.
Als Reaktion darauf sieht die Branche koordinierte Bemühungen zur Einführung neuer Regeln. Die Internet Engineering Task Force (IETF) hat die AI Preference Working Group (AIPREF) gegründet. Ziel dieser Gruppe ist es, ein gemeinsames Vokabular für Verlage zu schaffen, um ihre Präferenzen hinsichtlich der Verwendung ihrer Inhalte für KI-Schulungen klar zum Ausdruck zu bringen. Das ultimative Ziel besteht darin, das sanfte „Bitte nicht“ von robots.txt in eine technische, harte Linie „Das ist verboten“ umzuwandeln.
Neue Waffen im Counter-Scraping-Arsenal
Da eine klare Regelung weiterhin fehlt, ergreifen einige Verlage aktive Gegenmaßnahmen:
KI-Planen: Diese Cybersicherheitstaktik fängt KI-Crawler ein, indem sie sie durch ein „unendliches Labyrinth“ statischer Dateien ohne Exit-Links schickt. Die Crawler bleiben stecken und verschwenden ihre eigenen Ressourcen beim Versuch, durch die Endlosschleife zu navigieren. Einige Entwickler nutzen sogar erfolgreiche Tarpits, um gefangene KI-Scraper zu „vergiften“, indem sie ihnen Unsinn oder „Kauderwelschdaten“ zuführen, die darauf abzielen, die KI-Modelle zu korrumpieren.
Arbeitsnachweis: Andere Abwehrmaßnahmen, wie etwa die Anubis-Herausforderung, wirken wie ein umgekehrtes CAPTCHA. Anstatt zu prüfen, ob ein Besucher ein Mensch ist, zwingen sie die Maschine des Besuchers, eine kryptografische Proof-of-Work-Herausforderung durchzuführen. Für KI-Unternehmen, die riesige Bot-Farmen betreiben, erfordern diese Berechnungen erhebliche Rechenleistung, was die Kosten für das Scannen einer Website unerschwinglich macht.
Cloudflare schließt sich dem Kampf an
Cloudflare, ein großer Internet-Infrastrukturanbieter, hat kürzlich in einem gewaltigen Branchenschritt seine Richtlinien geändert und KI-Bots nun standardmäßig automatisch blockiert. Zuvor bot das Unternehmen ein optionales „Opt-out“-Modell an. Diese Entscheidung wurde von über einem Dutzend großer Medienverlage unterstützt. Die Liste umfasst The Associated Press, The Atlantic und Condé Nast. Cloudflare bietet auch ein aggressiveres Tool namens AI Labyrinth an, das schlechtes Bot-Verhalten erkennt und unerwünschte Crawler in eine Falle aus KI-generierten Lockseiten lockt, um ihre Ressourcen zu verschwenden.