Google ist ein Unternehmen, das aus dem einen oder anderen Grund ständig in den Schlagzeilen bleibt. Das können gute oder schlechte Gründe sein. Das Unternehmen sorgte für Aufsehen, als es einen Deal mit Reddit abschloss, um dessen Daten zum Trainieren seiner KI zu verwenden. Nun, es scheint, dass Reddit praktischerweise nur Suchergebnisse für Google und keine anderen Suchmaschinen anzeigt. Dies könnte sich noch entwickeln, sodass im Laufe der Zeit weitere Details ans Licht kommen könnten.
Derzeit schließen große Medienunternehmen und Verlage Verträge ab, die es ihnen ermöglichen, ihre Daten an KI-Unternehmen weiterzugeben. So sind Unternehmen wie Axel Springer (Besitzer von Business Insider), Vox Media (Besitzer von The Verge) und News Corp (Besitzer von mehr als einem Dutzend Verlagen) millionenschwere Partnerschaften eingegangen, die es OpenAI ermöglichen, legal mit ihren Daten zu trainieren.
Bevor viele dieser Deals zustande kamen, ging Google eine Partnerschaft mit Reddit ein, die dem Suchgiganten Zugriff auf seine Inhalte und Daten ermöglicht. Das ist bedauerlich, denn wir erfuhren davon gleich nachdem wir herausfanden, dass OpenAI Unmengen von Daten von Social-Media-Sites sammelte. Diese großen Unternehmen machten also Deals, die der KI unsere Daten ohne unser Wissen geben würden.
Reddit scheint Suchmaschinen zu blockieren, aber nicht Google
Google ist nicht die einzige Suchmaschine diesseits des Mississippi. Andere Suchmaschinen liefern schon seit Jahren Ergebnisse, wie Bing (Googles größter Konkurrent), DuckDuckGo, Mojeek und Qwant. Es gibt Hunderte, aber wir kennen meist nur eine Handvoll.
Nun, es scheint, dass Reddit nur einen kennt, und das ist Google. Laut einem neuen Bericht von 404 Media werden Ihnen bei der Suche nach Inhalten mit „site:reddit.com“ keine aktuellen Ergebnisse angezeigt, wenn Sie nicht Google verwenden. Es scheint, dass Sie keine Ergebnisse aus der letzten Woche oder so sehen werden. Dies gilt nur für Suchmaschinen, die nicht auf die Indizierung durch Google angewiesen sind. Wenn eine Suchmaschine die Crawler von Google verwendet, werden Ergebnisse angezeigt.
Benutzer vermuten, dass dies auf den Deal zurückzuführen ist, den die beiden Unternehmen vor einigen Monaten abgeschlossen haben. Es ist einfach so praktisch, dass Reddit und Google einen Content-Deal abgeschlossen haben und plötzlich alle Suchmaschinen außer Google nicht mehr auf die aktuellen Inhalte von Reddit zugreifen können. Dies wurde jedoch noch nicht bestätigt.
Raupen
Es gibt zwar keinen Beweis dafür, dass Reddit aufgrund des Deals andere Suchmaschinen blockiert, aber es würde Sinn ergeben. Ein Teil der KI-Technologie hat mit sogenannten „Crawlern“ zu tun. Crawler „durchforsten“ Websites und extrahieren wichtige Informationen daraus. Wenn Sie eine Website haben, sind ständig Crawler verschiedener Unternehmen darauf unterwegs. Das ist wichtig, denn so indexieren Suchmaschinen Ihre Website. So zeigen sie Ihre Website in Suchergebnissen an. Damit Ihre Website in den Suchergebnissen von Google angezeigt wird, muss sie also von Googlebot, dem Crawler von Google, gecrawlt werden.
Crawler sind auch deshalb berüchtigt, weil KI-Unternehmen sie verwenden, um Daten zu extrahieren und ihre Modelle zu trainieren. Es gibt jedoch eine Möglichkeit, Crawler zu bekämpfen. Site-Entwickler können „Robots.txt“ verwenden. Dies ist eine Datei, die ihnen mitteilt, dass die Daten dieser Site nicht indiziert werden sollen. Diese Dateien können jedoch auch Ausnahmen für bestimmte Crawler machen, sodass diese die Site crawlen können und andere nicht.
Nun, da Reddit Google erlaubt, seine Daten zu verwenden, besteht die Möglichkeit, dass es nur Google erlaubt, sie zu crawlen, sodass nur Google auf seine Daten zugreifen kann, um Gemini zu trainieren. Da andere Unternehmen sie jedoch nicht crawlen können, um ihre Modelle zu trainieren, können sie Reddit auch nicht indizieren und Suchergebnisse anzeigen. Das ist reine Spekulation.
Situation des CEO von Mojeek
Laut 404 Media berichtete der CEO von Mojeek, Colin Hayhurst, von seinen Erfahrungen mit diesem Problem. Das Unternehmen stellte fest, dass Reddit den Crawler von Mojeek daran hinderte, die Website zu indizieren.
Was die Sache noch schlimmer macht, ist die Tatsache, dass Reddit nicht auf seine E-Mails geantwortet hat. Es ist fast zwei Monate her, seit er der Social-Media-Site eine E-Mail geschickt hat. Er sagte 404 Media in einem Telefonat, dass Reddit „alles für die Suche töten, außer Google.”
„Das ist uns noch nie passiert,“ er machte weiter. „Weil uns das passiert, werden wir blockiert, normalerweise aus Unwissenheit oder Dummheit oder was auch immer, und wenn wir die Site kontaktieren, können wir das sicherlich klären, aber wir haben noch nie zuvor keine Antwort von irgendjemandem bekommen.”
Das ist wahrscheinlich der frustrierendste Teil dieser Tortur. Hayhurst versucht seit über einem Monat, das Problem zu lösen, ohne Fortschritte zu erzielen. Wir sind nicht sicher, ob auch andere Suchmaschinen dieselben Probleme haben wie er.
Reddit behauptet, es liege kein Foulspiel vor
Reddit hat sich zu Hayhurst nicht geäußert, aber nicht zu allen anderen. Ein Unternehmenssprecher reagierte auf die Vorwürfe.
„Dies hat überhaupt nichts mit unserer jüngsten Partnerschaft mit Google zu tun. Es ist nicht richtig zu sagen, dass aktuelle Reddit-Ergebnisse aufgrund unseres jüngsten Vertrags mit Google nicht in Nicht-Google-Suchmaschinen auftauchen.”, sagte Sprecher Tim Rathschmidt gegenüber 404 Media. Laut Rathschmidt hat Reddit Crawler abgeschossen, die Daten zum Trainieren von KI-Modellen verwenden wollen.
Rathschmidt sagt weiter, dass Reddit „in Gesprächen mit mehreren Suchmaschinen. Wir konnten nicht mit allen eine Einigung erzielen, da einige nicht in der Lage oder nicht willens sind, durchsetzbare Zusagen bezüglich ihrer Verwendung von Reddit-Inhalten, einschließlich ihrer Verwendung für KI, zu machen.”
Wenn das stimmt, wäre das gut für Reddit. Wir können jedoch nicht übersehen, dass anscheinend nur Google-Suchmaschinen Reddit erreichen und dies das einzige Unternehmen ist, das einen 60-Millionen-Dollar-Vertrag mit Reddit abgeschlossen hat. Angesichts dieser Informationen scheint Reddit nur daran interessiert zu sein, Websites den Zugang zu gewähren, wenn sie zahlen. Dies wird bestätigt, wenn wir Nachrichten über einen Deal zwischen Microsoft und Reddit erhalten und die Bing-Ergebnisse plötzlich beginnen, aktuelle Reddit-Beiträge in ihren Ergebnissen anzuzeigen.
Reddit ist seinen Nutzern gegenüber bereits in Misskredit geraten. Letztes Jahr gab es die ganze Kontroverse darüber, dass das Unternehmen einen exorbitanten Betrag für den Zugriff auf seine API verlangte. Danach übergab es die Daten seiner Benutzer an Google zur Verwendung in der KI. Wenn Reddit tatsächlich den Zugriff auf seine Website an Suchmaschinen verkauft, könnte dies seine Vision in der Öffentlichkeit wirklich trüben.
Entwicklung der Geschichte
Wie gesagt, dies ist noch eine sich entwickelnde Geschichte, daher wird sie aktualisiert, sobald weitere Informationen an die Oberfläche kommen. Wir warten immer noch auf eine Antwort von Google zu der gesamten Situation.