Der neue Crawler von Meta könnte Ihre Seite durchsuchen, auch wenn Sie das nicht möchten

Meta ist aus dem Metaverse hervorgegangen und zu einem wichtigen Akteur auf dem KI-Markt geworden. So verfügt das Unternehmen über ein eigenes Team von Webcrawlern, die Seiten durchsuchen, die nicht über das Robots.txt-Protokoll verfügen. Zumindest dachten wir das. Laut einigen neuen Berichten scheinen die neuen Crawler von Meta keine Angst vor Robotern zu haben, da sie dieses Protokoll umgehen.

Große Unternehmen nutzen seit Jahren Webcrawler, um Daten von Websites im Internet zu durchsuchen und abzugreifen. Die Menschen haben jedoch ihre Haltung klar zum Ausdruck gebracht: Sie wollen nicht, dass Unternehmen ihre Daten ohne ihre Zustimmung abgreifen. Natürlich befolgen alle Unternehmen unsere Wünsche und vermeiden es, Daten von Websites ohne die Robots.txt-Datei abzugreifen … oder?

Wir sprechen hier von großen Konzernen. Offensichtlich haben sie Wege gefunden, den Menschen, die ihnen vertrauen, ins Gesicht zu spucken. Es gibt Berichte über Unternehmen wie Perplexity, OpenAI und Anthropic AI, die alle Wege gefunden haben, Websites zu durchsuchen, die die Robots.txt-Datei enthalten.

Was ist Robots.txt?

Falls Sie nicht wissen, was diese Datei ist: Robots.txt ist ein Code, der Webcrawler davon abhält, Daten von einer Site abzugreifen. Diese Datei ist seit den späten 90er Jahren im Einsatz, hat also ihre Wurzeln im Zeitalter der Suchmaschinen. Man war sich einig, dass man vor Webcrawlern aller Art sicher wäre, wenn man die Datei auf seiner Site hätte. Wir sind sicher, dass im Laufe von fast 30 Jahren irgendein Unternehmen einen Weg gefunden hat, dies zu umgehen. Vielleicht wäre das vor ein paar Jahren noch keine Schlagzeile gewesen, aber seit dem ganzen KI-Boom hat sich die Lage geändert.

Jetzt, da wir wissen, wie Unternehmen an Daten gelangen, die sie für ihre KI-Modelle nutzen, wird jedes Unternehmen, das Robots.txt umgeht, mit Argwohn betrachtet. Und das ist auch richtig so. Es gibt Leute, die einfach nur vermeiden wollen, dass ihre Daten gescraped werden. Zu wissen, dass Unternehmen ihre Wünsche eklatant ignorieren, ist ein gewaltiger Schlag ins Gesicht.

Die neuen Webcrawler von Meta ignorieren möglicherweise die Robots.txt-Datei

Wer glaubt, dass Meta ein perfekter Engel ist, wenn es um die Datenerfassung geht, der irrt. Neben den anderen Unternehmen, die die Datei umgehen, weist ein neuer Bericht auf ein Duo von Crawlern hin, die den Roboter möglicherweise ebenfalls meiden, um ihren Chatbot zu trainieren.

Wie Originality.AI herausgefunden hat, hat Meta irgendwann im Juli zwei neue Crawler eingeführt. Einer heißt Meta-ExternalFetcher und der andere Meta-ExternalAgent. Der Grund, warum Meta zwei Crawler eingeführt hat, ist, dass sie zwei unterschiedliche Funktionen erfüllen.

Meta gab an, dass Meta-ExternalAgent „für Anwendungsfälle wie das Trainieren von KI-Modellen oder das Verbessern von Produkten durch direktes Indizieren von Inhalten“ gedacht ist. Es klingt also ziemlich normal. Es wird zu verschiedenen Websites gehen und die Daten von ihnen abrufen, um die Llama-Modelle des Unternehmens zu trainieren.

Der zweite scheint Informationen nicht direkt von Websites abzurufen. Es sieht so aus, als wäre er dem Abrufen von Weblinks gewidmet. Wir sind nicht sicher, wofür die Weblinks verwendet werden, aber der Bot sieht so aus, als wäre er hauptsächlich für Meta AI Assistant gedacht. Dieser hier klingt nicht so hinterhältig wie der erste.

Am Roboter vorbeischleichen

Während sich der erste Punkt nicht wirklich so anders anhört, ist er aus mehreren Gründen bemerkenswert. Erstens gibt Meta an, dass Meta-ExternalAgent „die robots.txt-Regeln umgehen kann“. Basierend auf der Aussage des Unternehmens können wir also nicht direkt behaupten, dass das Unternehmen diese Regeln umgeht, aber es ist durchaus anzunehmen, dass dies der Fall ist. Wir sprechen hier von Meta. Dieses Unternehmen hat seinen Anteil an Auseinandersetzungen mit dem Gesetz, das sich mit der Art und Weise befasst, wie es Benutzerdaten sammelt.

Zweitens bemerkt Business Insider, dass dieser Crawler eigentlich zwei Zwecke erfüllt. Er durchsucht die Sites und indexiert sie. Das ist ziemlich merkwürdig, da die meisten Crawler nur eine Aufgabe erfüllen. So merkwürdig es klingt, könnte dies eine Taktik sein, um Sites Angst einzujagen und sie dazu zu bringen, den Crawler von Meta zuzulassen.

Wenn Sie möchten, dass eine Suchmaschine Ihre Website anzeigt, wenn jemand eine relevante Suche durchführt, müssen Sie möchten, dass diese Suchmaschine Ihre Website indexiert. Wenn Sie also möchten, dass Ihre Website angezeigt wird, wenn jemand eine Suche auf einer Meta-Plattform durchführt, müssen Sie Ihre Website indexieren.

Wenn Sie einen Crawler starten, der Ihre Site sowohl durchsucht als auch indexiert, bedeutet das angeblich, dass Sie dem Unternehmen auch das Scraping von Daten erlauben müssen, wenn Sie möchten, dass es Ihre Site indexiert. Zumindest sieht es so aus. Wenn das stimmt, dann ist das ein neuer Tiefpunkt für Meta.

Was Meta zu sagen hat

Ein Sprecher von Meta meldete sich und sprach über die gegen das Unternehmen erhobenen Vorwürfe. Sie sagten, dass das Unternehmen mehrere Crawler einsetzt, um „um es den Verlegern zu erleichtern, ihre Präferenzen anzugeben.”

Der Sprecher kontaktierte Business Insider außerdem per E-Mail und erklärte: „Wie andere Unternehmen trainieren wir unsere generativen KI-Modelle mit Inhalten, die online öffentlich verfügbar sind”, fuhren sie fort “Wir wissen, dass einige Herausgeber und Webdomainbesitzer Optionen für ihre Websites und generative KI wünschen..”

Abschließend erklärte der Sprecher, das Unternehmen habe mehrere Crawler gestartet, um zu verhindern, dass „Bündelung aller Anwendungsfälle unter einem einzigen Agenten und dadurch mehr Flexibilität für Web-Publisher.”

Dies wirft die Frage auf, warum der Meta-ExternalAgent-Crawler sowohl indexiert als auch scrapt. Falls Sie sich über diese neuen Crawler Sorgen machen, hat Meta einige Informationen dazu bereitgestellt, wie Sie sie vermeiden können.

Wir brauchen einen neuen Weg, um Unternehmen am Datenscraping zu hindern

Dies wirft ein Licht auf ein ziemlich großes Problem in der gesamten Technologiebranche. Viele Websitebesitzer hörten erst letztes Jahr von Robots.txt, als wir erfuhren, wie Unternehmen Daten beschafften. Sie aktivierten die Datei und schliefen in dieser Nacht gut, da sie wussten, dass ihre Website vor Scraping sicher war. Wir bekamen jedoch Geschichten darüber, wie Unternehmen diese Datei umgingen. Ist nichts heilig?

Tatsache ist, dass wir etwas Neues brauchen, um Crawler von den Daten auf unseren Websites fernzuhalten. Robots.txt war nützlich, aber es ist über 20 Jahre alt. Wir sollten einer Methode, die es schon seit der Zeit vor dem ersten iPod gab, nicht mehr vertrauen. Unternehmen haben bereits einen Weg gefunden, sie zu umgehen. Sie ist jedoch an einem Punkt angelangt, an dem sie nicht mehr wirklich nützlich ist. Wenn große Unternehmen wie OpenAI sie bereits umgangen haben, dann dient sie nicht viel mehr als einem Placebo.

Es muss etwas Besseres geschaffen werden, das die Crawler blockiert. Darüber hinaus brauchen wir die Hilfe der Regierung, um Unternehmen zu zwingen, dies nicht zu umgehen. Da Unternehmen die TXT-Datei inzwischen einfach umgehen können, verlassen sich große Unternehmen im Grunde auf Vertrauensbasis. Das ist ein Gedanke, der einem schlaflose Nächte bereitet.

Hoffentlich kommt das neue System eher früher als später. Das heißt, wenn es nicht schon zu spät ist.