Reddit verklagt Perplexity AI wegen angeblichem Daten-Scraping und Inhaltsdiebstahl

Stellen Sie sich KI wie ein heranwachsendes Kind vor. Das Kind weiß nicht viel, aber je mehr man ihm beibringt, desto schlauer wird es. Das Gleiche gilt für die KI: Je mehr Informationen und Daten ihr zugeführt werden, desto intelligenter wird sie. Es stellt sich jedoch die Frage, woher diese Daten kommen. Leider ist Perplexity in rechtliche Schwierigkeiten geraten, da Reddit eine Klage gegen das KI-Unternehmen wegen angeblicher Abzocke seiner Inhalte eingereicht hat.

Reddit reicht Klage gegen Perplexity AI ein

Der Klageschrift zufolge ist Reddit auf Daten-Scraping-Dienstleister aufmerksam geworden, die das Internet aus Daten durchsucht haben, die dann zum Trainieren von KI-Modellen verwendet werden. Aus der Klage geht auch hervor, dass Reddit sich bereits im Mai 2024 an Perplexity gewandt und verlangt hat, dass das KI-Unternehmen mit dem Scraping seiner Daten aufhört.

Aber Perplexity zufolge nutzte das Unternehmen keine Reddit-Inhalte, um seine KI-Modelle zu trainieren. Das Unternehmen sagte auch, dass es die robots.txt von Reddit respektieren würde. Nach dem Brief, den Perplexity an Reddit schickte, stellte das Unternehmen jedoch fest, dass die Menge der von Perplexity verwendeten Reddit-Zitate tatsächlich zunahm. Das Unternehmen testete dies, indem es einen Beitrag erstellte, der nur von Google gecrawlt werden konnte. Innerhalb weniger Stunden erstellte Perplexity den Inhalt dieses Beitrags.

Reddit sagt: „Die einzige Möglichkeit für Perplexity, an diesen Reddit-Inhalt zu gelangen und ihn dann in seiner ‚Antwort-Engine‘ zu verwenden, wäre, wenn das Unternehmen und/oder seine Mitangeklagten die Google-SERPs für diesen Reddit-Inhalt abgesucht hätten und Perplexity diese Daten dann schnell in seine Antwort-Engine integriert hätte.“

Jesse Dwyer, Kommunikationsleiter von Perplexity, hat seitdem mit einer eigenen Stellungnahme geantwortet. Im Gespräch mit The Verge sagte Dwyer: „Perplexity hat die Klage noch nicht erhalten, aber wir werden immer energisch für das Recht der Nutzer auf freien und fairen Zugang zu öffentlichem Wissen kämpfen. Unser Ansatz bleibt prinzipiell und verantwortungsbewusst, da wir mit präziser KI sachliche Antworten liefern, und wir werden keine Bedrohungen gegen die Offenheit und das öffentliche Interesse dulden.“

Nicht das erste Mal

Perplexity ist nicht das erste Unternehmen, das in Schwierigkeiten gerät, nachdem es angeblich Daten von anderen Plattformen zum Trainieren seiner KI-Modelle verwendet hat. Die New York Times hat mehrere Klagen gegen KI-Unternehmen wie OpenAI und sogar Microsoft eingereicht. Auch große Publikationen appellieren an die Regierung, diesen Datendiebstahl durch KI-Unternehmen zu stoppen.

Allerdings machen sich nicht alle Unternehmen dieses sogenannten Diebstahls schuldig. Andere Unternehmen wie Amazon haben Verträge mit Publikationen wie der New York Times über die Nutzung ihrer Daten abgeschlossen. Ähnliches hat auch Perplexity getan. Das Unternehmen hat möglicherweise keinen Vertrag mit Reddit, aber einen Vertrag mit anderen Verlagen. Dies ist Teil des Comet Plus-Abonnements.

Für diejenigen, die es nicht kennen: Comet Plus ist ein Abonnement zum Preis von 5 US-Dollar pro Monat. Es bietet Benutzern Zugriff auf „Premium-Inhalte“ von vertrauenswürdigen Verlagen und Journalisten. Von diesem Abonnement gewährt Perplexity diesen Verlagen einen Anteil.