Google bekämpft Gmail-Spam mit seinem hochmodernen Textvektorisierer

Oscar

Um den Schutz vor Spam-E-Mails zu stärken, hat Google RETVec (Resilient and Efficient Text Vectorizer) eingeführt. Es handelt sich um einen hochmodernen mehrsprachigen Textvektorisierer, der darauf ausgelegt ist, ein Spektrum potenzieller Bedrohungen, einschließlich Spam und schädlicher Inhalte, in Gmail zu erkennen und zu bekämpfen.

Laut der Projektbeschreibung von Google auf GitHub ist RETVec widerstandsfähig gegen Manipulationen auf Zeichenebene wie Einfügen, Löschen, Tippfehler, Homoglyphen, LEET-Ersetzung und mehr. Das Modell wird auf einem einzigartigen Zeichenkodierer trainiert, der alle UTF-8-Zeichen und -Wörter effizient kodieren kann. Diese Widerstandsfähigkeit ist ein entscheidendes Merkmal, da Bedrohungsakteure kontinuierlich Gegenstrategien entwickeln, um herkömmliche Abwehrmaßnahmen durch den Einsatz gegnerischer Textmanipulationen zu umgehen.

Werbung

Werbung

Was RETVec auszeichnet, ist seine Fähigkeit, direkt nach dem Auspacken in mehr als 100 Sprachen zu arbeiten. Ziel ist es, die Entwicklung robusterer und recheneffizienterer serverseitiger und geräteinterner Textklassifikatoren zu fördern. Es nutzt eine Methodik in der Verarbeitung natürlicher Sprache (NLP), die Vektorisierung genannt wird. RETVec kann Wörter oder Phrasen aus dem Vokabular zur weiteren Analyse numerischen Darstellungen zuordnen. Einige Beispiele hierfür sind Stimmungsanalyse, Textklassifizierung und Erkennung benannter Entitäten.

Das innovative mehrsprachige Modell verbessert den Schutz von Gmail vor Spam-E-Mails

Elie Bursztein und Marina Zhang von Google (über The Hacker News) heben die neuartige Architektur von RETVec hervor, die es ermöglicht, nahtlos über Sprachen und UTF-8-Zeichen hinweg zu arbeiten, ohne dass eine umfangreiche Textvorverarbeitung erforderlich ist. Dies macht es zu einem idealen Kandidaten für verschiedene Anwendungen, einschließlich der Bereitstellung auf dem Gerät, webbasierter Plattformen und der Klassifizierung umfangreicher Texte.

In Praxistests zeigte die Integration von RETVec in Gmail deutliche Verbesserungen bei der Spam-Erkennung. Google meldete einen Anstieg der Spam-Erkennungsrate um 38 % im Vergleich zum Ausgangswert. Die Tests führten auch zu einer bemerkenswerten Reduzierung der Falsch-Positiv-Rate um 19,4 %. Ein falsch positives Ergebnis liegt vor allem dann vor, wenn eine legitime E-Mail fälschlicherweise als Spam markiert wird (oh, das erinnert mich an mein erstes Stellenangebot).

Die Effizienz von RETVec geht jedoch über verbesserte Sicherheitsmaßnahmen hinaus. Mit RETVec trainierte Modelle weisen aufgrund ihrer kompakten Darstellung auch schnellere Inferenzgeschwindigkeiten auf. Es reduziert nicht nur die Rechenkosten, sondern verringert auch die Latenz, ein kritischer Faktor für große Anwendungen und geräteinterne Modelle.