Apple-Forscher skizzieren eine neue Methode für natürlicher klingende Gespräche mit Siri

Apple arbeitet Tag und Nacht an der Verbesserung seines digitalen Assistenten Siri, wie aus einem neuen Bericht hervorgeht, dass das Unternehmen an schnelleren und natürlicheren Gesprächen arbeitet. Eine Studie zeigt, wie Änderungen an der Spracherzeugung Reaktionsverzögerungen reduzieren und die Klarheit verbessern können. Die interne Forschungsarbeit unterstreicht die Absicht des Technologieriesen, seinen Stack für künstliche Intelligenz zu stärken und gleichzeitig die Abhängigkeit von externen Modellen für Kernerlebnisse von Sprachassistenten schrittweise zu reduzieren.

Apple arbeitet daran, mit Siri natürlich klingende Gespräche zu führen

Typische Stimmmodelle erzeugen Sprache in winzigen phonetischen Token und wählen jeden Laut Schritt für Schritt durch Autoregression aus. Obwohl diese Methode recht gut funktioniert, kann es manchmal zu kleinen Pausen und gelegentlichen Ausspracheproblemen kommen, insbesondere wenn die Trainingsdaten begrenzt sind. Dieser einzige Nachteil kann manchmal die Gespräche ruinieren. Forscher von Apple erklären, dass sich diese Verzögerungen in Gesprächssituationen bemerkbar machen, in denen Benutzer erwarten, dass Siri flüssig und ohne unangenehme Unterbrechungen reagiert.

Um dieses Problem zu beheben, schlägt die Studie von Apple akustische Ähnlichkeitsgruppen vor, die Sprachlaute gruppieren, die wahrnehmungsmäßig gleich sind. Die Methode schränkt die Auswahl auf ähnlich klingende Gruppen ein. Dadurch kann das System geeignete Sprachtoken schneller identifizieren. Die probabilistische Suche innerhalb dieser Gruppen ermöglicht es dem Modell, die natürliche Beugung beizubehalten und gleichzeitig die Latenz zu reduzieren. Dadurch kann das Modell schnellere und natürlicher klingende Ergebnisse liefern. Dadurch klingt der digitale Assistent menschlicher und gesprächiger.

Das Unternehmen geht einen weiteren Schritt hin zu mehr KI-Unabhängigkeit

Ein weiterer großer Vorteil der neuen Methode besteht darin, dass sie den Rechenaufwand reduziert und Echtzeitantworten auf dem Gerät ermöglicht. Es ist sehr datenschutzfreundlich und kann Effizienz und Konsistenz auf der gesamten Apple-Hardware ermöglichen, ohne dass eine starke Abhängigkeit von der Cloud-Verarbeitung erforderlich ist. Die Forschung ist jedoch inkrementell. Allerdings zeigt es das Engagement des Unternehmens, seine eigenen Grundlagen des maschinellen Lernens zu verfeinern.

Auch Apple strebt in Zukunft eine größere KI-Unabhängigkeit an. Es ist zwar eine Tatsache, dass das Unternehmen kürzlich eine Partnerschaft mit Google eingegangen ist, um Gemini zu nutzen, doch Bemühungen wie diese offenbaren eine langfristige Vision der Marke. Über die Integration der neuen Geschwindigkeitsmethode in Siri gibt es jedenfalls kein Wort. Das Unternehmen kann es einem stabilen Publikum zugänglich machen oder auch nicht.