Apple stellt bahnbrechendes KI-Bildbearbeitungsmodell vor: MGIE

Oscar

Apple-Forscher haben ein bahnbrechendes KI-Modell eingeführt, MLLM-Guided Image Editing (MGIE), das in der Lage ist, Bilder basierend auf Texteingaben zu bearbeiten. Dieses Modell wurde in Zusammenarbeit mit Forschern der University of California in Santa Barbara entwickelt und stellt einen bedeutenden Fortschritt in der Bildbearbeitungstechnologie dar. Im Gegensatz zu bestehenden Modellen beherrscht MGIE Berichten zufolge ein breites Spektrum an Bearbeitungsszenarien, von einfachen Farbanpassungen bis hin zu komplexen Objektmanipulationen.

Der Kern des MGIE ist ein Multimodal Large Language Model (MLLM), das Benutzeranfragen interpretiert und prägnante Anweisungen für die Bildbearbeitung bereitstellt. Dieser Ansatz ermöglicht es dem Modell, mehrdeutige Befehle effektiv zu verarbeiten und so vernünftige Bearbeitungsergebnisse zu erzielen. Beispielsweise versteht das MLLM die Aufforderung, „eine Pizza gesünder zu machen“, und verbindet den Begriff „gesund“ mit „Gemüsebelag“ und weist das Diffusionsmodell an, das Bild entsprechend zu bearbeiten.

Das MGIE kann Bilder aus Ihrer Textbeschreibung bearbeiten

Was MGIE von bestehenden Modellen wie LLM-Guided Image Editing (LGIE) unterscheidet, ist seine verbesserte visuelle Wahrnehmung. Während LGIE auf eine einzelne Modalität beschränkt ist, hat MLLM innerhalb von MGIE Zugriff auf das Eingabebild und ein modalübergreifendes Verständnis, was aussagekräftigere Anweisungen ermöglicht. Mit dieser Funktion kann das Modell bestimmte Bereiche im Bild identifizieren, die angepasst werden müssen, beispielsweise das Aufhellen bestimmter Bereiche für einen gewünschten Effekt.

MGIE ist jetzt als Open-Source-Projekt auf GitHub verfügbar und bietet Code, Daten und vorab trainierte Modelle zum Download an. Darüber hinaus ermöglicht eine auf Hugging Face Spaces gehostete Webdemo den Benutzern, die Bildbearbeitungsfunktionen des Modells aus erster Hand zu erleben. Allerdings hat Apple seine Pläne zur Integration von MGIE in seine Produkte über Forschungsprojekte hinaus noch nicht bekannt gegeben.

Während der jüngsten Telefonkonferenz zu den Quartalsergebnissen von Apple bestätigte CEO Tim Cook die laufende Arbeit des Unternehmens an KI-Funktionen für seine Geräte. Das Unternehmen wird die Ergebnisse voraussichtlich noch in diesem Jahr bekannt geben. Business Standard erwartet, dass sich diese KI-Verbesserungen auf verschiedene Apple-Dienste erstrecken, darunter Siri, Nachrichten und Apple Music. Durch die Integration generativer KI-Funktionen können Benutzer mit Verbesserungen wie Textzusammenfassung, personalisierten Vorschlägen und erweiterten Funktionen im gesamten Apple-Ökosystem rechnen.