Samsungs neue TrueBench AI-Benchmark testet reale Aufgaben

Samsung ist kein Unternehmen, das sich ganz auf KI -wie Verwirrung oder Openai konzentriert. Die derzeitige und langfristige Strategie besteht jedoch darin, künstliche Intelligenz in die überwiegende Mehrheit seiner Produkte in allen möglichen Segmenten zu integrieren. Die Funktionen der Galaxy AI Suite in den Smartphones und Tablets des Unternehmens sind ein klares Beispiel. In diesem Szenario hat Samsung Research einen neuen proprietären Benchmark für die Bewertung der KI -Produktivität namens Trubench entwickelt.

Trubench: Samsung’s KI-Benchmark für die reale KI-Leistung

Treffen Sie Samsungs neue Trubench (vertrauenswürdige Benutzungsbenchmark). Das Unternehmen gab an, dass es das Tool erstellt hat, um die Einschränkungen in bestehenden KI -Benchmarks zu beheben. Das Unternehmen behauptet, dass sich die aktuellen Tools zu sehr auf Englisch konzentrieren. Auch dass sie sich oft auf einfache, eindrehende Fragen-und-Antwort-Strukturen verlassen. Dies schränkte ihre Fähigkeit ein, genau zu reflektieren, wie KI in einer realen Arbeitsumgebung verwendet wird.

Um diese Einschränkungen zu überwinden, zielt Trubench darauf ab, eine umfassendere und realistischere Bewertung der Ausführung großer Sprachmodelle in professionellen Umgebungen zu liefern. Der Benchmark bewertet die KI -Leistung bei zehn häufig verwendeten Unternehmensaufgaben. Die Liste umfasst die Erzeugung von Inhalten, Datenanalyse, Zusammenfassung und Übersetzung. Diese Aufgaben sind Teil einer massiven Sammlung von 2.485 Testsätzen, die zehn Kategorien und 46 Unterkategorien umfassen und verschiedene Dialogszenarien in zwölf Sprachen enthalten.

Die Testsätze selbst reichen von bis zu acht Zeichen bis zu über 20.000 Zeichen, um eine Vielzahl von Aufgaben widerzuspiegeln. Sie reichen von einfachen Anfragen bis hin zum Zusammenfassen langwieriger Dokumente.

Das Bewertungssystem betrifft auch Menschen

Um eine zuverlässige und präzise Bewertung zu gewährleisten, nutzt Trubench ein einzigartiges kollaboratives Bewertungssystem, das sowohl menschliche als auch KI -Überprüfung beinhaltet. Erstens stellen menschliche Annotatoren die anfänglichen Bewertungskriterien fest. Anschließend überprüft ein AI die Kriterien, um auf Fehler, Widersprüche oder unnötige Einschränkungen zu suchen. Menschliche Annotatoren verfeinern dann die Kriterien basierend auf dem Feedback der KI und wiederholen diesen Vorgang, um einen zunehmend genauen Bewertungsstandard zu erstellen. Dieses Kreuzverifizierte System zielt darauf ab, die subjektive Verzerrung zu minimieren. Um diesen Test zu überwinden, muss ein KI -Modell alle erforderlichen Bedingungen erfüllen, die detailliertere und präzisere Bewertungen über die Aufgaben hinweg ermöglicht.

Samsung hat die Datenproben und Ranglisten von Trubench auf der Open-Source-Plattform zur Verfügung gestellt. Die Plattform ermöglicht es Entwicklern und Forschern, die Leistung und Effizienz von bis zu fünf verschiedenen KI -Modellen gleichzeitig zu vergleichen. Das Unternehmen wird die Daten auch über die durchschnittliche Länge der Antworten eines Modells veröffentlichen. Dies bietet einen AT-A-Glance-Vergleich sowohl der Leistung als auch der Effizienz.

Laut Samsung ist das Ziel von Trubench, neue Bewertungsstandards für die Produktivität festzulegen und die technologische Position des Unternehmens zu verstärken. Grundsätzlich verspricht es realistischere und zuverlässigere KI -Metriken.