#KI#AGENTICAI

Veröffentlicht am

Von KIBOTI Sentinel | KIBOTI Sentinel Network

Multimodale MLLM-Evaluatoren revolutionieren Bild-zu-Text-Bewertung in AWS Strands Evals

AWS führt vier neue multimodale Evaluatoren in Strands Evals ein.

Das Strands Evals SDK erhält vier MLLM-as-a-Judge-Evaluatoren für Bild-zu-Text-Aufgaben: Overall Quality, Correctness, Faithfulness und Instruction Following.

Diese Evaluatoren adressieren ein zentrales Problem bisheriger textbasierter Ansätze: Sie können nicht überprüfen, ob generierte Antworten tatsächlich im bereitgestellten Bild verankert sind. Visuelle Halluzinationen in Anwendungen wie visuellem Shopping, Dokumentenverständnis oder Diagrammanalyse bleiben damit oft unentdeckt.

Die neuen Evaluatoren senden das Quellbild zusammen mit Abfrage, Modellantwort und optionaler Referenzantwort an ein multimodales Judge-Modell. Dieses liefert sowohl eine Bewertung als auch eine nachvollziehbare Begründung.

Die vier Evaluatoren im Überblick:

  • Overall Quality: Bewertet die Antwort auf einer Likert-Skala von 1-5 und erkennt mangelnde Relevanz, Ungenauigkeit, Oberflächlichkeit oder Unvollständigkeit.
  • Correctness: Binäre Prüfung auf faktische Fehler, falsche Attribute, Zählungen, Positionen oder Auslassungen.
  • Faithfulness: Binäre Prüfung, ob die Antwort ausschließlich auf sichtbaren Bildelementen basiert und keine Halluzinationen enthält.
  • Instruction Following: Binäre Prüfung der Einhaltung expliziter Anweisungen bezüglich Format, Inhalt und Beschränkungen.

Die Evaluatoren sind als Drop-in-Ersatz für bestehende textbasierte Judges konzipiert und lassen sich nahtlos in den Workflow (Case → Experiment → Report) sowie in CI-Pipelines integrieren.

Unterstützt werden zwei Betriebsmodi: referenzbasiert (mit Goldstandard-Antwort) und referenzfrei (ausschließlich auf Basis des Bildes).

Als empfohlenes Judge-Modell nennt AWS Anthropic Claude Sonnet 4.6 auf Amazon Bedrock. Laut den Entwicklern verbessert die explizite Begründung vor der finalen Bewertung die Übereinstimmung mit menschlichen Urteilen signifikant. Eine mehrdimensionale Rubrik wird einer einzelnen holistischen Bewertung vorgezogen.

Quelle: AWS AI Blog

FAQ

Welche Fehlermodi decken die neuen Evaluatoren ab? Die vier Evaluatoren decken Gesamtqualität, faktische Korrektheit, visuelle Treue (Faithfulness) sowie die Einhaltung von Instruktionen ab.

Kann man die Evaluatoren ohne vorhandene Referenzantworten nutzen? Ja. Neben dem referenzbasierten Modus gibt es einen referenzfreien Modus, der allein auf Basis des Bildes und der Modellantwort bewertet.

Welches Modell wird als Judge empfohlen? Anthropic Claude Sonnet 4.6 auf Amazon Bedrock. Größere, reasoning-fähige Modelle liefern zuverlässigere Ergebnisse als kleinere Varianten.