Umfassende Observability für Amazon SageMaker AI LLM Inference: Von GPU-Auslastung bis zur LLM-Qualität

Die Bereitstellung von Large Language Models in großem Maßstab auf Amazon SageMaker AI Inference erfordert eine Observability-Strategie, die über klassische Infrastrukturmetriken hinausgeht.

LLMs erzeugen variable, nicht-deterministische Ausgaben. Ihre Qualität lässt sich mit herkömmlichen Monitoring-Ansätzen nur schwer bewerten und kann sich durch Prompt-Drift oder Konzeptveränderungen schleichend verschlechtern.

AWS adressiert diese Herausforderung mit einer dualen Observability-Lösung: Quantitäts-Monitoring der Inferenz-Infrastruktur und Qualitäts-Monitoring der LLM-Ausgaben selbst.

Quantitäts-Monitoring: Infrastruktur-Gesundheit

Amazon SageMaker AI Inference Components ermöglichen es, mehrere unterschiedliche LLMs (beispielsweise gpt-oss-20b und Qwen2.5-7B-Instruct) auf einem gemeinsamen Endpunkt zu betreiben. Jede Komponente erhält isolierte Routing-, Skalierungs- und Metrik-Attribute.

Amazon CloudWatch sammelt automatisch Enhanced Metrics im Namespace /aws/sagemaker/InferenceComponents/<model-name>. Diese umfassen Aufrufzahlen, Latenz, Fehlerraten sowie GPU- und CPU-Auslastung pro Modell.

Zusätzlich können benutzerdefinierte Qualitätsmetriken in einem separaten Namespace /aws/sagemaker/inference-quality/<model-name> veröffentlicht werden.

Amazon Managed Grafana visualisiert diese Daten in speziellen Dashboards und zeigt unter anderem:

Modell-Latenz-Trends und Aufrufverteilung
GPU Compute und Memory Utilization pro Modell
Verhältnis genutzter zu freier GPUs sowie Kosten pro Modell

Diese Sicht ermöglicht SRE-Teams die Erkennung von Engpässen, die Dimensionierung von Ressourcen und die Kontrolle von Kosten.

Qualitäts-Monitoring: LLM-Leistung

Neben der Infrastruktur wird die tatsächliche Qualität der generierten Antworten überwacht. Dazu zählen Composite Quality Score, Safety Score, Relevance Score und Professional Tone Score.

Die Bewertung erfolgt häufig nach dem LLM-as-judge-Prinzip unter Nutzung von Amazon Bedrock (z. B. mit Anthropic Claude). Die resultierenden Metriken werden in CloudWatch gespeichert und in Amazon Managed Grafana als Zeitreihen dargestellt.

Bei Überschreitung definierter Schwellenwerte können über Grafana Alerting Benachrichtigungen via Amazon SNS ausgelöst werden. Diese lassen sich in bestehende SRE-Prozesse (Slack, PagerDuty etc.) integrieren.

Vereinheitlichte Observability ohne aufwändige Instrumentierung

Die Kombination aus SageMaker Enhanced Metrics, CloudWatch und Managed Grafana schafft eine einheitliche Sicht auf Infrastruktur- und Qualitätssignale. Separate Dashboards bedienen die Bedürfnisse von SREs, Governance-Teams und Produktverantwortlichen.

Quelle: AWS AI Blog

FAQ

Welche zwei Dimensionen der Observability werden von der AWS-Lösung abgedeckt?
Die Lösung adressiert sowohl die betriebliche Gesundheit der Inferenz-Infrastruktur (Quantität) als auch die Qualität der LLM-Ausgaben selbst.

Welche Dienste sind zentral für das Qualitäts-Monitoring?
Amazon CloudWatch speichert die Metriken, Amazon Managed Grafana visualisiert sie, Amazon Bedrock dient als LLM-as-Judge-Evaluator und Amazon SNS übernimmt die Benachrichtigungen.

Welche Metriken werden für die LLM-Qualität erfasst?
Neben einem Composite Quality Score werden spezifische Scores für Safety, Relevance und Professional Tone sowie die Evaluierungslatenz erfasst.

Veröffentlicht am

Umfassende Observability für Amazon SageMaker AI LLM Inference: Von GPU-Auslastung bis zur LLM-Qualität

Quantitäts-Monitoring: Infrastruktur-Gesundheit

Qualitäts-Monitoring: LLM-Leistung

Vereinheitlichte Observability ohne aufwändige Instrumentierung

FAQ

Wie geht es weiter?