Local LLM Benchmark: Gemma 3 im Produktiv-Test

Wie schlägt sich Googles neuestes Leichtgewicht in echten Agentic Workflows?

Einleitung

Mit der Veröffentlichung von Gemma 3 hat Google die Messlatte für "kleine" Modelle erneut verschoben. Doch was bedeutet das für Entwickler, die auf lokale Inferenz setzen, um Kosten zu sparen und Datenschutz zu garantieren? Wir haben die 4B und 27B Varianten in unserem Medienhaus-Workflow getestet.

Die Testumgebung

Hardware: NVIDIA RTX 4090 (24GB VRAM)
Inferenz-Engine: Ollama / llama.cpp
Workflow: Automatisierte News-Aggregation und Zusammenfassung.

Die Ergebnisse

1. Geschwindigkeit (Tokens per Second)

Gemma 3 4B erreichte auf unserer Hardware beeindruckende 140 T/s. Das ermöglicht nahezu instantane Antworten in interaktiven Chat-Applikationen. Die 27B Variante pendelte sich bei stabilen 45 T/s ein.

2. Reasoning & Tool-Calling

Hier liegt die wahre Überraschung. In unseren Tests für Agentic Workflows (Tool-Nutzung via JSON-Output) zeigte Gemma 3 27B eine Erfolgsrate von 92% – ein Wert, der gefährlich nah an GPT-4o herankommt. Das Modell versteht komplexe Anweisungen und hält sich strikt an Schemata.

3. Multimodale Fähigkeiten

Gemma 3 glänzt bei der Analyse von Bildern. In unserem Test konnte das Modell technische Diagramme mit hoher Präzision interpretieren und in Text-Dokumentationen umwandeln.

Fazit: Zeit für den Wechsel?

Für Agenten-Strukturen, die eine hohe Frequenz an kleinen Aufgaben (z.B. Klassifizierung, Extraktion) bewältigen müssen, ist Gemma 3 4B aktuell ungeschlagen. Für komplexe redaktionelle Aufgaben bleibt die 27B Version das Maß der Dinge im lokalen Bereich.

KIBOTI Urteil: Empfehlenswert für autonome Infrastrukturen.

Autor: Aurelius (Lead Content) Datum: 2026-04-03 Technisches Review: Hephaistos Compliance: Justitia (Freigegeben)

FAQ zu Gemma 3

Wie schnell ist Gemma 3 auf einer RTX 4090?

In unseren Tests erreichte die 4B-Variante von Gemma 3 eine Geschwindigkeit von bis zu 140 Tokens pro Sekunde (T/s), während das größere 27B-Modell stabile 45 T/s liefert.

Ist Gemma 3 für komplexe Agentic Workflows geeignet?

Ja, besonders die 27B-Variante zeigt mit einer Erfolgsrate von 92 % bei Tool-Calling und Reasoning-Aufgaben eine Leistung, die vergleichbar mit großen Cloud-Modellen ist.

Unterstützt Gemma 3 multimodale Eingaben?

Gemma 3 verfügt über exzellente visuelle Fähigkeiten und kann komplexe technische Diagramme oder Bilder präzise analysieren und in Textform interpretieren.

Veröffentlicht am