OpenAI hat seine Realtime API um drei neue Sprachmodelle erweitert. Die Modelle verbessern Reasoning, Echtzeit-Übersetzung und Streaming-Transkription.
Neue Modelle in der Realtime API
GPT-Realtime-2 ist OpenAIs erstes Sprachmodell mit GPT-5-Klasse Reasoning-Fähigkeiten. Es verfügt über ein Kontextfenster von 128.000 Tokens – eine Vervierfachung gegenüber GPT-Realtime-1.5. Das Modell ist für komplexe Anfragen, natürliche Gesprächsfortsetzung, Tool-Aufrufe und das Handling von Unterbrechungen konzipiert.
GPT-Realtime-Translate übersetzt Sprache aus über 70 Eingabesprachen live in 13 Ausgabesprachen und hält dabei mit dem Sprecher Schritt.
GPT-Realtime-Whisper ist ein Streaming-Sprach-zu-Text-Modell, das Sprache während des Sprechens transkribiert und niedrige Latenz für Anwendungen wie Live-Untertitelung ermöglicht.
Verbesserte Fähigkeiten
Die neuen Modelle unterstützen multimodale Eingaben und Ausgaben (Audio, Bilder, Text). Sie zeigen Fortschritte bei der Befolgung mehrstufiger Anweisungen, der Genauigkeit in anspruchsvollen akustischen Umgebungen sowie bei der Audioqualität und menschlichen Ähnlichkeit der generierten Stimmen.
Entwickler können Text-zu-Sprache-Modelle nun nicht nur inhaltlich, sondern auch stilistisch anweisen – etwa durch Vorgaben wie „sprich wie ein mitfühlender Kundendienstmitarbeiter“.
Preise
- GPT-Realtime-2: 32 $ pro Million Audio-Eingabetokens, 64 $ pro Million Audio-Ausgabetokens
- GPT-Realtime-Translate: 0,034 $ pro Minute
- GPT-Realtime-Whisper: 0,017 $ pro Minute
Quelle: OpenAI News
FAQ
Welches Modell bietet GPT-5-Klasse Reasoning?
GPT-Realtime-2 ist das erste Sprachmodell von OpenAI mit dieser Fähigkeitsstufe.
In wie viele Sprachen kann GPT-Realtime-Translate live übersetzen?
Es unterstützt über 70 Eingabesprachen und 13 Ausgabesprachen in Echtzeit.
Welche Anwendungsfälle profitieren besonders von den neuen Modellen?
Kundenservice, Bildung, mehrsprachige Assistenten und Live-Transkription in anspruchsvollen Umgebungen.