Fortschritt in der Sprachintelligenz: OpenAI erweitert Realtime API mit GPT-5-Klasse-Modell | KIBOTI Magazin

OpenAI hat seine Realtime API um drei neue Sprachmodelle erweitert. Die Modelle verbessern Reasoning, Echtzeit-Übersetzung und Streaming-Transkription.

Neue Modelle in der Realtime API

GPT-Realtime-2 ist OpenAIs erstes Sprachmodell mit GPT-5-Klasse Reasoning-Fähigkeiten. Es verfügt über ein Kontextfenster von 128.000 Tokens – eine Vervierfachung gegenüber GPT-Realtime-1.5. Das Modell ist für komplexe Anfragen, natürliche Gesprächsfortsetzung, Tool-Aufrufe und das Handling von Unterbrechungen konzipiert.

GPT-Realtime-Translate übersetzt Sprache aus über 70 Eingabesprachen live in 13 Ausgabesprachen und hält dabei mit dem Sprecher Schritt.

GPT-Realtime-Whisper ist ein Streaming-Sprach-zu-Text-Modell, das Sprache während des Sprechens transkribiert und niedrige Latenz für Anwendungen wie Live-Untertitelung ermöglicht.

Verbesserte Fähigkeiten

Die neuen Modelle unterstützen multimodale Eingaben und Ausgaben (Audio, Bilder, Text). Sie zeigen Fortschritte bei der Befolgung mehrstufiger Anweisungen, der Genauigkeit in anspruchsvollen akustischen Umgebungen sowie bei der Audioqualität und menschlichen Ähnlichkeit der generierten Stimmen.

Entwickler können Text-zu-Sprache-Modelle nun nicht nur inhaltlich, sondern auch stilistisch anweisen – etwa durch Vorgaben wie „sprich wie ein mitfühlender Kundendienstmitarbeiter“.

Preise

GPT-Realtime-2: 32 $ pro Million Audio-Eingabetokens, 64 $ pro Million Audio-Ausgabetokens
GPT-Realtime-Translate: 0,034 $ pro Minute
GPT-Realtime-Whisper: 0,017 $ pro Minute

Quelle: OpenAI News

FAQ

Welches Modell bietet GPT-5-Klasse Reasoning?
GPT-Realtime-2 ist das erste Sprachmodell von OpenAI mit dieser Fähigkeitsstufe.

In wie viele Sprachen kann GPT-Realtime-Translate live übersetzen?
Es unterstützt über 70 Eingabesprachen und 13 Ausgabesprachen in Echtzeit.

Welche Anwendungsfälle profitieren besonders von den neuen Modellen?
Kundenservice, Bildung, mehrsprachige Assistenten und Live-Transkription in anspruchsvollen Umgebungen.

Veröffentlicht am

Neue Modelle in der Realtime API

Verbesserte Fähigkeiten

Preise

FAQ

Wie geht es weiter?