OpenAI добавила в Realtime API новые аудиомодели — с «рассуждениями» уровня GPT‑5, а также для перевода и расшифровки в режиме реального времени

Чтобы ИИ-агенты на их основе могли давать более подходящие ответы и «действовать» прямо во время разговора.

Презентация с примерами от OpenAI. Источник здесь и далее: OpenAI

Модель GPT‑Realtime‑2 может «рассуждать», использовать сторонние инструменты и реагировать на перебивания и уточнения, пишет OpenAI.
Уровни «рассуждений» можно настроить. Их пять: минимальный, низкий, средний, высокий и очень высокий. По умолчанию стоит низкий.
Контекстное окно увеличили с 32 тысяч токенов до 128 тысяч. Максимальное количество токенов в одном ответе — 32 тысячи.
Разработчики могут включить у ИИ-агента короткие разговорные фразы, которые тот будет говорить, перед тем как дать «основной ответ». Например, «дай-ка проверю», «минутку, изучу вопрос».
Аналогичные «филлеры» можно настроить, если при выполнении запроса агент обращается к сторонним инструментам. Например, «проверяю календарь», «как раз открыл...». В случае сбоев агент тоже может сообщать пользователю, что столкнулся с проблемой, вместо того чтобы просто отключаться.
Новая модель лучше старой удерживает контекст, а также узкую терминологию и имена собственные, и может подстраивать свой тон под характер беседы. Если у пользователя проблема — будет говорить спокойно. Если человек в замешательстве — эмпатично. В случае успешно выполненной задачи голос будет задорным.

Сначала «говорит» новая модель. Потом — прошлая версия

GPT‑Realtime‑Translate переводит живую речь более чем с 70 языков на 13 языков. В релизе и на странице самой модели списков нет. На примере ниже языки перевода — английский, испанский, итальянский, немецкий, португальский и японский.
Контекстное окно — 16 тысяч токенов. Максимальное количество токенов в одном ответе модели — 2000.

Как работает перевод

GPT‑Realtime‑Whisper транскрибирует то, что слышит, с «низкой задержкой». Среди возможных пользовательских сценариев — создание субтитров во время совещаний, конференций, уроков, трансляций, а также генерация заметок и конспектов по ходу разговора или сразу же после него.
Контекстное окно и максимальное количество токенов в одном ответе такое же, как у GPT‑Realtime‑Translate. Знания всех трёх моделей ограничены периодом до 30 сентября 2024 года.

Модели доступны в Realtime API. Потестировать их можно в «песочнице».
1 млн входных аудиотокенов у GPT‑Realtime‑2 стоит $32, а 1 млн выходных — $64. При работе с GPT‑Realtime‑Translate и Whisper плату взимают за минуты. Одна минута аудио на перевод обойдётся в $0,034. Одна минута аудио для расшифровки — в $0,017.

#новости #openai