OpenAI добавила в Realtime API новые аудиомодели — с «рассуждениями» уровня GPT‑5, а также для перевода и расшифровки в режиме реального времени

Чтобы ИИ-агенты на их основе могли давать более подходящие ответы и «действовать» прямо во время разговора.

Презентация с примерами от OpenAI. Источник здесь и далее: OpenAI
  • Модель GPT‑Realtime‑2 может «рассуждать», использовать сторонние инструменты и реагировать на перебивания и уточнения, пишет OpenAI.
  • Уровни «рассуждений» можно настроить. Их пять: минимальный, низкий, средний, высокий и очень высокий. По умолчанию стоит низкий.
  • Контекстное окно увеличили с 32 тысяч токенов до 128 тысяч. Максимальное количество токенов в одном ответе — 32 тысячи.
  • Разработчики могут включить у ИИ-агента короткие разговорные фразы, которые тот будет говорить, перед тем как дать «основной ответ». Например, «дай-ка проверю», «минутку, изучу вопрос».
  • Аналогичные «филлеры» можно настроить, если при выполнении запроса агент обращается к сторонним инструментам. Например, «проверяю календарь», «как раз открыл...». В случае сбоев агент тоже может сообщать пользователю, что столкнулся с проблемой, вместо того чтобы просто отключаться.
  • Новая модель лучше старой удерживает контекст, а также узкую терминологию и имена собственные, и может подстраивать свой тон под характер беседы. Если у пользователя проблема — будет говорить спокойно. Если человек в замешательстве — эмпатично. В случае успешно выполненной задачи голос будет задорным.
Сначала «говорит» новая модель. Потом — прошлая версия
  • GPT‑Realtime‑Translate переводит живую речь более чем с 70 языков на 13 языков. В релизе и на странице самой модели списков нет. На примере ниже языки перевода — английский, испанский, итальянский, немецкий, португальский и японский.
  • Контекстное окно — 16 тысяч токенов. Максимальное количество токенов в одном ответе модели — 2000.
Как работает перевод
  • GPT‑Realtime‑Whisper транскрибирует то, что слышит, с «низкой задержкой». Среди возможных пользовательских сценариев — создание субтитров во время совещаний, конференций, уроков, трансляций, а также генерация заметок и конспектов по ходу разговора или сразу же после него.
  • Контекстное окно и максимальное количество токенов в одном ответе такое же, как у GPT‑Realtime‑Translate. Знания всех трёх моделей ограничены периодом до 30 сентября 2024 года.
  • Модели доступны в Realtime API. Потестировать их можно в «песочнице».
  • 1 млн входных аудиотокенов у GPT‑Realtime‑2 стоит $32, а 1 млн выходных — $64. При работе с GPT‑Realtime‑Translate и Whisper плату взимают за минуты. Одна минута аудио на перевод обойдётся в $0,034. Одна минута аудио для расшифровки — в $0,017.
6
1
27 комментариев