Yandex Cloud
Поиск
Связаться с намиПопробовать бесплатно
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
  • Marketplace
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Искусственный интеллект
    • Безопасность
    • Инструменты DevOps
    • Бессерверные вычисления
    • Управление ресурсами
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Акции и free tier
  • Истории успеха
  • Документация
  • Блог
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»
Yandex AI Studio
  • О сервисе Yandex AI Studio
  • Начало работы с Model Gallery
    • Обзор AI-агентов
    • Текстовые агенты
    • Голосовые агенты
    • Управление контектом диалога
    • Code Interpreter
  • Yandex Workflows
  • Переход с AI Assistant API на Responses API
  • Совместимость с OpenAI
  • Квоты и лимиты
  • Правила тарификации
  • Управление доступом
  • Аудитные логи Audit Trails
  • Публичные материалы
  • История изменений
  • Термины и определения

В этой статье:

  • Realtime API
  • Модель
  • Голоса
  • Сессии
  • События
  • Инструменты голосовых агентов
  • Примеры использования
  1. Agent Atelier
  2. Голосовые агенты

Голосовые агенты

Статья создана
Yandex Cloud
Обновлена 16 февраля 2026 г.
  • Realtime API
    • Модель
    • Голоса
    • Сессии
    • События
    • Инструменты голосовых агентов
  • Примеры использования

Голосовые агенты — это инструмент Yandex AI Studio, позволяющий создавать на основе искусственного интеллекта приложения, которые взаимодействуют с пользователем как в текстовом, так и в голосовом формате.

Голосовые агенты поддерживают двусторонний обмен сообщениями: клиент отправляет события с аудио- или текстовыми инструкциями, а сервер возвращает ответы по мере готовности. Такой потоковый режим позволяет отображать частичные ответы сразу, не дожидаясь завершения обработки и обеспечивая естественное течение диалога.

Голосовые агенты могут применяться для реализации следующих сценариев:

  • Подсказки оператору. Голосовой агент в режиме реального времени анализирует голосовое или текстовое общение оператора с клиентом и предлагает оператору готовый ответ или ссылку на инструкцию. Это позволяет оператору отвечать на вопросы быстрее и точнее.
  • Голосовой агент. Современная замена голосовым ботам. Голосовой агент может принимать заказы, отвечать на вопросы в службу поддержки. При этом агент разговаривает без задержек, как живой оператор.
  • Автоматическая суммаризация звонка. Голосовой агент в режиме реального времени анализирует аудиопоток и выделяет ключевые моменты (темы, договоренности, дальнейшие шаги). К концу беседы формирует краткое резюме и список задач, которые отправляет в CRM-систему или в чат.

Realtime APIRealtime API

В AI Studio голосовые агенты можно создавать с помощью Realtime API — событийно-ориентированного интерфейса для голосового взаимодействия сервера с клиентом в режиме реального времени через транспорт на базе WebSocket.

МодельМодель

Для обработки запросов пользователя Realtime API использует специальную мультимодальную модель, которая подходит для интерактивных голосовых и смешанных (голос + текст) сценариев с минимальной задержкой:

Модель и URI Контекст Режимы работы
speech-realtime-250923
gpt://<идентификатор_каталога>/speech-realtime-250923
32 768 Синхронный

Модель разработана специально для работы с русским языком и подойдет для создания голосовых ассистентов, чатов и приложений, где важен живой, естественный диалог.

Realtime API работает с аудио в формате Linear pulse-code modulation.

ГолосаГолоса

Realtime API совместим со всеми стандартными голосами Yandex SpeechKit и голосами SpeechKit Brand Voice Lite и SpeechKit Brand Voice Premium.

Примеры голосов можно услышать на странице сервиса SpeechKit.

СессииСессии

Контекст взаимодействия между клиентом и сервером сохраняется в сессиях. Сессия содержит историю диалога и параметры конфигурации — системный промпт модели, выбранный голос для синтеза речи, ожидаемые модальности (текст или речь).

Сессия создается один раз при установлении WebSocket-соединения и действует до закрытия этого соединения. Параметры конфигурации сессии можно изменять в процессе диалога. Например, вы можете обновлять системный промпт, изменять голос синтеза или набор модальностей.

Чтобы продолжить работу после завершения текущей сессии, нужно создать новую сессию.

СобытияСобытия

События — это основной механизм обмена данными в Realtime API. Каждое взаимодействие клиента с сервером описывается в виде события, содержащего обязательное поле type — тип события, указывающий на его назначение.

Клиент отправляет события, чтобы передать данные, инструкции или команды (например, создать новый ответ, загрузить аудио или изменить параметры сессии). Сервер отвечает событиями, которые содержат промежуточные или финальные результаты, а также уведомления о состоянии.

Обмен событиями двусторонний и асинхронный: клиент может отправлять на сервер новые события, не дожидаясь, пока сервер вернет результат предыдущей задачи. Такой подход позволяет обрабатывать ответы в потоковом режиме и реагировать на них сразу, без необходимости ждать завершения всей обработки.

Каждое событие передается как отдельный JSON-объект по открытому WebSocket-соединению. Клиент должен уметь принимать и обрабатывать события в режиме реального времени. Кроме того, необходимо учитывать, что ответ может приходить по частям: сначала в виде дельт (частичных данных), а затем — финальным сообщением о завершении.

Инструменты голосовых агентовИнструменты голосовых агентов

Через систему инструментов (tools) агент может обращаться к функциям, выполнять поиск в сети, работать с вашими файлами или обращаться к внешним системам и инструментам. Это делает взаимодействие с моделью более интерактивным и полезным в реальных сценариях — от чат-бота поддержки до аналитических ассистентов.

Вызов функцийВызов функций

Вызов функций (Function calling) — это встроенный механизм Realtime API, который позволяет модели вызывать заранее описанные функции. Он используется, когда модель должна не только ответить текстом, но и выполнить некое действие — например, получить данные из CRM, вызвать API внешнего сервиса или рассчитать результат.

Функции описываются в виде JSON-схем при инициализации сессии:

"tools": [
    # Функция погоды для демонстрации работы с вызовом функций
    {
        "type": "function",
        "name": "get_weather",
        "description": "Получить краткую сводку погоды по городу.",
        "parameters": {
            "type": "object",
            "properties": {"city": {"type": "string"}},
            "required": ["city"],
            "additionalProperties": False,
        },
    }
],
...

Когда модель понимает, что нужно выполнить вызов функции, она возвращает структурированный объект с именем функции и аргументами. Клиент исполняет этот вызов и возвращает ответ модели — создается интерактивный цикл «модель ↔ логика приложения».

if item.get("type") == "function_call":
...
weather_json = fake_weather(city)
...
payload_item = {
    "type": "conversation.item.create",
    "item": {
        "type": "function_call_output",
        "call_id": call_id,
        "output": weather_json,
    },
}

Поиск в интернетеПоиск в интернете

Web search — инструмент поиска в интернете, который позволяет модели получать информацию из открытых источников, чтобы использовать ее для генерации ответа.

Чтобы голосовой агент мог обращаться в интернет, необходимо добавить его в список доступных инструментов при инициализации сессии:

{
  "session": {
    ...
    "tools": [
        # Инструмент поиска в интернете.
        {
            "type": "function",
            "name": "web_search", # зарезервированное имя функции веб-поиска
            "description": "Поиск в интернете",
            "parameters": "{}", # временно не параметризуется
        }
    ],
    ...
  }
}

Поиск по файламПоиск по файлам

Инструмент File Search позволяет выполнять гибридный поиск по файлам пользователя при формировании ответа.

{
  "session": {
    ...
    "tools": [
        # Инструмент поиска по файлам.
        {
            "type": "function",
            "name": "file_search",  # зарезервированное имя функции поиска по файлам
            "description": "<идентификатор_поискового_индекса>" #идентификатор индекса, созданного с помощью Vector Store API
            "parameters": "{}", # временно не используется
        },
    ],
    ...
  }
}

Такой поиск будет полезен при реализации:

  • корпоративных баз знаний и инструкций;
  • RAG (Retrieval-Augmented Generation) сценариев;
  • поддержки клиентов, основанной на внутренних данных компании.

Результаты поиска добавляются в контекст ответа, и модель может формировать ответы со ссылками на конкретные документы или цитаты.

MCPMCP

Для вызова сторонних API и сервисов агента можно использовать MCP (Model Context Protocol). MCP позволяет подключить внешний сервер с инструментами и вызывать их автоматически во время сессии. После подключения все инструменты, опубликованные MCP-сервером, становятся доступны агенту в Realtime API и могут вызываться моделью автоматически во время сессии.

{
  "session": {
    ...
    "tools": [
      {
        "type": "mcp", # указывает, что инструмент — MCP-сервер
        "server_label": "..", # логическое имя сервера для модели
        "server_url": "...", # адрес MCP-сервера со сторонними API
        "authorization": "{access_token}", # данные для авторизации на MCP-сервере
        "require_approval": "{never или always}" # политика подтверждения перед вызовом инструментов
      }
    ],
    ...
  }
}

Примеры сценариев использования инструментовПримеры сценариев использования инструментов

  • Агенты поддержки клиентов — отвечают на вопросы по документации, выполняют запросы во внутренние сервисы и действуют от имени пользователя.
  • Ассистенты операторов — дают подсказки на основе актуальных внутренних документов, баз знаний и оперативных данных.
  • Бизнес-боты и аналитические помощники — собирают информацию из внешних источников, API и открытых данных, формируют консолидированные отчеты и рекомендации.

См. такжеСм. также

  • AI-агенты
  • Инструмент поиска в интернете Web Search
  • Инструмент поиска по файлам File Search

Примеры использованияПримеры использования

Создать голосового агента через Realtime API на базе WebSocket

Была ли статья полезна?

Предыдущая
Текстовые агенты
Следующая
Управление контектом диалога
Создавайте контент и получайте гранты!Готовы написать своё руководство? Участвуйте в контент-программе и получайте гранты на работу с облачными сервисами!
Подробнее о программе
Проект Яндекса
© 2026 ООО «Яндекс.Облако»