Как использовать Yandex SpeechSense для оценки разговоров в офисах продаж, магазинах или кафе

Онлайн‑общение — от чатов до звонков — уже давно анализируют с помощью ИИ. А как быть с живыми разговорами? Обновлённый Yandex SpeechSense теперь умеет работать и с офлайном — рассказываем, как это помогает бизнесу.

Краткий пересказ YandexGPT
  • Речевую аналитику активно применяют в цифровых каналах и колл‑центрах, но анализ офлайн‑коммуникаций остаётся актуальным и сложным из‑за ограничений в работе с одноканальными записями.
  • Yandex SpeechSense обновили, чтобы анализировать офлайн‑диалоги с одноканальных устройств: аудиобейджей и микрофонов.
  • Новая функциональность Yandex SpeechSense основана на комбинации технологий: акустической модели Speaker Labeling, генеративной модели YandexGPT и интерфейсе Yandex SpeechSense.
  • SpeechSense позволяет анализировать диалоги как структурированный разговор с конкретными ролями и действиями — это важно для повышения продаж и удовлетворённости клиентов.
Тезисы сформулированыYandexGPT
Спасибо!

Речевую аналитику активно применяют в цифровых каналах и колл‑центрах: она помогает оценивать работу сотрудников поддержки или отдела продаж, следить за соблюдением скриптов и находить точки роста. Но значительная часть клиентского опыта по‑прежнему формируется офлайн — в офисах продаж, магазинах, поликлиниках, отделениях банков, кассовых зонах или даже в зоне обслуживания посетителей на автомобилях.

Анализ таких коммуникаций становится всё более актуальным, но на практике компании сталкиваются с ограничениями: многие решения не могут корректно работать с одноканальными записями, где в одном потоке звучат голоса нескольких собеседников. В результате теряется часть контекста и точность аналитики.

Мы обновили сервис Yandex SpeechSense, чтобы бизнес мог анализировать офлайн‑диалоги с одноканальных устройств: аудиобейджей и микрофонов. Теперь сервис автоматически различает голоса в записи и определяет роли собеседников: кто сотрудник, а кто клиент. Это упрощает подключение офлайн‑точек к аналитике и позволяет выявлять ценную информацию даже там, где раньше она была недоступна.

Что нового в Yandex SpeechSense

Новая функциональность построена на комбинации нескольких технологий:

  • акустической модели Speaker Labeling — определяет голоса собеседников в одноканальной записи;
  • генеративной модели YandexGPT — на основе контекста точно устанавливает, кто говорит: клиент или сотрудник;
  • интерфейсе Yandex SpeechSense — агрегирует результаты и позволяет строить аналитику в разрезе ролей.

Благодаря такому подходу можно анализировать диалоги не только как поток текста, но и как структурированный разговор с конкретными ролями и действиями. Это особенно важно в сценариях, где качество взаимодействия напрямую влияет на продажи и удовлетворённость клиентов.

По нашей оценке, потенциальный объём российского рынка речевой офлайн‑аналитики — около 11,5 млрд рублей. Это свыше 320 тыс. звукозаписывающих устройств, включая диктофоны и аудиобейджи. Для сравнения: на глобальном уровне мы оцениваем рынок в 6–7 млрд долларов, и доля России в нём — примерно 1,9%. Такие решения особенно востребованы в финансовом секторе (12% сотрудников отрасли), медицине (8%), ритейле (6%) и ресторанной сфере (4%) — где живое общение с клиентом играет ключевую роль.

Как работает аналитика одноканальных аудио

Работа SpeechSense с одноканальными записями строится поэтапно. Вот как это устроено:

  1. Распределение записи по целевым диалогам. Этот этап нужен, если вы анализируете аудио со стационарных или мобильных устройств — например, микрофонов или аудиобейджей. Если запись уже разбита на диалоги (например, в случае телефонии), этот шаг можно отключить. Логику выделения диалогов можно задать в интерфейсе: по ключевым словам, фразам или длительности фрагментов.

  2. Определение спикеров. После разбивки записи отдельные диалоги направляются в Yandex SpeechKit. Здесь акустическая модель Speaker Labeling выделяет в них два голоса — при этом пока без указания ролей. На этом этапе ещё не известно, кто из собеседников оператор, а кто — клиент.

  3. Распознавание ролей. Далее результаты Speaker Labeling анализирует модель YandexGPT. Она учитывает контекст диалога и определяет роли участников.

  4. Агрегация и аналитика. Финальные данные отображаются в интерфейсе Yandex SpeechSense — с разбивкой по ролям. Такая комбинация моделей повышает точность распознавания и позволяет строить аналитику не только по самим диалогам, но и отдельно по сотрудникам и клиентам.

Как начать: шаги и рекомендации

Подготовка

Если у вас уже есть аккаунт в Yandex Cloud, можно сразу переходить к работе с Yandex SpeechSense. Здесь мы собрали пошаговую инструкцию для быстрого старта.

Создание подключения

Подключение — это раздел в интерфейсе Yandex SpeechSense, где настраиваются параметры передачи данных. Здесь нужно указать тип аудиозаписей. Для анализа записей с микрофонов, камер или аудиобейджей выберите вариант «Одноканальное подключение».

Если в загружаемых аудио содержатся длинные фрагменты и вам нужно выделить только целевые диалоги между оператором и клиентом, включите опцию «Разбивать диалоги на отрезки».

Полноэкранное изображение

Эта функция помогает выделять нужные участки по ключевым словам, фразам или длительности

Важно: аналитика тарифицируется только по целевым диалогам — фоновые разговоры и личные обсуждения, например между сотрудниками, не учитываются в расчётах.

Загрузка данных

После создания подключения и проекта можно загружать данные. Это делается через API — чтобы вы могли повторить, собрали подробную документацию с готовыми примерами кода на Python.

Аналитика

Анализировать загруженные данные можно через встроенные инструменты Yandex SpeechSense. Подробности — в обучающих видео How to Support, How to Sell, а также в совместном курсе с Яндекс Практикумом.

Кто уже тестирует решение

Несколько компаний уже испытывают новую функциональность SpeechSense в своих офлайн‑точках:

  • Один из российских провайдеров телекоммуникационных услуг использует сервис для анализа аудио с бейджей и микрофонов в розничных магазинах. С его помощью компания оценивает точность консультаций и собирает обратную связь по сервисам самообслуживания.
  • Страховая компания подключила аналитику к личным встречам в офисах, в том числе по инвестиционному страхованию. Речевые данные помогают контролировать качество консультаций, выявлять успешные сценарии и слышать, что действительно важно клиентам.
  • Сеть ресторанов быстрого питания проводит пилот в местах обслуживания посетителей на автомобилях, кассовых зонах и гостевых залах. Предварительные результаты показывают: если оператор делает персональное предложение, около 20% клиентов соглашаются на него, что приводит к расширению позиций в заказе и увеличению чека.

Все кейсы находятся в стадии пилотирования. Их масштабирование позволит точнее оценить влияние на метрики качества и продаж.

Что даёт обновление

Работа с одноканальными аудио — привычная практика для многих компаний, но до сих пор такие данные редко становились частью полноценной аналитики. Обновление в Yandex SpeechSense закрывает этот пробел: теперь можно обрабатывать записи с микрофонов и аудиобейджей так же удобно, как и звонки в колл‑центр — с разметкой ролей, поиском ключевых фраз и разбивкой по сценариям.

Функциональность уже доступна. Она не требует изменений в инфраструктуре, работает с готовыми записями и настраивается под конкретные задачи бизнеса.

Как использовать Yandex SpeechSense для оценки разговоров в офисах продаж, магазинах или кафе
Войдите, чтобы сохранить пост