Эта функция помогает выделять нужные участки по ключевым словам, фразам или длительности

Как использовать Yandex SpeechSense для оценки разговоров в офисах продаж, магазинах или кафе
Онлайн‑общение — от чатов до звонков — уже давно анализируют с помощью ИИ. А как быть с живыми разговорами? Обновлённый Yandex SpeechSense теперь умеет работать и с офлайном — рассказываем, как это помогает бизнесу.
- Речевую аналитику активно применяют в цифровых каналах и колл‑центрах, но анализ офлайн‑коммуникаций остаётся актуальным и сложным из‑за ограничений в работе с одноканальными записями.
- Yandex SpeechSense обновили, чтобы анализировать офлайн‑диалоги с одноканальных устройств: аудиобейджей и микрофонов.
- Новая функциональность Yandex SpeechSense основана на комбинации технологий: акустической модели Speaker Labeling, генеративной модели YandexGPT и интерфейсе Yandex SpeechSense.
- SpeechSense позволяет анализировать диалоги как структурированный разговор с конкретными ролями и действиями — это важно для повышения продаж и удовлетворённости клиентов.
Речевую аналитику активно применяют в цифровых каналах и колл‑центрах: она помогает оценивать работу сотрудников поддержки или отдела продаж, следить за соблюдением скриптов и находить точки роста. Но значительная часть клиентского опыта по‑прежнему формируется офлайн — в офисах продаж, магазинах, поликлиниках, отделениях банков, кассовых зонах или даже в зоне обслуживания посетителей на автомобилях.
Анализ таких коммуникаций становится всё более актуальным, но на практике компании сталкиваются с ограничениями: многие решения не могут корректно работать с одноканальными записями, где в одном потоке звучат голоса нескольких собеседников. В результате теряется часть контекста и точность аналитики.
Мы обновили сервис Yandex SpeechSense, чтобы бизнес мог анализировать офлайн‑диалоги с одноканальных устройств: аудиобейджей и микрофонов. Теперь сервис автоматически различает голоса в записи и определяет роли собеседников: кто сотрудник, а кто клиент. Это упрощает подключение офлайн‑точек к аналитике и позволяет выявлять ценную информацию даже там, где раньше она была недоступна.
Что нового в Yandex SpeechSense
Новая функциональность построена на комбинации нескольких технологий:
- акустической модели Speaker Labeling — определяет голоса собеседников в одноканальной записи;
- генеративной модели YandexGPT — на основе контекста точно устанавливает, кто говорит: клиент или сотрудник;
- интерфейсе Yandex SpeechSense — агрегирует результаты и позволяет строить аналитику в разрезе ролей.
Благодаря такому подходу можно анализировать диалоги не только как поток текста, но и как структурированный разговор с конкретными ролями и действиями. Это особенно важно в сценариях, где качество взаимодействия напрямую влияет на продажи и удовлетворённость клиентов.
По нашей оценке, потенциальный объём российского рынка речевой офлайн‑аналитики — около 11,5 млрд рублей. Это свыше 320 тыс. звукозаписывающих устройств, включая диктофоны и аудиобейджи. Для сравнения: на глобальном уровне мы оцениваем рынок в 6–7 млрд долларов, и доля России в нём — примерно 1,9%. Такие решения особенно востребованы в финансовом секторе (12% сотрудников отрасли), медицине (8%), ритейле (6%) и ресторанной сфере (4%) — где живое общение с клиентом играет ключевую роль.
Как работает аналитика одноканальных аудио
Работа SpeechSense с одноканальными записями строится поэтапно. Вот как это устроено:
-
Распределение записи по целевым диалогам. Этот этап нужен, если вы анализируете аудио со стационарных или мобильных устройств — например, микрофонов или аудиобейджей. Если запись уже разбита на диалоги (например, в случае телефонии), этот шаг можно отключить. Логику выделения диалогов можно задать в интерфейсе: по ключевым словам, фразам или длительности фрагментов.
-
Определение спикеров. После разбивки записи отдельные диалоги направляются в Yandex SpeechKit. Здесь акустическая модель Speaker Labeling выделяет в них два голоса — при этом пока без указания ролей. На этом этапе ещё не известно, кто из собеседников оператор, а кто — клиент.
-
Распознавание ролей. Далее результаты Speaker Labeling анализирует модель YandexGPT. Она учитывает контекст диалога и определяет роли участников.
-
Агрегация и аналитика. Финальные данные отображаются в интерфейсе Yandex SpeechSense — с разбивкой по ролям. Такая комбинация моделей повышает точность распознавания и позволяет строить аналитику не только по самим диалогам, но и отдельно по сотрудникам и клиентам.
Как начать: шаги и рекомендации
Подготовка
Если у вас уже есть аккаунт в Yandex Cloud, можно сразу переходить к работе с Yandex SpeechSense. Здесь мы собрали пошаговую инструкцию для быстрого старта.
Создание подключения
Подключение — это раздел в интерфейсе Yandex SpeechSense, где настраиваются параметры передачи данных. Здесь нужно указать тип аудиозаписей. Для анализа записей с микрофонов, камер или аудиобейджей выберите вариант «Одноканальное подключение».
Если в загружаемых аудио содержатся длинные фрагменты и вам нужно выделить только целевые диалоги между оператором и клиентом, включите опцию «Разбивать диалоги на отрезки».

Важно: аналитика тарифицируется только по целевым диалогам — фоновые разговоры и личные обсуждения, например между сотрудниками, не учитываются в расчётах.
Загрузка данных
После создания подключения и проекта можно загружать данные. Это делается через API — чтобы вы могли повторить, собрали подробную документацию с готовыми примерами кода на Python™.
Аналитика
Анализировать загруженные данные можно через встроенные инструменты Yandex SpeechSense. Подробности — в обучающих видео How to Support, How to Sell, а также в совместном курсе с Яндекс Практикумом.
Кто уже тестирует решение
Несколько компаний уже испытывают новую функциональность SpeechSense в своих офлайн‑точках:
- Один из российских провайдеров телекоммуникационных услуг использует сервис для анализа аудио с бейджей и микрофонов в розничных магазинах. С его помощью компания оценивает точность консультаций и собирает обратную связь по сервисам самообслуживания.
- Страховая компания подключила аналитику к личным встречам в офисах, в том числе по инвестиционному страхованию. Речевые данные помогают контролировать качество консультаций, выявлять успешные сценарии и слышать, что действительно важно клиентам.
- Сеть ресторанов быстрого питания проводит пилот в местах обслуживания посетителей на автомобилях, кассовых зонах и гостевых залах. Предварительные результаты показывают: если оператор делает персональное предложение, около 20% клиентов соглашаются на него, что приводит к расширению позиций в заказе и увеличению чека.
Все кейсы находятся в стадии пилотирования. Их масштабирование позволит точнее оценить влияние на метрики качества и продаж.
Что даёт обновление
Работа с одноканальными аудио — привычная практика для многих компаний, но до сих пор такие данные редко становились частью полноценной аналитики. Обновление в Yandex SpeechSense закрывает этот пробел: теперь можно обрабатывать записи с микрофонов и аудиобейджей так же удобно, как и звонки в колл‑центр — с разметкой ролей, поиском ключевых фраз и разбивкой по сценариям.
Функциональность уже доступна. Она не требует изменений в инфраструктуре, работает с готовыми записями и настраивается под конкретные задачи бизнеса.
