SpeechKit Brand Voice и уникальный синтез для голосового помощника Alf

Краткий пересказ YandexGPT
  • Альфа-Банк разработал голосового ассистента Альфа для персонализации и «гуманизации» взаимодействия клиентов с мобильным приложением.
  • Ассистент обладает уникальным голосом и характером, его создали с помощью технологии Yandex SpeechKit Brand Voice.
  • Голос Альфа — голос актёра Всеволода Кузнецова.
  • Альф умеет поддерживать беседу, шутить и ориентироваться в финансовых продуктах банка.
  • Для создания голосового помощника Альфа-Банк сотрудничал с Yandex Cloud и компанией Just AI.
  • Технология Yandex SpeechKit Brand Voice позволяет синтезировать речь, неотличимую от человеческой, и озвучивать произвольный контент.
  • Создание Альфа включало три этапа: запись диктора (около 50 часов речи Всеволода Кузнецова), обучение голосовой модели с использованием трансформерной архитектуры нейронных сетей и обучение помощника диалогу с помощью технологии распознавания речи speech-to-text и платформы Conversational Platform от Just AI.
  • После запуска Альфа продолжает совершенствоваться — например, была добавлена функция разговора шёпотом на основе отзывов пользователей.
  • Ассистент помогает клиентам с различными финансовыми операциями: проверяет баланс, задолженность, предлагает кредиты, позволяет переводить деньги и оплачивать услуги.
  • Благодаря Yandex SpeechKit Brand Voice Full модель может синтезировать произвольные фразы без загрузки дополнительных записей голоса диктора.
  • Альфа-Банк получает эксклюзивный доступ к модели и может использовать Альфа для разных режимов и амплуа.

О чём эта история

Альфа-Банк решил персонализировать и «гуманизировать» взаимодействие клиентов с мобильным приложением. Для этого банк разработал голосового ассистента — Альфа. Он обладает уникальным голосом и характером, который создали с помощью Yandex SpeechKit Brand Voice — технологии, позволяющей синтезировать узнаваемый фирменный голос, неотличимый от человеческого, и озвучивать им любой текст. Альф говорит голосом известного актёра озвучания Всеволода Кузнецова. Помощник умеет поддерживать беседу, остроумно шутит и хорошо ориентируется в финансовых продуктах банка.

Голос Альфа звучит естественно и располагает к себе пользователей. Каждый месяц помощника обучают новым навыкам, при этом не нужно записывать новые реплики — Yandex SpeechKit Brand Voice в версии Full позволяет синтезировать речь с любым содержанием.

Альф — голосовой финансовый помощник

Альфа-Банк — один из крупнейших универсальных частных банков в России. Сейчас банк развивает концепцию Phygital — сервиса и коммуникаций на стыке цифрового и физического пространств. В соответствии с этой концепцией Альфа-Банк открывает офисы нового поколения и развивает цифровые продукты.

Мобильным приложением банка регулярно пользуется большая часть клиентов Альфа-Банка. Для того чтобы повысить комфорт пользователей, предоставить новые возможности взаимодействия с приложением, сократить время ожидания ответа и уменьшить нагрузку на поддержку, компания решила разработать голосовой интерфейс. Альфа-Банк не хотел создавать обычного робота, который оперирует набором шаблонных фраз, произнесённых стандартным синтезированным голосом. Команда банка решила, что голосовой помощник Альф должен обладать собственным уникальным голосом, харизмой, тонким чувством юмора, максимально естественно поддерживать разговор, отвечать на вопросы и помогать с финансовыми операциями.

Технические специалисты Альфа-Банка искали продукт, подходящий для создания голосового помощника с собственным, узнаваемым и аристократичным голосом. На тот момент речевых технологий нужного уровня не было на рынке, и Альфа-Банк обратился к команде Yandex Cloud, которая активно работала над развитием технологии Yandex SpeechKit. На этапе переговоров стало понятно, что для поставленной Альфа-Банком задачи потребуется уникальная и масштабная разработка.

Чтобы реализовать такой многокомпонентный проект, нужно было найти команду, которая обладает достаточным опытом в области разговорного искусственного интеллекта. Она должна была разработать диалоговую логику, обрабатывать данные, получаемые от пользователя, а также интегрировать Альфа в мобильное приложение Альфа-Банка. Yandex Cloud предложил обратиться к своим партнёрам — компании Just AI. У них уже был опыт работы с Yandex SpeechKit и разработки в области искусственного интеллекта, которые оптимально решают поставленные клиентом задачи.

«Брендированный» голос со своим характером

Для создания Альфа Yandex Cloud начал разработку технологии, которая позволяет создавать уникальные голоса для модели синтеза речи и хорошо подошла бы для создания персонализированного голосового ассистента.

Созданное решение было названо SpeechKit Brand Voice Full и после запуска Альфа было представлено Yandex Cloud как отдельный продукт, доступный для остальных клиентов. SpeechKit Brand Voice решает самый широкий круг задач и может быть использован в нешаблонных сценариях: создаваемая ML-модель может озвучивать произвольный контент, при этом результат звучит естественно, как будто текст озвучил человек.

Первый этап создания голосового помощника — запись диктора. Для Альфа выбрали голос актёра Всеволода Кузнецова (он озвучивает в русском дубляже Бреда Питта, Тома Круза и других артистов). Чтобы обучить ML-модель голосового помощника, понадобилось около 50 часов записи речи актёра. Текст, который ему нужно было надиктовать, был специально разработан специалистами Yandex Cloud. Как рассказал сам Всеволод Кузнецов, запись в студии продолжалась много часов каждый день. Он зачитывал огромные массивы текста: отрывки из художественной и профессиональной литературы, новости, произвольные тексты без начала и конца. Причём перед актёром стояла задача не только записать текст качественно с технической точки зрения, но и передать выбранный образ, его тональность и эмоции. Получившиеся записи содержат, с одной стороны, профессиональную и разговорную лексику, а с другой — отдельные фонемы и интонации, необходимые для эмоциональной окраски речи помощника.

Второй этап — обучение голосовой модели. Использованная в решении технология Yandex SpeechKit Brand Voice построена на одной из самых современных архитектур глубоких нейронных сетей — трансформерной. Для обучения ML-модели входные данные разбиваются на последовательности, но особенность трансформера в том, что он позволяет обрабатывать весь массив данных сразу, параллельно. При наличии мощного «железа» использование этой модели существенно сокращает время обучения и делает возможным создание таких сложных моделей, обучение которых другим способом заняло бы годы. В случае с Альфом для обработки массива аудиоданных и создания цифровой копии голоса в течение полугода использовались высокопроизводительные мощности Yandex Cloud: виртуальные машины с графическим ускорителем GPU NVIDIA® Tesla® V100.

Третий этап — обучение помощника диалогу. Для того чтобы Альф понимал голосовые команды, используется технология распознавания речи speech-to-text Yandex SpeechKit. Речь клиента передаётся короткими аудиофрагментами в облако, где каждый такой фрагмент транскрибируется в несколько вариантов текста, разбитого на отдельные фразы. Распознанные тексты передаются сервису Conversational Platform от Just AI. Это платформа для разработки голосовых решений, которая включает несколько продуктов:

  • NLU-сервис (Natural Language Understanding) CAILA, который обрабатывает поток данных, получаемых от Yandex SpeechKit. Он работает на базе ML-технологий, rule-based подхода, семантического и морфологического анализа. Также в NLU-сервис был загружен датасет chit-chat — примеры вопросов и ответов для поддержания свободной беседы («болталка»), чтобы разговор с Альфом был ещё более естественным;
  • редактор сценариев JAICP;
  • SDK для in-app ассистентов Aimybox, необходимый для объединения всех технологических блоков (Yandex SpeechKit, CAILA, JAICP) и интеграции их на мобильной платформе.

После запуска голосового ассистента Альфа-Банк продолжал работу над его усовершенствованием и решил «научить» Альфа разговаривать шёпотом. На эту идею команду подтолкнули отзывы некоторых пользователей, которым было не очень комфортно, когда помощник отвечал в вечернее время, например, когда люди укладывают детей спать. Для Yandex Cloud создание новой способности Альфа на базе существующего голоса не стало сложной задачей. Потребовалось сделать записи речи Всеволода Кузнецова, который разговаривал шёпотом, но в значительно меньшем объёме — 5 часов, потому что большая часть работы по обучению ML-модели была проделана на первом этапе. Итоговый голос, шёпот, может также использоваться для озвучивания любого текста. Если в будущем Альфа-Банк захочет добавить любой другой вариант речи — смеющийся, меланхоличный или иной голос, — объём дикторской речи, которую нужно будет дозаписать, также будет небольшим.

Одна голосовая модель для разных амплуа Альфа

Помощник с уникальным голосом пользуется популярностью у клиентов банка. Альф хорошо ориентируется в финансовых продуктах пользователя и быстро отвечает на вопросы о балансе на счетах, задолженности по кредитной карте, сумме ближайшего платежа по кредиту или состоянию дел по ипотеке. Он подскажет актуальный курс валют, предложит предодобренный кредит и т. д. С помощью Альфа клиент может перевести деньги между своими счетами, пополнить телефон, быстро оплатить коммуналку по шаблону.

Продолжается обучение ML-модели и расширение функциональности. Благодаря Yandex SpeechKit Brand Voice Full модель может синтезировать произвольные фразы без загрузки дополнительных записей голоса диктора. Это позволяет разрабатывать любые сценарии взаимодействия с пользователями и передавать характер, который изначально был заложен создателями Альфа.

Альфа-Банк также получает эксклюзивный доступ к модели и может использовать Альфа для разных режимов и амплуа.

Мнение

Облачные сервисы часто считают синонимом «коробки», то есть исключительно негибким продуктом As Is, без возможностей доработок под конкретные потребности клиента. А продуктовые задачи Альфа предполагают создание уникального синтеза речи, формирующего образ виртуального персонажа помощника – и это очень серьёзный технологический вызов, несоизмеримый с «коробочным» подходом. Мы вместе с Yandex Cloud разрушаем миф о негибкости облачных сервисов.
Владимир Китляр,
Digital CPO Альфа-Банка

Решим вашу IT-задачу

Мы оперативно расскажем вам о возможностях Yandex Cloud для вашего бизнеса или подберем партнёра, который полностью реализует ваш IT-проект.
Войдите, чтобы сохранить пост