Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • AI Studio
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»
Yandex SpeechKit
  • Обзор технологий SpeechKit
    • О технологии
    • Список голосов
      • Обзор
      • Данные для SpeechKit Brand Voice Lite
      • Данные для Brand Voice Self Service
      • Данные для SpeechKit Brand Voice Call Center
      • Рекомендации для записи амплуа
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Аудитные логи Audit Trails

В этой статье:

  • Какие данные нужны для обучения
  • Требования к текстам
  • Рекомендации для записи аудио
  • Требования к аудиозаписям
  • Как загрузить готовый датасет
  • Пример подготовленных данных
  1. Синтез речи
  2. SpeechKit Brand Voice
  3. Данные для SpeechKit Brand Voice Lite

Данные для SpeechKit Brand Voice Lite

Статья создана
Yandex Cloud
Обновлена 23 июня 2025 г.
  • Какие данные нужны для обучения
  • Требования к текстам
  • Рекомендации для записи аудио
    • Требования к аудиозаписям
  • Как загрузить готовый датасет
    • Пример подготовленных данных

SpeechKit Brand Voice Lite позволяет создать свой уникальный голос на основе минимума размеченных аудиозаписей. В результате вы получите идентификатор модели, к которой сможете обращаться из своих приложений через API.

Важно

Функциональность доступна только в регионе Россия.

Какие данные нужны для обученияКакие данные нужны для обучения

Чтобы создать свой голос SpeechKit Brand Voice Lite, необходимо подготовить датасет для обучения — аудиозаписи и соответствующие им тексты. Каждая аудиозапись должна точно соответствовать приведенному тексту.

Объем данных для обучения модели зависит от особенностей дикции диктора и назначения создаваемого голоса. Так, голос для озвучки художественной литературы потребует больше данных, чем голос для голосового робота. Минимальный объем чистого аудио без учета тишины в начале и конце каждого файла — 20 минут, рекомендуемый — 40 минут, хороший — час и более. Для создания голоса с несколькими амплуа понадобится отдельно записать датасет для каждого.

Совет

Результат обучения голосовой модели SpeechKit Brand Voice Lite напрямую зависит от обучающих данных. Чтобы получить качественный голос SpeechKit Brand Voice Lite, выполняйте все приведенные рекомендации для текстов и аудиозаписей.

Как минимум 30% обучающих данных должны содержать вопросы, чтобы обученный голос мог синтезировать вопросительную интонацию в тексте. Вы можете использовать уже готовый шаблон от команды SpeechKit или самостоятельно подготовить тексты для озвучивания. Рекомендации по созданию и оформлению текстов для обучения см. в разделе Требования к текстам.

Вы можете загрузить датасет со всеми аудиозаписями и расшифровками в виде одного архива или записать аудио для каждой фразы в консоли управления через браузер. В любом случае обязательно следуйте рекомендациям для записи аудио и прослушайте все аудио, чтобы убедиться в качестве исходных данных для обучения голосовой модели. После запуска обучения исправить датасет не получится.

Требования к текстамТребования к текстам

Команда SpeechKit предоставляет уже готовый набор текстов, которые вам необходимо только озвучить. Он содержит повествовательные, вопросительные и восклицательные фразы и подойдет в большинстве случаев для создания русскоязычных голосов. Также вы можете самостоятельно подготовить тексты для записи аудио, однако убедитесь, что они соответствуют следующим требованиям:

  • Тексты не должны содержать грамматических ошибок.
  • Рекомендуемая длина фразы — не более 250 символов.
  • Все фразы должны быть полными, без обрывов на полуслове.

    "..ть Время! Разве такое ему может понравиться! Если б ты с ним не ссорилась, могла бы просить у него все, что хо."

  • При записи речи на русском языке обязательно указывайте букву «ё» в расшифровке. Использование «е» вместо «ё» в любых текстах для синтеза недопустимо.

  • В словах-омографах, где ударение может быть поставлено неоднозначно, явно указывайте ударную гласную знаком +.

    «Он вставил ключ в зам+ок.», ударение падает на второй слог.
    «Михайловский з+амок — главный корпус Пушкинского музея.», ударение падает на первый слог.

  • Строки текста для синтеза не должны содержать цифр и сокращений вида «ул. Строителей, д.15 к.3» или «13 руб 10 коп». Цифры и числа записывайте прописью, сокращения — полностью раскрывайте.

    Улица Строителей, дом пятнадцать, корпус три.
    Тринадцать рублей десять копеек.

  • В вопросительных предложениях укажите, на какое слово приходится **логическое ударение** — вопросительная интонация предложения.

    Предложение «Кот пошел в лес?» можно прочитать тремя разными способами:

    • **Кот** пошел в лес? — со смыслом «Кто пошел в лес? Это был действительно кот?»
    • Кот **пошел** в лес? — со смыслом «Кот пошел или побежал?» или «Было ли совершено само действие? Кот ушел или нет?»
    • Кот пошел **в лес**? — со смыслом «Куда или за чем пошел кот? В лес, в школу, за колбасой?»

    Во всех предложениях логическое ударение выделяет основной смысл предложения.

Рекомендации для записи аудиоРекомендации для записи аудио

Записывайте аудио в тихой комнате без посторонних шумов. Звук вентилятора, кондиционера или холодильника, шум улицы, фоновая музыка и эхо будут слышны на записи и сильно отразятся на качестве создаваемого голоса. Идеальным местом будет комната, оборудованная акустическими панелями. Если вы записываете свой голос в бытовых условиях, снизить эхо помогут мягкие поверхности и мебель: ковер, мягкий диван и т. д.

Для записи аудио не обязательно использовать профессиональное оборудование. Если у вас нет студийного микрофона, используйте встроенный микрофон ноутбука, смартфон или гарнитуру. Режим шумоподавления в большинстве гарнитур обрезает начало и конец фразы, поэтому рекомендуем отключить его. Не меняйте настройки аппаратуры до окончания записи. Расстояние до микрофона должно быть одинаковым для всех аудио.

На время записи отключите используемое устройство от электросети, если это возможно: в процессе зарядки аккумулятора могут возникать аудиопомехи. Также отключите звуковые уведомления и переведите смартфон в авиарежим, чтобы посторонние звуки не попали на запись.

Записывайте аудио с максимально возможным качеством без сжатия. Если для записи вы используете специальные программы, убедитесь, что сжатие файлов и дополнительные фильтры отключены.

Перед записью убедитесь, что вы не голодны и не испытываете жажду, нет лишнего слюноотделения или сухости во рту. Уберите шуршащие предметы и постарайтесь лишний раз не двигать руками и ногами во время записи. Расслабьтесь, выпрямите спину и шею, дышите глубоко и свободно. Звуки вашего дыхания не должны перекрывать аудио на записи.

Читайте текст так, чтобы он звучал максимально естественно и органично. Эмоции должны соответствовать произносимому тексту. Сохраняйте интонацию при записи всех примеров для одного амплуа. Подробные рекомендации о записи амплуа см. в разделе Рекомендации для записи амплуа.

Если вы ошиблись в произношении, перезапишите всю фразу, а не пытайтесь исправиться в том же аудио. Неточности, микроповторы, оговорки и замены слов недопустимы. Любые дефекты дикции в записях, на основе которых работает модель синтеза, значительно снижают качество синтезируемой речи.

После записи фразы прослушайте получившееся аудио. Убедитесь, что все слова произнесены четко и внятно, в начале и в конце аудио есть небольшие отрезки тишины, на фоне нет посторонних звуков.

Требования к аудиозаписямТребования к аудиозаписям

Если вы записываете аудио с помощью специальных программ, а не в консоли управления через браузер, убедитесь, что они соответствуют следующим требованиям:

Требование Значение
Частота дискретизации 48 кГц
Глубина аудио (audio bit depth) 16 бит PCM
Количество каналов 1 (моно)
Формат WAV
Продолжительность ≤ 15 секунд
Тишина в начале и в конце 100–200 миллисекунд

Как загрузить готовый датасетКак загрузить готовый датасет

  1. В консоли управления выберите каталог, в котором вы будете работать с сервисом.
  2. В списке сервисов выберите SpeechKit.
  3. Нажмите Создать голос.
  4. Нажмите Создать датасет и выберите Загрузить ZIP-архив.
  5. Перетащите ZIP-архив в область загрузки и нажмите Создать голос.

ZIP-архив с датасетом для дообучения должен содержать:

  • Аудиозаписи в формате WAV.
  • Таблицу в формате TSV в кодировке UTF-8, содержащей текстовые расшифровки аудиозаписей из архива. Таблица должна состоять из двух колонок без заголовков:
    • имя файла с аудиозаписью, на которой диктор произносит текст;
    • строка, содержащая дословную расшифровку аудиозаписи.

Если вы используете тексты от команды SpeechKit, в начало каждой строки добавьте название файла с соответствующей аудиозаписью и удалите строку с заголовком таблицы.

Пример подготовленных данныхПример подготовленных данных

Все тексты в расшифровках должны полностью совпадать с озвученными в аудио.

Заголовок таблицы приведен для наглядности, в файле для загрузки он должен отсутствовать.

recordings text
1.wav Книги собирают жемчужины человеческой мысли и передают их потомству.
2.wav Мы предлагаем вам замечательную книгу!
3.wav Книга рекомендована школьникам от пяти лет.

Важно

В каждой аудиозаписи должна быть полностью произнесенная фраза из одного или нескольких предложений длительностью не более 15 секунд. Текстовая расшифровка в таблице должна полностью совпадать с текстом на аудиозаписи.

В каждой аудиозаписи в начале и в конце должны присутствовать интервалы тишины, обрезанные звуки и слова недопустимы. Нельзя взять аудиозапись подкаста и нарезать ее на отрезки по 15 секунд: в этом случае границы аудиозаписей будут попадать на середину слова или фразы и не будут соответствовать логическим фразам. Обучить качественную модель на таких данных не получится.

Пример правильно подготовленной аудиозаписи: в начале и в конце аудио есть несколько миллисекунд тишины, фраза произнесена полностью.

good-audio

Пример плохой аудиозаписи: в начале и в конце аудио нет интервалов тишины, начало и конец фразы обрезаны.

bad-audio

Такие аудиозаписи будут иметь искажения и не подойдут для обучения модели.

Была ли статья полезна?

Предыдущая
Обзор
Следующая
Данные для Brand Voice Self Service
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»