Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
    • О технологии
    • Список голосов
      • Обзор
      • Данные для Brand Voice Self Service
      • Данные для SpeechKit Brand Voice Call Center
      • Данные для SpeechKit Brand Voice Lite
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации

В этой статье:

  • Какие данные нужны для обучения
  • Пример подготовленных данных
  • Подготовьте данные
  • Тексты для обучения
  • Запишите аудиофайлы
  • Общие рекомендации для записи аудио
  • Требования к аудиозаписям
  • Загрузите данные
  1. Синтез речи
  2. SpeechKit Brand Voice
  3. Данные для SpeechKit Brand Voice Lite

Подготовка и загрузка данных для SpeechKit Brand Voice Lite

Статья создана
Yandex Cloud
Обновлена 28 мая 2025 г.
  • Какие данные нужны для обучения
    • Пример подготовленных данных
  • Подготовьте данные
    • Тексты для обучения
  • Запишите аудиофайлы
    • Общие рекомендации для записи аудио
    • Требования к аудиозаписям
  • Загрузите данные

SpeechKit Brand Voice Lite позволяет создать свой уникальный голос, загрузив минимум размеченных аудиозаписей. В результате вы получите URI дообученной модели, к которой сможете обращаться из своих приложений через API.

Какие данные нужны для обученияКакие данные нужны для обучения

Чтобы создать свой голос SpeechKit Brand Voice Lite, необходимо подготовить и загрузить данные для обучения — записи аудио и соответствующие им тексты. Объем данных, необходимых для обучения модели, зависит от целей использования создаваемого голоса и особенностей дикции диктора. Так, голос для озвучки художественной литературы потребует больше данных, чем голос для голосового робота.

Минимальный объем необходимых данных — 20 минут, рекомендуемый — 40 минут, хороший — час и более. Для обучения модели нескольким амплуа понадобится создать датасет для каждого, указав его название в параметрах.

Данные для обучения загружаются одним ZIP-архивом, содержащим:

  1. Аудиозаписи в формате WAV.
  2. Таблицу в формате TSV в кодировке UTF-8, содержащей текстовые расшифровки аудиозаписей из архива. Таблица должна состоять из двух колонок без заголовков:
    • имя файла с аудиозаписью, на которой диктор произносит текст;
    • строка, содержащая дословную расшифровку аудиозаписи.

Важно

В каждой аудиозаписи должна быть полностью произнесенная фраза из одного или нескольких предложений длительностью не более 15 секунд. Текстовая расшифровка в таблице должна полностью совпадать с текстом на аудиозаписи.

В каждой аудиозаписи в начале и в конце должны присутствовать интервалы тишины, обрезанные звуки и слова недопустимы. Нельзя взять аудиозапись подкаста и нарезать ее на отрезки по 15 секунд: в этом случае границы аудиозаписей будут попадать на середину слова или фразы и не будут соответствовать логическим фразам. Обучить качественную модель на таких данных не получится.

Пример правильно подготовленной аудиозаписи: в начале и в конце аудио есть несколько миллисекунд тишины, фраза произнесена полностью.

good-audio

Пример плохой аудиозаписи: в начале и в конце аудио нет интервалов тишины, начало и конец фразы обрезаны.

bad-audio

Такие аудиозаписи будут иметь искажения и не подойдут для обучения модели.

Пример подготовленных данныхПример подготовленных данных

Перед загрузкой данных для создания голоса запакуйте все аудиофайлы (1.wav, 2.wav, 3.wav) и таблица в формате TSV, соотносящая аудиофайлы и их расшифровки, в ZIP-архив.

Заголовок таблицы приведен для наглядности, в файле для загрузки он должен отсутствовать.

recordings text
1.wav Книги собирают жемчужины человеческой мысли и передают их потомству.
2.wav Мы предлагаем вам замечательную книгу!
3.wav Книга рекомендована школьникам от пяти лет.

Подготовьте данныеПодготовьте данные

Тексты для обученияТексты для обучения

Как минимум 30% обучающих данных должны содержать вопросы, чтобы обученный голос мог синтезировать вопросительную интонацию в тексте.

Вы можете использовать для обучения тексты, подготовленные командой SpeechKit, или создать их самостоятельно. Если вы используете пример от команды SpeechKit, в начало каждой строки добавьте название файла с соответствующей аудиозаписью и удалите строку с заголовком таблицы.

Требования ко всем текстамТребования ко всем текстам

Совет

Результат обучения голосовой модели SpeechKit Brand Voice Lite напрямую зависит от обучающих данных. Выполняйте приведенные требования и рекомендации к текстам, чтобы получить качественный голос SpeechKit Brand Voice Lite.

  • Текст в расшифровке должен полностью совпадать с озвученным в аудио.

  • Рекомендуемая длина фразы — не более 250 символов.

  • Все фразы должны быть полными, без обрывов на полуслове.

    "..ть Время! Разве такое ему может понравиться! Если б ты с ним не ссорилась, могла бы просить у него все, что хо."

  • Тексты не должны содержать грамматических ошибок.

  • При записи речи на русском языке обязательно указывайте букву «ё» в расшифровке. Использование «е» вместо «ё» в любых текстах для синтеза недопустимо.

  • В словах-омографах, где ударение может быть поставлено неоднозначно, явно указывайте ударную гласную знаком +.

    «Он вставил ключ в зам+ок.», ударение падает на второй слог.
    «Михайловский з+амок — главный корпус Пушкинского музея.», ударение падает на первый слог.

  • Строки текста для синтеза не должны содержать цифр и сокращений вида «ул. Строителей, д.15 к.3» или «13 руб 10 коп». Цифры и числа записывайте прописью, сокращения — полностью раскрывайте.

    Улица Строителей, дом пятнадцать, корпус три.
    Тринадцать рублей десять копеек.

  • В вопросительных предложениях укажите, на какое слово приходится **логическое ударение** — вопросительная интонация предложения.

    Предложение «Кот пошел в лес?» можно прочитать тремя разными способами:

    • **Кот** пошел в лес? — со смыслом «Кто пошел в лес? Это был действительно кот?»
    • Кот **пошел** в лес? — со смыслом «Кот пошел или побежал?» или «Было ли совершено само действие? Кот ушел или нет?»
    • Кот пошел **в лес**? — со смыслом «Куда или за чем пошел кот? В лес, в школу, за колбасой?»

    Во всех предложениях логическое ударение выделяет основной смысл предложения.

Запишите аудиофайлыЗапишите аудиофайлы

Общие рекомендации для записи аудиоОбщие рекомендации для записи аудио

Шумы и эхо при записи напрямую влияют на качество обучения и работы модели для синтеза речи. Поэтому при записи аудио для обучения и дообучения модели или шаблонов для синтеза по шаблонам старайтесь максимально уменьшить отражение звука в помещении. Идеальным местом для записи будет комната, оборудованная акустическими панелями. Если запись происходит в бытовых условиях, снизить эхо помогут мягкие поверхности и мебель: ковер, мягкий диван и т.д.

Используйте одинаково настроенное и расположенное оборудование для записи всех аудио.

Не совмещайте роли звукорежиссера записи, диктора и войскоуча в одном лице. Войскоуч — специалист, который следит, чтобы диктор строго следовал тексту и не менял манеры повествования.

При записи любых аудио, предназначенных для модели синтеза речи, придерживайтесь правила «одна фраза — один файл».

Неточности, микроповторы, оговорки и замены слов недопустимы. Любые дефекты дикции в записях, на основе которых работает модель синтеза, значительно снижают качество синтезируемой речи.

Каждая запись шаблона или фразы для обучения модели должна сопровождаться абсолютно точной текстовой расшифровкой. Шаблоны, обучающие фразы и их расшифровки не должны содержать грамматических ошибок.

Требования к аудиозаписямТребования к аудиозаписям

Требование Значение
Частота дискретизации 48 кГц
Глубина аудио (audio bit depth) 16 бит PCM
Количество каналов 1 (моно)
Формат WAV
Продолжительность ≤15 секунд
Тишина в начале и в конце 100–200 миллисекунд

Сохраните все аудиозаписи в ZIP-архив для загрузки вместе с таблицой с текстами в формате TSV.

Загрузите данныеЗагрузите данные

Текстовые данные и аудиофайлы загружаются архивом через интерфейс в консоли управления.

Была ли статья полезна?

Предыдущая
Данные для SpeechKit Brand Voice Call Center
Следующая
О технологии
Проект Яндекса
© 2025 ООО «Яндекс.Облако»