Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
    • Релизы распознавания
    • Релизы синтеза
    • Архив релизов

В этой статье:

  • Релиз 30.04.25
  • Релиз 29.04.25
  • Релиз 28.03.25
  • Релиз 24.01.25
  • Релиз 18.11.24
  • Релиз 10.10.24
  • Релиз 20.09.24
  • Релиз 09.09.24
  • Релиз 11.07.24
  • Релиз 15.04.24
  • Релиз 09.04.24
  • Релиз 03.04.24
  • Релиз 20.02.24
  • Релиз 06.02.24
  • Релиз 10.01.24
  • Релиз 05.12.23
  • Релиз 23.10.23
  • Релиз 27.07.23
  • Релиз 19.06.23
  • Релиз 08.06.23
  • Релиз 18.04.23
  • Релиз 21.03.23
  • Релиз 07.03.23
  • Релиз 07.10.22
  • Релиз 09.06.22
  • Релиз 19.05.22
  • Релиз 30.03.22
  • Релиз 17.03.22
  • Релиз 24.01.22
  • Релиз 16.12.21
  • Релиз 18.11.21
  1. История изменений
  2. Релизы синтеза

История изменений в сервисе синтеза Yandex SpeechKit

Статья создана
Yandex Cloud
Обновлена 29 апреля 2025 г.
  • Релиз 30.04.25
  • Релиз 29.04.25
  • Релиз 28.03.25
  • Релиз 24.01.25
  • Релиз 18.11.24
  • Релиз 10.10.24
  • Релиз 20.09.24
  • Релиз 09.09.24
  • Релиз 11.07.24
  • Релиз 15.04.24
  • Релиз 09.04.24
  • Релиз 03.04.24
  • Релиз 20.02.24
  • Релиз 06.02.24
  • Релиз 10.01.24
  • Релиз 05.12.23
  • Релиз 23.10.23
  • Релиз 27.07.23
  • Релиз 19.06.23
  • Релиз 08.06.23
  • Релиз 18.04.23
  • Релиз 21.03.23
  • Релиз 07.03.23
  • Релиз 07.10.22
  • Релиз 09.06.22
  • Релиз 19.05.22
  • Релиз 30.03.22
  • Релиз 17.03.22
  • Релиз 24.01.22
  • Релиз 16.12.21
  • Релиз 18.11.21

Сервис SpeechKit предоставляет обновления в соответствии с системой моделей и версий.

Подробнее о голосовых моделях читайте в разделе О технологии.

Релиз 30.04.25

Голоса lola и lola_ru переименованы в zamira и zamira_ru.

Релиз 29.04.25

Добавлены новые амплуа для голосов zamira, zamira_ru и yulduz_ru.

Релиз 28.03.25

Появились русскоязычные аналоги голосов zamira и yulduz — zamira_ru и yulduz_ru с несколькими амплуа. Для голосов saule, saule_ru, zhanar, zhanar_ru, yulduz добавлены амплуа. Полный список доступных голосов см. в разделе Список голосов.

Релиз 24.01.25

Добавлены новые голоса. Для синтеза на казахском языке доступен женский голос zhanar. Для синтеза на узбекском языке добавлены женские голоса zamira и yulduz.

Релиз 18.11.24

Исправлено произношение слова «тенге» при синтезе на русском языке. Теперь модель произносит его c мягкой согласной «т»: [т'энг'э].`

Релиз 10.10.24

  1. Добавлены женский голос для синтеза на казахском языке — saule, и его аналог для синтеза на русском — saule_ru.
  2. Русскоязычный голос madirus переименован в madi_ru. Старое название голоса по-прежнему работает, однако просим по возможности исправить его в своих проектах.

Релиз 20.09.24

  • Улучшено качество голосов filipp, ermil, zahar.
  • Улучшена работа нормализатора для казахского и узбекского языков.

Релиз 09.09.24

Для всех общедоступных голосов на русском языке улучшено качество вопросительных интонаций и общее качество синтеза.

Релиз 11.07.24

Для синтеза на русском языке:

  • Уменьшено количество постороннего шума.
  • Исправлена постановка ударений в некоторых словах.

Релиз 15.04.24

Исправлена ошибка, из-за которой синтезировалась слишком быстрая речь.

Релиз 09.04.24

В API v1 также голосом по умолчанию стал голос marina.

Релиз 03.04.24

В API v3 изменился голос по умолчанию. Теперь для всех проектов синтеза, в которых голос не задан явно, используется голос marina.

Релиз 20.02.24

Улучшено качество голосов masha, marina, anton, alexander, dasha, julia.

Релиз 06.02.24

Появилась поддержка REST API v3.

Релиз 10.01.24

  1. Поддержана нормализация английских количественных числительных. Нормализация работает только для целых положительных чисел. Порядковые числительные не поддерживаются.
  2. В API добавлена подсказка DurationHint, с помощью которой можно задавать минимальное или максимальное время, затраченное на синтез переданного текста.
  3. В сообщение UtteranceSynthesisResponse добавлены поля text_chunk, start_ms и length_ms. Они содержат информацию о тексте и времени начала и окончания аудио, попавшего в пришедший фрагмент.

Релиз 05.12.23

Улучшено качество синтеза речи на всех языках, кроме русского.

Релиз 23.10.23

  1. Появился новый голос masha в трех амплуа.
  2. Добавлены дополнительные амплуа русскоязычных голосов.
  3. Улучшена работа нормализатора для казахского языка.
  4. Улучшено произношение "смс" на казахском и "sms" на узбекском языках.

Релиз 27.07.23

  1. В API v3 появился параметр pitch_shift. С его помощью можно увеличить интонационный контур всего синтезированного аудио на фиксированное значение в Гц. Поднятие контура помогает голосу звучать "живее".
  2. Для синтеза на русском языке доступны семь новых голосов: dasha, julia, lera, marina, alexander, kirill, anton.

Релиз 19.06.23

Улучшено качество произношения марок автомобилей на узбекском языке.

Релиз 08.06.23

  1. Для узбекского языка стала доступна нормализация количественных числительных, записанных арабскими цифрами.
  2. Улучшено качество синтеза на узбекском языке. Больше всего изменения влияют на синтез коротких текстов.

Релиз 18.04.23

  1. Синтез узбекского языка начал поддерживать фонемную форму записи текста (список поддерживаемых фонем). Также модель узбекского языка научилась автоматически заменять апострофы. Однако для качественного синтеза используйте только типографский прямой ʼ и типографский перевернутый ʻ апострофы.
  2. Для синтеза по шаблонам изменена нормализация громкости по умолчанию. Теперь, если явно не указан тип нормализации, громкость переменных нормализуется по исходному шаблону.

Релиз 21.03.23

  1. Для казахского языка добавлен нормализатор. Теперь модель может произносить числа, записанные арабскими цифрами.

  2. Для узбекского языка появилась поддержка двух видов апострофов: типографский прямой ʼ и типографский перевернутый ʻ. Теперь вы можете синтезировать фразы на узбекском языке, записанные на латинице с использованием этих апострофов.

    Yaʼni mana shu beret kiygan notanish odamni.
    Soʻng yana pastga qarab ketiladi.

    Важно

    Используйте только эти два варианта написания апострофов. В модели нет автозамены, и качество синтеза сильно зависит от качества входных данных.

Релиз 07.03.23

  1. Значительно переработана технология SpeechKit Brand Voice для создания собственных голосов.
  2. В тестовом режиме для всех языков добавлена поддержка пауз при использовании TTS-разметки. Обо всех возникающих ошибках, связанных с расстановкой пауз, сообщайте команде через обращение в техническую поддержку. Ваши отзывы помогут улучшить работу в следующих релизах.

Релиз 07.10.22

В ветке general доступны для тестирования новые голоса и языки:

  • женский голос lea — немецкий язык;
  • мужской голос madi — казахский язык;
  • мужской голос madirus — русский язык;
  • женский голос nigora — узбекский язык.

Также в ветке general стали доступны голоса amira и john.

Релиз 09.06.22

  1. Во всех голосах улучшены интонации и акцентирование.

  2. Появилось больше возможностей для расстановки пауз:

    • Исправлена ошибка, из-за которой паузы короче 1200 миллисекунд не учитывались в SSML-разметке. Однако обращаем внимание, что паузы короче 700 миллисекунд считаются подсказкой для синтеза и не позволяют в точности контролировать длительность паузы между словами.
    • Паузы SSML со значениями x-weak, weak, medium имеют большее влияние на синтезируемый текст.
    • Появилась возможность расставлять паузы при использовании TTS-разметки. С помощью тега <[small]> можно задавать длительность паузы в синтезируемом тексте, например: Привет, <[small]>. Длительность паузы может принимать значения: tiny, small, medium, large, huge.
  3. Закончилась поддержка устаревшей версии голоса filipp:deprecated. Теперь filipp:deprecated и filipp звучат одинаково.

Релиз 19.05.22

  1. С 31 мая 2022 года прекращается поддержка устаревших голосов.

  2. В ветке rc для тестирования доступны новые голоса и языки:

    • женский голос amira — казахский язык;
    • мужской голос john — английский язык.

    Голоса доступны только в API v3 с использованием заголовка x-service-branch:rc.

Релиз 30.03.22

  1. Стандартные голоса теперь доступны только по тегу :deprecated и будут поддерживаться до 31 мая 2022 года.

  2. По обращению в техническую поддержку (заявка CLOUDSUPPORT-138703) исправлены интонации и проблемы с редкими артефактами на текстах с большим количеством различных цифр.

Релиз 17.03.22

  1. Появилась возможность синтезировать аудиофайлы в формате MP3. Эта возможность доступна в API v3 и при работе с премиум-голосами через API v1.

  2. Для новых голосов появилась поддержка амплуа — расширенной версии эмоциональной окраски (см. параметр emotion в API v1 и role в API v3). Разные варианты амплуа доступны для разных голосов. Все значения см. в разделе Список голосов. При указании некорректного амплуа сервис вернет ошибку.

  3. Исправлена регрессия в качестве расстановки акцентов для голосов alena и filipp, улучшено качество расстановки акцентов и субъективное восприятие синтеза всех голосов.

  4. Начинается большое обновление стандартных голосов: oksana, ermil, jane, omazh, zahar будут заменены на соответствующие им oksana:rc, ermil:rc, jane:rc, omazh:rc, zahar:rc. Обновление не затронет стоимость использования обычных голосов. Существующие голоса oksana, ermil, jane, omazh и zahar доступны в ветке :deprecated.

Релиз 24.01.22

  1. Обновлена модель генерации. В новой версии исправлено произношение цифр и аббревиатур сферы финансов.

  2. Теперь акценты можно расставлять с помощью выделения: Вы **рады** меня видеть?

  3. Обработка SSML-пауз и SIL-тегов приведена к единому виду для поддержки интеграции с Яндекс Диалогами. Наличие в тексте пауз в нотации SSML или SIL рассматривается как индикатор конца фразы (utterance) — в генерируемом тексте на месте тега появляется интонация конца фразы. SSML-паузы и SIL-теги поддерживаются при генерации коротких и длинных текстов.

Релиз 16.12.21

  1. Увеличены лимиты для запросов в API v3: длина синтезируемой фразы — 250 символов или 24 секунды аудио. Важно: стоимость запроса пока остается без изменений, но может быть увеличена.

  2. Опция unsafe_mode, доступная в API v3, позволяет автоматически разделить длинный текст, отправленный для синтеза, на отдельные фразы.

  3. Тишина после синтеза последнего слова значительно сократилась. Теперь аудио заканчивается практически сразу после синтеза последнего слова.

Релиз 18.11.21

  1. Внесены исправления, стабилизирующие синтез premium-голоса alena. Теперь она звучит однородно.
  2. Исправлены ошибки в произношении alena.
  3. Улучшена расстановка пауз в REST API.
  4. В тестовом режиме добавлены новые premium-голоса:
    • oksana:rc
    • ermil:rc
    • jane:rc
    • omazh:rc
    • zahar:rc

Мы будем рады отзывам о работе новых premium-голосов!

Была ли статья полезна?

Предыдущая
Релизы распознавания
Следующая
Архив релизов
Проект Яндекса
© 2025 ООО «Яндекс.Облако»