История изменений в сервисе синтеза Yandex SpeechKit

Статья создана

Обновлена 28 января 2026 г.

Релиз 21.01.2026
Релиз 28.05.25
Релиз 30.04.25
Релиз 29.04.25
Релиз 28.03.25
Релиз 24.01.25
Релиз 18.11.24
Релиз 10.10.24
Релиз 20.09.24
Релиз 09.09.24
Релиз 11.07.24
Релиз 15.04.24
Релиз 09.04.24
Релиз 03.04.24
Релиз 20.02.24
Релиз 06.02.24
Релиз 10.01.24
Релиз 05.12.23
Релиз 23.10.23
Релиз 27.07.23
Релиз 19.06.23
Релиз 08.06.23
Релиз 18.04.23
Релиз 21.03.23
Релиз 07.03.23
Релиз 07.10.22
Релиз 09.06.22
Релиз 19.05.22
Релиз 30.03.22
Релиз 17.03.22
Релиз 24.01.22
Релиз 16.12.21
Релиз 18.11.21

Сервис SpeechKit предоставляет обновления в соответствии с системой моделей и версий.

Подробнее о голосовых моделях читайте в разделе О технологии.

Релиз 21.01.2026

Синтез SpeechKit поддержан в Yandex AI Studio SDK. Подробнее см. в документации AI SDK и в репозитории проекта на GitHub.

Релиз 28.05.25

Появился новый способ создания уникального голоса — SpeechKit Brand Voice Lite. Подробнее см. в разделе Yandex SpeechKit Brand Voice.

Релиз 30.04.25

Голоса lola и lola_ru переименованы в zamira и zamira_ru.

Релиз 29.04.25

Добавлены новые амплуа для голосов zamira, zamira_ru и yulduz_ru.

Появились русскоязычные аналоги голосов zamira и yulduz — zamira_ru и yulduz_ru с несколькими амплуа. Для голосов saule, saule_ru, zhanar, zhanar_ru, yulduz добавлены амплуа. Полный список доступных голосов см. в разделе Список голосов.

Релиз 24.01.25

Добавлены новые голоса. Для синтеза на казахском языке доступен женский голос zhanar. Для синтеза на узбекском языке добавлены женские голоса zamira и yulduz.

Релиз 18.11.24

Исправлено произношение слова «тенге» при синтезе на русском языке. Теперь модель произносит его c мягкой согласной «т»: [т'энг'э].`

Релиз 10.10.24

Добавлены женский голос для синтеза на казахском языке — saule, и его аналог для синтеза на русском — saule_ru.
Русскоязычный голос madirus переименован в madi_ru. Старое название голоса по-прежнему работает, однако просим по возможности исправить его в своих проектах.

Релиз 20.09.24

Улучшено качество голосов filipp, ermil, zahar.
Улучшена работа нормализатора для казахского и узбекского языков.

Релиз 09.09.24

Для всех общедоступных голосов на русском языке улучшено качество вопросительных интонаций и общее качество синтеза.

Релиз 11.07.24

Для синтеза на русском языке:

Уменьшено количество постороннего шума.
Исправлена постановка ударений в некоторых словах.

Поддержана нормализация английских количественных числительных. Нормализация работает только для целых положительных чисел. Порядковые числительные не поддерживаются.
В API добавлена подсказка DurationHint, с помощью которой можно задавать минимальное или максимальное время, затраченное на синтез переданного текста.
В сообщение UtteranceSynthesisResponse добавлены поля text_chunk, start_ms и length_ms. Они содержат информацию о тексте и времени начала и окончания аудио, попавшего в пришедший фрагмент.

Релиз 05.12.23

Улучшено качество синтеза речи на всех языках, кроме русского.

Релиз 23.10.23

Появился новый голос masha в трех амплуа.
Добавлены дополнительные амплуа русскоязычных голосов.
Улучшена работа нормализатора для казахского языка.
Улучшено произношение "смс" на казахском и "sms" на узбекском языках.

Релиз 27.07.23

В API v3 появился параметр pitch_shift. С его помощью можно увеличить интонационный контур всего синтезированного аудио на фиксированное значение в Гц. Поднятие контура помогает голосу звучать "живее".
Для синтеза на русском языке доступны семь новых голосов: dasha, julia, lera, marina, alexander, kirill, anton.

Релиз 19.06.23

Улучшено качество произношения марок автомобилей на узбекском языке.

Релиз 08.06.23

Для узбекского языка стала доступна нормализация количественных числительных, записанных арабскими цифрами.
Улучшено качество синтеза на узбекском языке. Больше всего изменения влияют на синтез коротких текстов.

Релиз 18.04.23

Синтез узбекского языка начал поддерживать фонемную форму записи текста (список поддерживаемых фонем). Также модель узбекского языка научилась автоматически заменять апострофы. Однако для качественного синтеза используйте только типографский прямой ʼ и типографский перевернутый ʻ апострофы.
Для синтеза по шаблонам изменена нормализация громкости по умолчанию. Теперь, если явно не указан тип нормализации, громкость переменных нормализуется по исходному шаблону.

Релиз 21.03.23

Для казахского языка добавлен нормализатор. Теперь модель может произносить числа, записанные арабскими цифрами.
Для узбекского языка появилась поддержка двух видов апострофов: типографский прямой ʼ и типографский перевернутый ʻ. Теперь вы можете синтезировать фразы на узбекском языке, записанные на латинице с использованием этих апострофов.

Yaʼni mana shu beret kiygan notanish odamni.
Soʻng yana pastga qarab ketiladi.

Важно

Используйте только эти два варианта написания апострофов. В модели нет автозамены, и качество синтеза сильно зависит от качества входных данных.

Релиз 07.03.23

Значительно переработана технология SpeechKit Brand Voice для создания собственных голосов.
В тестовом режиме для всех языков добавлена поддержка пауз при использовании TTS-разметки. Обо всех возникающих ошибках, связанных с расстановкой пауз, сообщайте команде через обращение в техническую поддержку. Ваши отзывы помогут улучшить работу в следующих релизах.

Релиз 07.10.22

В ветке general доступны для тестирования новые голоса и языки:

женский голос lea — немецкий язык;
мужской голос madi — казахский язык;
мужской голос madirus — русский язык;
женский голос nigora — узбекский язык.

Также в ветке general стали доступны голоса amira и john.

Релиз 09.06.22

Во всех голосах улучшены интонации и акцентирование.
Появилось больше возможностей для расстановки пауз:
- Исправлена ошибка, из-за которой паузы короче 1200 миллисекунд не учитывались в SSML-разметке. Однако обращаем внимание, что паузы короче 700 миллисекунд считаются подсказкой для синтеза и не позволяют в точности контролировать длительность паузы между словами.
- Паузы SSML со значениями x-weak, weak, medium имеют большее влияние на синтезируемый текст.
- Появилась возможность расставлять паузы при использовании TTS-разметки. С помощью тега <[small]> можно задавать длительность паузы в синтезируемом тексте, например: Привет, <[small]>. Длительность паузы может принимать значения: tiny, small, medium, large, huge.
Закончилась поддержка устаревшей версии голоса filipp:deprecated. Теперь filipp:deprecated и filipp звучат одинаково.

Релиз 19.05.22

С 31 мая 2022 года прекращается поддержка устаревших голосов.
В ветке rc для тестирования доступны новые голоса и языки:
- женский голос amira — казахский язык;
- мужской голос john — английский язык.
Голоса доступны только в API v3 с использованием заголовка x-service-branch:rc.

Релиз 30.03.22

Стандартные голоса теперь доступны только по тегу :deprecated и будут поддерживаться до 31 мая 2022 года.
По обращению в техническую поддержку (заявка CLOUDSUPPORT-138703) исправлены интонации и проблемы с редкими артефактами на текстах с большим количеством различных цифр.

Релиз 17.03.22

Появилась возможность синтезировать аудиофайлы в формате MP3. Эта возможность доступна в API v3 и при работе с премиум-голосами через API v1.
Для новых голосов появилась поддержка амплуа — расширенной версии эмоциональной окраски (см. параметр emotion в API v1 и role в API v3). Разные варианты амплуа доступны для разных голосов. Все значения см. в разделе Список голосов. При указании некорректного амплуа сервис вернет ошибку.
Исправлена регрессия в качестве расстановки акцентов для голосов alena и filipp, улучшено качество расстановки акцентов и субъективное восприятие синтеза всех голосов.
Начинается большое обновление стандартных голосов: oksana, ermil, jane, omazh, zahar будут заменены на соответствующие им oksana:rc, ermil:rc, jane:rc, omazh:rc, zahar:rc. Обновление не затронет стоимость использования обычных голосов. Существующие голоса oksana, ermil, jane, omazh и zahar доступны в ветке :deprecated.

Релиз 24.01.22

Обновлена модель генерации. В новой версии исправлено произношение цифр и аббревиатур сферы финансов.
Теперь акценты можно расставлять с помощью выделения: Вы **рады** меня видеть?
Обработка SSML-пауз и SIL-тегов приведена к единому виду для поддержки интеграции с Яндекс Диалогами. Наличие в тексте пауз в нотации SSML или SIL рассматривается как индикатор конца фразы (utterance) — в генерируемом тексте на месте тега появляется интонация конца фразы. SSML-паузы и SIL-теги поддерживаются при генерации коротких и длинных текстов.

Релиз 16.12.21

Увеличены лимиты для запросов в API v3: длина синтезируемой фразы — 250 символов или 24 секунды аудио. Важно: стоимость запроса пока остается без изменений, но может быть увеличена.
Опция unsafe_mode, доступная в API v3, позволяет автоматически разделить длинный текст, отправленный для синтеза, на отдельные фразы.
Тишина после синтеза последнего слова значительно сократилась. Теперь аудио заканчивается практически сразу после синтеза последнего слова.

Релиз 18.11.21

Внесены исправления, стабилизирующие синтез premium-голоса alena. Теперь она звучит однородно.
Исправлены ошибки в произношении alena.
Улучшена расстановка пауз в REST API.
В тестовом режиме добавлены новые premium-голоса:
- oksana:rc
- ermil:rc
- jane:rc
- omazh:rc
- zahar:rc

Мы будем рады отзывам о работе новых premium-голосов!

История изменений в сервисе синтеза Yandex SpeechKit

Релиз 21.01.2026Релиз 21.01.2026

Релиз 28.05.25Релиз 28.05.25

Релиз 30.04.25Релиз 30.04.25

Релиз 29.04.25Релиз 29.04.25

Релиз 28.03.25Релиз 28.03.25

Релиз 24.01.25Релиз 24.01.25

Релиз 18.11.24Релиз 18.11.24

Релиз 10.10.24Релиз 10.10.24

Релиз 20.09.24Релиз 20.09.24

Релиз 09.09.24Релиз 09.09.24

Релиз 11.07.24Релиз 11.07.24

Релиз 15.04.24Релиз 15.04.24

Релиз 09.04.24Релиз 09.04.24

Релиз 03.04.24Релиз 03.04.24

Релиз 20.02.24Релиз 20.02.24

Релиз 06.02.24Релиз 06.02.24

Релиз 10.01.24Релиз 10.01.24

Релиз 05.12.23Релиз 05.12.23

Релиз 23.10.23Релиз 23.10.23

Релиз 27.07.23Релиз 27.07.23

Релиз 19.06.23Релиз 19.06.23

Релиз 08.06.23Релиз 08.06.23

Релиз 18.04.23Релиз 18.04.23

Релиз 21.03.23Релиз 21.03.23

Релиз 07.03.23Релиз 07.03.23

Релиз 07.10.22Релиз 07.10.22

Релиз 09.06.22Релиз 09.06.22

Релиз 19.05.22Релиз 19.05.22

Релиз 30.03.22Релиз 30.03.22

Релиз 17.03.22Релиз 17.03.22

Релиз 24.01.22Релиз 24.01.22

Релиз 16.12.21Релиз 16.12.21

Релиз 18.11.21Релиз 18.11.21

Была ли статья полезна?