История изменений в сервисе синтеза Yandex SpeechKit
Сервис SpeechKit предоставляет обновления в соответствии с системой моделей и версий.
Подробнее о голосовых моделях читайте в разделе О технологии.
Релиз 10.10.24
- Добавлены женский голос для синтеза на казахском языке —
saule
, и его аналог для синтеза на русском —saule_ru
. - Русскоязычный голос
madirus
переименован вmadi_ru
. Старое название голоса по-прежнему работает, однако просим по возможности исправить его в своих проектах.
Релиз 20.09.24
- Улучшено качество голосов
filipp
,ermil
,zahar
. - Улучшена работа нормализатора для казахского и узбекского языков.
Релиз 09.09.24
Для всех общедоступных голосов на русском языке улучшено качество вопросительных интонаций и общее качество синтеза.
Релиз 11.07.24
Для синтеза на русском языке:
- Уменьшено количество постороннего шума.
- Исправлена постановка ударений в некоторых словах.
Релиз 15.04.24
Исправлена ошибка, из-за которой синтезировалась слишком быстрая речь.
Релиз 09.04.24
В API v1 также голосом по умолчанию стал голос marina
.
Релиз 03.04.24
В API v3 изменился голос по умолчанию. Теперь для всех проектов синтеза, в которых голос не задан явно, используется голос marina
.
Релиз 20.02.24
Улучшено качество голосов masha
, marina
, anton
, alexander
, dasha
, julia
.
Релиз 06.02.24
Появилась поддержка REST API v3.
Релиз 10.01.24
- Поддержана нормализация английских количественных числительных. Нормализация работает только для целых положительных чисел. Порядковые числительные не поддерживаются.
- В API добавлена подсказка DurationHint, с помощью которой можно задавать минимальное или максимальное время, затраченное на синтез переданного текста.
- В сообщение UtteranceSynthesisResponse добавлены поля
text_chunk
,start_ms
иlength_ms
. Они содержат информацию о тексте и времени начала и окончания аудио, попавшего в пришедший фрагмент.
Релиз 05.12.23
Улучшено качество синтеза речи на всех языках, кроме русского.
Релиз 23.10.23
- Появился новый голос
masha
в трех амплуа. - Добавлены дополнительные амплуа русскоязычных голосов.
- Улучшена работа нормализатора для казахского языка.
- Улучшено произношение "смс" на казахском и "sms" на узбекском языках.
Релиз 27.07.23
- В API v3 появился параметр
pitch_shift
. С его помощью можно увеличить интонационный контур всего синтезированного аудио на фиксированное значение в Гц. Поднятие контура помогает голосу звучать "живее". - Для синтеза на русском языке доступны семь новых голосов:
dasha
,julia
,lera
,marina
,alexander
,kirill
,anton
.
Релиз 19.06.23
Улучшено качество произношения марок автомобилей на узбекском языке.
Релиз 08.06.23
- Для узбекского языка стала доступна нормализация количественных числительных, записанных арабскими цифрами.
- Улучшено качество синтеза на узбекском языке. Больше всего изменения влияют на синтез коротких текстов.
Релиз 18.04.23
- Синтез узбекского языка начал поддерживать фонемную форму записи текста (список поддерживаемых фонем). Также модель узбекского языка научилась автоматически заменять апострофы. Однако для качественного синтеза используйте только типографский прямой
ʼ
и типографский перевернутыйʻ
апострофы. - Для синтеза по шаблонам изменена нормализация громкости по умолчанию. Теперь, если явно не указан тип нормализации, громкость переменных нормализуется по исходному шаблону.
Релиз 21.03.23
-
Для казахского языка добавлен нормализатор. Теперь модель может произносить числа, записанные арабскими цифрами.
-
Для узбекского языка появилась поддержка двух видов апострофов: типографский прямой
ʼ
и типографский перевернутыйʻ
. Теперь вы можете синтезировать фразы на узбекском языке, записанные на латинице с использованием этих апострофов.Yaʼni mana shu beret kiygan notanish odamni.
Soʻng yana pastga qarab ketiladi.Важно
Используйте только эти два варианта написания апострофов. В модели нет автозамены, и качество синтеза сильно зависит от качества входных данных.
Релиз 07.03.23
- Значительно переработана технология SpeechKit Brand Voice для создания собственных голосов.
- В тестовом режиме для всех языков добавлена поддержка пауз при использовании TTS-разметки. Обо всех возникающих ошибках, связанных с расстановкой пауз, сообщайте команде через обращение в техническую поддержку. Ваши отзывы помогут улучшить работу в следующих релизах.
Релиз 07.10.22
В ветке general
доступны для тестирования новые голоса и языки:
- женский голос
lea
— немецкий язык; - мужской голос
madi
— казахский язык; - мужской голос
madirus
— русский язык; - женский голос
nigora
— узбекский язык.
Также в ветке general
стали доступны голоса amira
и john
.
Релиз 09.06.22
-
Во всех голосах улучшены интонации и акцентирование.
-
Появилось больше возможностей для расстановки пауз:
- Исправлена ошибка, из-за которой паузы короче 1200 миллисекунд не учитывались в SSML-разметке. Однако обращаем внимание, что паузы короче 700 миллисекунд считаются подсказкой для синтеза и не позволяют в точности контролировать длительность паузы между словами.
- Паузы SSML со значениями
x-weak
,weak
,medium
имеют большее влияние на синтезируемый текст. - Появилась возможность расставлять паузы при использовании TTS-разметки. С помощью тега
<[small]>
можно задавать длительность паузы в синтезируемом тексте, например:Привет, <[small]>
. Длительность паузы может принимать значения:tiny
,small
,medium
,large
,huge
.
-
Закончилась поддержка устаревшей версии голоса
filipp:deprecated
. Теперьfilipp:deprecated
иfilipp
звучат одинаково.
Релиз 19.05.22
-
С 31 мая 2022 года прекращается поддержка устаревших голосов.
-
В ветке
rc
для тестирования доступны новые голоса и языки:- женский голос
amira
— казахский язык; - мужской голос
john
— английский язык.
Голоса доступны только в API v3 с использованием заголовка
x-service-branch:rc
. - женский голос
Релиз 30.03.22
-
Стандартные голоса теперь доступны только по тегу
:deprecated
и будут поддерживаться до 31 мая 2022 года. -
По обращению в техническую поддержку (заявка CLOUDSUPPORT-138703) исправлены интонации и проблемы с редкими артефактами на текстах с большим количеством различных цифр.
Релиз 17.03.22
-
Появилась возможность синтезировать аудиофайлы в формате MP3. Эта возможность доступна в API v3 и при работе с премиум-голосами через API v1.
-
Для новых голосов появилась поддержка амплуа — расширенной версии эмоциональной окраски (см. параметр
emotion
в API v1 иrole
в API v3). Разные варианты амплуа доступны для разных голосов. Все значения см. в разделе Список голосов. При указании некорректного амплуа сервис вернет ошибку. -
Исправлена регрессия в качестве расстановки акцентов для голосов
alena
иfilipp
, улучшено качество расстановки акцентов и субъективное восприятие синтеза всех голосов. -
Начинается большое обновление стандартных голосов:
oksana
,ermil
,jane
,omazh
,zahar
будут заменены на соответствующие имoksana:rc
,ermil:rc
,jane:rc
,omazh:rc
,zahar:rc
. Обновление не затронет стоимость использования обычных голосов. Существующие голосаoksana
,ermil
,jane
,omazh
иzahar
доступны в ветке:deprecated
.
Релиз 24.01.22
-
Обновлена модель генерации. В новой версии исправлено произношение цифр и аббревиатур сферы финансов.
-
Теперь акценты можно расставлять с помощью выделения:
Вы **рады** меня видеть?
-
Обработка SSML-пауз и SIL-тегов приведена к единому виду для поддержки интеграции с Яндекс Диалогами
. Наличие в тексте пауз в нотации SSML или SIL рассматривается как индикатор конца фразы (utterance) — в генерируемом тексте на месте тега появляется интонация конца фразы. SSML-паузы и SIL-теги поддерживаются при генерации коротких и длинных текстов.
Релиз 16.12.21
-
Увеличены лимиты для запросов в API v3: длина синтезируемой фразы — 250 символов или 24 секунды аудио. Важно: стоимость запроса пока остается без изменений, но может быть увеличена.
-
Опция
unsafe_mode
, доступная в API v3, позволяет автоматически разделить длинный текст, отправленный для синтеза, на отдельные фразы. -
Тишина после синтеза последнего слова значительно сократилась. Теперь аудио заканчивается практически сразу после синтеза последнего слова.
Релиз 18.11.21
- Внесены исправления, стабилизирующие синтез premium-голоса
alena
. Теперь она звучит однородно. - Исправлены ошибки в произношении
alena
. - Улучшена расстановка пауз в REST API.
- В тестовом режиме добавлены новые premium-голоса:
oksana:rc
ermil:rc
jane:rc
omazh:rc
zahar:rc
Мы будем рады отзывам