Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Калькулятор цен
    • Тарифы
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex SpeechKit
  • Обзор технологий SpeechKit
  • Поддерживаемые форматы аудио
  • Интеграция телефонии
  • Квоты и лимиты
  • Управление доступом
  • Правила тарификации
  • Аудитные логи Audit Trails
    • Релизы распознавания
    • Релизы синтеза

В этой статье:

  • Релиз 28.05.25
  • Релиз 30.04.25
  • Релиз 29.04.25
  • Релиз 28.03.25
  • Релиз 24.01.25
  • Релиз 18.11.24
  • Релиз 10.10.24
  • Релиз 20.09.24
  • Релиз 09.09.24
  • Релиз 11.07.24
  • Релиз 15.04.24
  • Релиз 09.04.24
  • Релиз 03.04.24
  • Релиз 20.02.24
  • Релиз 06.02.24
  • Релиз 10.01.24
  • Релиз 05.12.23
  • Релиз 23.10.23
  • Релиз 27.07.23
  • Релиз 19.06.23
  • Релиз 08.06.23
  • Релиз 18.04.23
  • Релиз 21.03.23
  • Релиз 07.03.23
  • Релиз 07.10.22
  • Релиз 09.06.22
  • Релиз 19.05.22
  • Релиз 30.03.22
  • Релиз 17.03.22
  • Релиз 24.01.22
  • Релиз 16.12.21
  • Релиз 18.11.21
  1. История изменений
  2. Релизы синтеза

История изменений в сервисе синтеза Yandex SpeechKit

Статья создана
Yandex Cloud
Обновлена 15 июля 2025 г.
  • Релиз 28.05.25
  • Релиз 30.04.25
  • Релиз 29.04.25
  • Релиз 28.03.25
  • Релиз 24.01.25
  • Релиз 18.11.24
  • Релиз 10.10.24
  • Релиз 20.09.24
  • Релиз 09.09.24
  • Релиз 11.07.24
  • Релиз 15.04.24
  • Релиз 09.04.24
  • Релиз 03.04.24
  • Релиз 20.02.24
  • Релиз 06.02.24
  • Релиз 10.01.24
  • Релиз 05.12.23
  • Релиз 23.10.23
  • Релиз 27.07.23
  • Релиз 19.06.23
  • Релиз 08.06.23
  • Релиз 18.04.23
  • Релиз 21.03.23
  • Релиз 07.03.23
  • Релиз 07.10.22
  • Релиз 09.06.22
  • Релиз 19.05.22
  • Релиз 30.03.22
  • Релиз 17.03.22
  • Релиз 24.01.22
  • Релиз 16.12.21
  • Релиз 18.11.21

Сервис SpeechKit предоставляет обновления в соответствии с системой моделей и версий.

Подробнее о голосовых моделях читайте в разделе О технологии.

Релиз 28.05.25Релиз 28.05.25

Появился новый способ создания уникального голоса — SpeechKit Brand Voice Lite. Подробнее см. в разделе Yandex SpeechKit Brand Voice.

Релиз 30.04.25Релиз 30.04.25

Голоса lola и lola_ru переименованы в zamira и zamira_ru.

Релиз 29.04.25Релиз 29.04.25

Добавлены новые амплуа для голосов zamira, zamira_ru и yulduz_ru.

Релиз 28.03.25Релиз 28.03.25

Появились русскоязычные аналоги голосов zamira и yulduz — zamira_ru и yulduz_ru с несколькими амплуа. Для голосов saule, saule_ru, zhanar, zhanar_ru, yulduz добавлены амплуа. Полный список доступных голосов см. в разделе Список голосов.

Релиз 24.01.25Релиз 24.01.25

Добавлены новые голоса. Для синтеза на казахском языке доступен женский голос zhanar. Для синтеза на узбекском языке добавлены женские голоса zamira и yulduz.

Релиз 18.11.24Релиз 18.11.24

Исправлено произношение слова «тенге» при синтезе на русском языке. Теперь модель произносит его c мягкой согласной «т»: [т'энг'э].`

Релиз 10.10.24Релиз 10.10.24

  1. Добавлены женский голос для синтеза на казахском языке — saule, и его аналог для синтеза на русском — saule_ru.
  2. Русскоязычный голос madirus переименован в madi_ru. Старое название голоса по-прежнему работает, однако просим по возможности исправить его в своих проектах.

Релиз 20.09.24Релиз 20.09.24

  • Улучшено качество голосов filipp, ermil, zahar.
  • Улучшена работа нормализатора для казахского и узбекского языков.

Релиз 09.09.24Релиз 09.09.24

Для всех общедоступных голосов на русском языке улучшено качество вопросительных интонаций и общее качество синтеза.

Релиз 11.07.24Релиз 11.07.24

Для синтеза на русском языке:

  • Уменьшено количество постороннего шума.
  • Исправлена постановка ударений в некоторых словах.

Релиз 15.04.24Релиз 15.04.24

Исправлена ошибка, из-за которой синтезировалась слишком быстрая речь.

Релиз 09.04.24Релиз 09.04.24

В API v1 также голосом по умолчанию стал голос marina.

Релиз 03.04.24Релиз 03.04.24

В API v3 изменился голос по умолчанию. Теперь для всех проектов синтеза, в которых голос не задан явно, используется голос marina.

Релиз 20.02.24Релиз 20.02.24

Улучшено качество голосов masha, marina, anton, alexander, dasha, julia.

Релиз 06.02.24Релиз 06.02.24

Появилась поддержка REST API v3.

Релиз 10.01.24Релиз 10.01.24

  1. Поддержана нормализация английских количественных числительных. Нормализация работает только для целых положительных чисел. Порядковые числительные не поддерживаются.
  2. В API добавлена подсказка DurationHint, с помощью которой можно задавать минимальное или максимальное время, затраченное на синтез переданного текста.
  3. В сообщение UtteranceSynthesisResponse добавлены поля text_chunk, start_ms и length_ms. Они содержат информацию о тексте и времени начала и окончания аудио, попавшего в пришедший фрагмент.

Релиз 05.12.23Релиз 05.12.23

Улучшено качество синтеза речи на всех языках, кроме русского.

Релиз 23.10.23Релиз 23.10.23

  1. Появился новый голос masha в трех амплуа.
  2. Добавлены дополнительные амплуа русскоязычных голосов.
  3. Улучшена работа нормализатора для казахского языка.
  4. Улучшено произношение "смс" на казахском и "sms" на узбекском языках.

Релиз 27.07.23Релиз 27.07.23

  1. В API v3 появился параметр pitch_shift. С его помощью можно увеличить интонационный контур всего синтезированного аудио на фиксированное значение в Гц. Поднятие контура помогает голосу звучать "живее".
  2. Для синтеза на русском языке доступны семь новых голосов: dasha, julia, lera, marina, alexander, kirill, anton.

Релиз 19.06.23Релиз 19.06.23

Улучшено качество произношения марок автомобилей на узбекском языке.

Релиз 08.06.23Релиз 08.06.23

  1. Для узбекского языка стала доступна нормализация количественных числительных, записанных арабскими цифрами.
  2. Улучшено качество синтеза на узбекском языке. Больше всего изменения влияют на синтез коротких текстов.

Релиз 18.04.23Релиз 18.04.23

  1. Синтез узбекского языка начал поддерживать фонемную форму записи текста (список поддерживаемых фонем). Также модель узбекского языка научилась автоматически заменять апострофы. Однако для качественного синтеза используйте только типографский прямой ʼ и типографский перевернутый ʻ апострофы.
  2. Для синтеза по шаблонам изменена нормализация громкости по умолчанию. Теперь, если явно не указан тип нормализации, громкость переменных нормализуется по исходному шаблону.

Релиз 21.03.23Релиз 21.03.23

  1. Для казахского языка добавлен нормализатор. Теперь модель может произносить числа, записанные арабскими цифрами.

  2. Для узбекского языка появилась поддержка двух видов апострофов: типографский прямой ʼ и типографский перевернутый ʻ. Теперь вы можете синтезировать фразы на узбекском языке, записанные на латинице с использованием этих апострофов.

    Yaʼni mana shu beret kiygan notanish odamni.
    Soʻng yana pastga qarab ketiladi.

    Важно

    Используйте только эти два варианта написания апострофов. В модели нет автозамены, и качество синтеза сильно зависит от качества входных данных.

Релиз 07.03.23Релиз 07.03.23

  1. Значительно переработана технология SpeechKit Brand Voice для создания собственных голосов.
  2. В тестовом режиме для всех языков добавлена поддержка пауз при использовании TTS-разметки. Обо всех возникающих ошибках, связанных с расстановкой пауз, сообщайте команде через обращение в техническую поддержку. Ваши отзывы помогут улучшить работу в следующих релизах.

Релиз 07.10.22Релиз 07.10.22

В ветке general доступны для тестирования новые голоса и языки:

  • женский голос lea — немецкий язык;
  • мужской голос madi — казахский язык;
  • мужской голос madirus — русский язык;
  • женский голос nigora — узбекский язык.

Также в ветке general стали доступны голоса amira и john.

Релиз 09.06.22Релиз 09.06.22

  1. Во всех голосах улучшены интонации и акцентирование.

  2. Появилось больше возможностей для расстановки пауз:

    • Исправлена ошибка, из-за которой паузы короче 1200 миллисекунд не учитывались в SSML-разметке. Однако обращаем внимание, что паузы короче 700 миллисекунд считаются подсказкой для синтеза и не позволяют в точности контролировать длительность паузы между словами.
    • Паузы SSML со значениями x-weak, weak, medium имеют большее влияние на синтезируемый текст.
    • Появилась возможность расставлять паузы при использовании TTS-разметки. С помощью тега <[small]> можно задавать длительность паузы в синтезируемом тексте, например: Привет, <[small]>. Длительность паузы может принимать значения: tiny, small, medium, large, huge.
  3. Закончилась поддержка устаревшей версии голоса filipp:deprecated. Теперь filipp:deprecated и filipp звучат одинаково.

Релиз 19.05.22Релиз 19.05.22

  1. С 31 мая 2022 года прекращается поддержка устаревших голосов.

  2. В ветке rc для тестирования доступны новые голоса и языки:

    • женский голос amira — казахский язык;
    • мужской голос john — английский язык.

    Голоса доступны только в API v3 с использованием заголовка x-service-branch:rc.

Релиз 30.03.22Релиз 30.03.22

  1. Стандартные голоса теперь доступны только по тегу :deprecated и будут поддерживаться до 31 мая 2022 года.

  2. По обращению в техническую поддержку (заявка CLOUDSUPPORT-138703) исправлены интонации и проблемы с редкими артефактами на текстах с большим количеством различных цифр.

Релиз 17.03.22Релиз 17.03.22

  1. Появилась возможность синтезировать аудиофайлы в формате MP3. Эта возможность доступна в API v3 и при работе с премиум-голосами через API v1.

  2. Для новых голосов появилась поддержка амплуа — расширенной версии эмоциональной окраски (см. параметр emotion в API v1 и role в API v3). Разные варианты амплуа доступны для разных голосов. Все значения см. в разделе Список голосов. При указании некорректного амплуа сервис вернет ошибку.

  3. Исправлена регрессия в качестве расстановки акцентов для голосов alena и filipp, улучшено качество расстановки акцентов и субъективное восприятие синтеза всех голосов.

  4. Начинается большое обновление стандартных голосов: oksana, ermil, jane, omazh, zahar будут заменены на соответствующие им oksana:rc, ermil:rc, jane:rc, omazh:rc, zahar:rc. Обновление не затронет стоимость использования обычных голосов. Существующие голоса oksana, ermil, jane, omazh и zahar доступны в ветке :deprecated.

Релиз 24.01.22Релиз 24.01.22

  1. Обновлена модель генерации. В новой версии исправлено произношение цифр и аббревиатур сферы финансов.

  2. Теперь акценты можно расставлять с помощью выделения: Вы **рады** меня видеть?

  3. Обработка SSML-пауз и SIL-тегов приведена к единому виду для поддержки интеграции с Яндекс Диалогами. Наличие в тексте пауз в нотации SSML или SIL рассматривается как индикатор конца фразы (utterance) — в генерируемом тексте на месте тега появляется интонация конца фразы. SSML-паузы и SIL-теги поддерживаются при генерации коротких и длинных текстов.

Релиз 16.12.21Релиз 16.12.21

  1. Увеличены лимиты для запросов в API v3: длина синтезируемой фразы — 250 символов или 24 секунды аудио. Важно: стоимость запроса пока остается без изменений, но может быть увеличена.

  2. Опция unsafe_mode, доступная в API v3, позволяет автоматически разделить длинный текст, отправленный для синтеза, на отдельные фразы.

  3. Тишина после синтеза последнего слова значительно сократилась. Теперь аудио заканчивается практически сразу после синтеза последнего слова.

Релиз 18.11.21Релиз 18.11.21

  1. Внесены исправления, стабилизирующие синтез premium-голоса alena. Теперь она звучит однородно.
  2. Исправлены ошибки в произношении alena.
  3. Улучшена расстановка пауз в REST API.
  4. В тестовом режиме добавлены новые premium-голоса:
    • oksana:rc
    • ermil:rc
    • jane:rc
    • omazh:rc
    • zahar:rc

Мы будем рады отзывам о работе новых premium-голосов!

Была ли статья полезна?

Предыдущая
Релизы распознавания
Следующая
Коды ошибок
Проект Яндекса
© 2025 ООО «Яндекс.Облако»