Расшифровка диктофонных записей с учётом тембров голосов собеседников
Нужна расшифровка диктофонных записей переговоров. Обычно, такие диктофонные записи делаются сохраняются в одной моно дорожке. Уже сейчас сервис голосового помощника «Алиса» умеет распознавать голос говорящего по его тембральной окраске для авторизации на Яндекс Станции. Предлагается добавить в SpeechKit анализатор спектра голосов, и по ключевым маркерам спектра добавить разбиение моно записи на фрагменты, принадлежащие разным голосам. То есть, после доработки SpeechKit, при обработке моно аудио записей с диктофона будет возможно получение распознанных реплик с указанием авторов реплик на уровне «голос 1», «голос 2», ..., «голос N» Данная функция была бы очень востребована в версии распознавания длинного аудио, для расшифровки записей переговоров.