О чём история
Архив телеканала «ТВ Центр» (ТВЦ) в 2020 году достигал 33 ТБ — это более 50 тыс. часов записей, а в 2022 — 50 ТБ (более 77 тыс. часов). Чтобы создать централизованное хранилище метаданных телеканала и с его помощью организовать быстрый поиск по видео, команда инженеров решила использовать сервис Yandex SpeechKit. Им удалось транскрибировать весь существующий архив и наладить обработку поступающих материалов. С помощью облачного сервиса телеканал настроил быстрый поиск по архивам и стал эффективнее использовать медиаконтент.
Как найти нужный материал в огромном архиве
АО «ТВ Центр» — федеральный телеканал, который входит в первый мультиплекс — десятку общероссийских обязательных телеканалов, доступных для всех. Архив ТВЦ состоит из контента собственного производства, старых документальных фильмов, а также других материалов от различных телеканалов, в том числе уже закрывшихся. Все новые материалы, которые поступают в архив, размечаются тегами по схемам описания и записываются в базу данных. Это позволяет находить нужное видео по ключевым словам. Однако, при ручной разметке всегда присутствует человеческий фактор — материалы могут быть размечены тегами совершенно по‑разному. При этом множество старых материалов вовсе не имеют метаданных, и требуется очень много времени и человеческих ресурсов, чтобы их отсмотреть и разметить.
Для архивов длительного хранения главным является даже не время доступа, а скорость переноса материала в среду производства программ телеканала. Перед командой инженеров ТВЦ стояла задача создать централизованное хранилище метаданных телеканала, а также оптимизировать и ускорить поиск по базе. Они приняли решение извлечь все аудиодорожки и транскрибировать их, что позволило бы быстро находить нужные отрывки видео в архиве.
Купить решение или сделать самим?
У команды было четыре варианта решения по транскрибированию аудиодорожек:
- Использовать готовое решение. На рынке доступны платформы для производства новостей, которые предоставляют в том числе возможность транскрибировать видео в текст и искать по архиву. Однако, стоимость таких решений очень высока.
- Собственная разработка. Требовалось нанимать команду, покупать собственное оборудование, выстраивать инфраструктуру. Долго и достаточно дорого.
- Заказная разработка. В этом случае часть проблем из собственной разработки ложилась на плечи подрядчиков, но стоимость и сроки получения готового продукта практически не менялись.
- Облачные решения. Чтобы решить конкретную задачу транскрибирования аудиодорожек, можно было воспользоваться сервисом на облачной платформе, получив в результате текстовые файлы. При таком подходе не нужно разрабатывать собственный сервис распознавания речи, а сосредоточиться только на аналитике и создании собственного сервиса поиска по базе.
Сервис речевых технологий должен был обеспечить выполнение следующих требований:
-
Скорость работы модели распознавания (p99(99% персентиль)) не более чем 600 мс.
-
Качество распознавания должно соответствовать значению
WER mean norm_lemm < 60%
, где:a.
WER
— Word Error Rate, доля ошибок в словах относительно референса, включая вставки, замены и удаления;b.
mean
— среднее значение WER по всем аудиофайлам;c.
norm
— тексты референса и результат распознавания нормализованы. Это включает в себя запись цифрами числовых последовательностей, а также приведение цифровых последовательностей к единому формату там, где это применимо (но не ограничивается только этим);d.
lemm
— тексты референса и результат распознавания лемматизированы, то есть все слова приведены к нормальной форме.
Команда ТВЦ решила выбрать облачную платформу для решения задачи, и, проанализировав рынок, они остановились на сервисе Yandex SpeechKit от Yandex Cloud.
33 терабайта видео в текст
Проект по созданию централизованного хранилища метаданных медиактивов ТВЦ реализуется с 2020 года. На момент начала работы у телеканала было 33 терабайта материала — это более 50 тысяч часов видео. За три года объём увеличился до 50 терабайт.
Все файлы сначала нужно было загрузить в облачное хранилище Yandex Object Storage, а после этого обработать сервисом Yandex SpeechKit. Чтобы загрузить такой большой объём видеоматериалов, были согласованы требования и разработан график их реализации. В ходе проекта потребовалось выполнить следующие шаги:
- Собрать требования от потенциальных пользователей системы.
- Создать дизайн интерфейса для поиска медиаданных в хранилище.
- Создать базу данных медиаматериалов из хранилища.
- Организовать импорт данных из существующих систем подготовки и архивации медиаматериалов, а также импорт транскрибированного аудио из видеоряда архива.
- Разработать модели для извлечения сущностей из потока транскрибированного контента и модели привязки сущностей по контексту.
- Создать сервисы по транскрибации видеоряда, определению людей и распознаванию локаций.
- Внедрить и настроить эту систему.
После того, как был налажен поток данных, сервис Yandex SpeechKit начал обрабатывать их, чтобы транскрибировать текст из аудиодорожек. При этом каждой фразе назначалась временная метка, чтобы потом по ней можно было искать на видео нужные фрагменты и переходить к ним. Обработка первоначального объёма материалов заняла около месяца.
Полученный на выходе текст передавался обратно на ТВЦ в хранилище метаданных, на основании которых выделялись сущности, создавались феномены и теги для поиска. В результате использования метаданных в медиаматериалах архива, компания создала и внедрила принципиально новый механизм поиска видеофайлов в централизованном архиве. Такая функциональность позволила осуществлять морфологический поиск, семантический поиск по создаваемым сущностям, а также информационный поиск по метаданным: событиям, локациям, людям.
77 тысяч часов транскрибированного видео
С помощью сервиса Yandex SpeechKit был транскрибирован следующий объём архива телеканала:
- в 2020 году — 44 тыс. часов;
- в 2021 году — 30 тыс. часов;
- в 2022 году — 3 тыс. часов.
Всего это около 50 терабайт или более 77 тысяч часов телепередач, сериалов и документальных фильмов.
Также был настроен поток транскрибирования вновь поступающих в архив материалов в объёме около 432‑х часов в месяц.
В результате реализации проекта разработана и готова к внедрению централизованная система хранения метаданных медиактивов телеканала с организацией поиска по хранилищу. За счёт транскрибирования видеоархива и определения в нём характерных признаков для поиска, телеканал планирует повысить удовлетворенность пользователей, сократить количество инцидентов, связанных с использованием материалов, которые содержат цензуру или не обладают надлежащими правами, а также переиспользовать цифровой контент архива в среднем более чем в 5 раз.
Дальнейшие планы по развитию:
- Выделить метаданные по времени года, времени суток, погоде, характеру съёмки, творческой группе сюжета (оператор, корреспондент, монтажер и т. д.).
- Оптимизировать поисковый алгоритм по результатам использования системы.
Мнение
С помощью облачного сервиса от Yandex Cloud телеканалу «ТВ Центр» удалось оцифровать почти весь архив за месяц и интегрировать процесс автоматической оцифровки видео в текущий цикл производства. В условиях импортозамещания данное решение стало важной вехой для возможности независимого развития архива телеканала «ТВ Центр».