Для транскрибирования можно использовать Yandex SpeechKit — технологию, которая лежит в основе голосового помощника Алиса.

От генерации рекламного поста до озвучивания книг: как в медиаиндустрии используют нейросети
Как за короткий срок транскрибировать 77 тысяч часов телепередач и озвучить 800 книг? Ответ — с помощью нейросетей. Об этих и других возможностях применения ИИ в медиаиндустрии рассказывает Тимур Баязитов, директор по Media & Entertainment Yandex Cloud.
В 2024 году общая стоимость мирового рынка услуг, связанных с искусственным интеллектом (ИИ) в маркетинге, может достичь
Как транскрибировать 50 ТБ видео и сгенерировать субтитры в режиме реального времени
Сервисы на базе ИИ помогают не только генерировать графические материалы, но и оптимизировать работу с готовыми изображениями и видеоконтентом. Самые распространённые сценарии использования нейросетей в этой области — транскрибирование и суммаризация роликов, создание субтитров для видео, анализ и редактирование медиафайлов.
Транскрибирование видео
Переводить видео в текст помогают технологии распознавания и синтеза речи на базе машинного обучения.
Сценариев применения SpeechKit множество. Например, в 2023 году сервис помог телекомпании «ТВ Центр» оцифровать документальный архив, накопленный ещё с советских времён. Компания транскрибировала более 77 тысяч часов передач, сериалов и документальных фильмов.

«ТВ Центр» транскрибировал все аудиодорожки в текст и загрузил материалы в базу данных — теперь любой фильм можно найти в архиве буквально за минуту.
«С помощью облачного сервиса от Yandex Cloud телеканалу „ТВ Центр“ удалось за месяц оцифровать почти весь архив и интегрировать процесс автоматической оцифровки видео в текущий цикл производства».
Подготовка субтитров
Стриминговые платформы, онлайн‑кинотеатры, телеканалы и видеоблогеры всё чаще решают с помощью ИИ другую трудоёмкую задачу — субтитрование. Нейросети помогают в несколько раз ускорить преобразование звуков в текст за счёт быстрого выполнения всей первичной работы. Такие возможности ИИ интересны не только владельцам веб‑ресурсов или авторам видеороликов. Например, Яндекс Браузер с помощью встроенной нейросети генерирует

Достаточно нажать всего одну кнопку в видеоплеере — и Браузер начнёт показывать субтитры
Редактирование и анализ видео
Технологии ИИ помогают автоматически улучшать качество видеоматериалов, удаляя шумы и выделяя ключевые моменты. Например, такие платформы, как Descript

Descript умеет создавать и редактировать ролики, обрабатывать подкасты и записи скринкастов. Источник: YouTube
Также медиакомпании уже используют аналитические системы, которые выполняют распознавание объектов на видео и тегирование на основе алгоритмов машинного обучения (ML) и компьютерного зрения (CV). Эти алгоритмы помогают быстро выбирать нужные фразы и коды из массива контента и создавать из них проморолики для шоу и сериалов хронометражем от 30 до 60 секунд. Например, развлекательные телеканалы Газпром‑Медиа Холдинга (ГПМХ) используют систему видеоаналитики Video Tag System (VTS), которая сокращает время на подбор материалов для ролика в 20 раз.

Также система VTS автоматически модерирует контент радиостанций и телеканалов ГПМХ. Это позволяет в 25 раз ускорить модерацию и снизить риски отзыва лицензии из‑за несоответствия контента требованиям политики телеканала или законодательства.
Генерация изображений
Конечно, генеративные модели могут не только анализировать уже готовый контент, но и создавать новый.
В апреле 2024 года мы открыли доступ к тестированию Yandex AI Rendering Technology (YandexART) — генеративной модели, которая лежит в основе приложения Шедеврум
Несколько компаний уже испытали нейросеть в режиме закрытого превью. Например, одна из крупных торговых сетей тестировала YandexART для создания уникального дизайна подарочных карт, чтобы клиенты могли ввести текстовый запрос и самостоятельно выбрать оформление для сертификата.
Для клиентов Yandex Cloud нейросеть доступна в составе сервиса Yandex Foundation Models. Цифровой продукт объединяет несколько моделей машинного обучения, в том числе YandexGPT для генерации текста, а также эмбеддинги — векторные представления слов — для задач семантического поиска.
Генеративные модели в Foundation Models можно использовать как самостоятельно, так и для кросс‑продуктовых сценариев: текст для рекламной кампании создать с помощью YandexGPT, а иллюстрации — в YandexART.

По запросу YandexGPT сгенерировала название подкаста и текст анонса…

…а YandexART придумала обложку в заданном стиле
Создание дипфейков
В кино- и видеопродакшене активно применяют технологию дипфейков, которая может создавать цифровые модели актёров или менять их внешность с помощью ИИ. Для обучения алгоритма используют большое количество снимков человека с разными выражениями лица, чтобы в результате нейросеть могла создавать новые изображения или видео.
Дипфейки используют, если произойдёт несчастье с человеком, который играет главную роль в ещё снимающемся кино. Так было во время съёмок «Форсажа 7» 2015 года, когда вместо Пола Уокера роль доигрывал
Также в Голливуде становится популярна цифровая подтяжка лиц актёров на экране. Так омолодили 80‑летнего Харрисона Форда для фильма «Индиана Джонс и колесо судьбы». И в этом случае тоже помогла технология дипфейков.

Официальный трейлер фильма «Индиана Джонс и колесо судьбы». И в этом случае тоже использовалась технология дипфейков. Источник: YouTube
Представители киноиндустрии ожидают
Как озвучить 800 книг и создать уникальный голос бренда
В марте 2023 года СМИ сообщали

«Благодаря Yandex Cloud и Yandex SpeechKit нам удаётся строить успешный проект с большим потенциалом. Yandex Cloud занимается развитием движка синтеза речи, самой технологией и новыми голосами, а мы делаем эту технологию доступной для конкретного рынка — издательской индустрии».
Другой сценарий использования технологий синтеза речи — создание виртуальных дикторов. Например, можно создать уникальный голос компании и улучшить пользовательский опыт, используя роботов в новых сценариях.
Для этой задачи мы разработали SpeechKit Brand Voice. Продукт создан так, чтобы голос звучал естественно. С его помощью можно озвучивать любой контент — рекламные тексты, подкасты — и делиться текстом нужным для вас голосом. Протестировать, насколько полученный голос нравится аудитории, можно с помощью Yandex SpeechSense. Сервис проведёт глубокий анализ каналов коммуникации — как голосовых, так и текстовых.
Как написать книгу и придумать креативную идею для поста в соцсети
С помощью современных моделей можно быстро сгенерировать несложный маркетинговый пост или текст для личного использования, например сказку для ребёнка или меню на неделю под нужный тип питания и тренировок. Но это далеко не все возможности нейросетей: к примеру, третье поколение генеративной языковой модели Яндекса оптимизировано для решения сложных текстовых задач бизнеса.
Сервис YandexGPT API можно внедрить в веб‑приложение или на сайт, чтобы быстрее создавать новостные заметки и статьи, анализировать и придумывать идеи для соцсетей, генерировать карточки товаров и тексты для информационных рассылок.
Вот популярные сценарии использования ИИ при работе с текстами.
Написание текстов для СМИ и соцсетей
Генеративный ИИ может быстро создавать не только стандартные материалы, вроде биржевых сводок, прогноза погоды и спортивных отчётов, но и любые новостные заметки.
Ещё в 2016 году газета The Washington Post начала использовать
Другой пример — кейс агентства Reuters. В 2023 году медиакомпания завершила двухлетнюю программу по трансформации из контент‑провайдера в технологическую корпорацию, «ориентированную на контент». Продолжая эту стратегию, в марте 2024‑го глава агентства Стив Хаскер заявил
В социальных сетях проще с информационной политикой, чем в больших медиа, поэтому у SMM‑специалистов больше вариантов для применения ИИ в своей работе. С помощью нейросетей можно создавать стратегию ведения соцсетей, разрабатывать контент‑план, сегментировать целевую аудиторию, придумывать рубрикаторы, писать посты и взаимодействовать с читателями. Кроме того, ML‑модели умеют перерабатывать и оптимизировать существующий контент под формат социальных сетей.
Например, вы ведёте блог о путешествиях и хотите сгенерировать подпись к фотографии из поездки в Париж. Для этого нужно сформулировать запрос, или промт, для нейросети, добавить в него подробную информацию о целевой аудитории блога и предпочтительном тоне, а также указать площадку размещения.

YandexGPT предложила вовлекающую подпись к фотографии
Ещё искусственный интеллект может планировать публикации в самое оптимальное для этого время, максимизируя охват и взаимодействие, а после этого — анализировать поведение конкретных подписчиков и менять контент‑стратегию на основе уже полученных данных. Аналитика ИИ в режиме realtime освобождает SMM‑специалистов от ресурсоёмких задач и помогает им быстрее ориентироваться в ситуативных коммуникациях, усиливая влияние и общественный интерес к своим информационным каналам. Потенциал применения ИИ в SMM настолько большой, что в 2023 году в России даже появилось
Написание креативных текстов и книг
Справляется ли ИИ с креативными текстами, может ли придумать рассказ, стих или сценарий? Однозначно да: около 45% авторов используют
В 2022 году американский дизайнер из Сан‑Франциско Аммар Реши ради эксперимента предложил

Обложка и иллюстрации для книги также созданы нейросетью, но уже не ChatGPT, а Midjourney
Более удачным оказался рассказ о метавселенной, написанный в 2022 году профессором пекинского университета Цинхуа. Научно‑фантастическая новелла была создана
Что в итоге
Медиакомпании одними из первых начали использовать технологии ИИ для решения задач по созданию, обработке и анализу контента. Нейросети позволяют оптимизировать и автоматизировать эти процессы, а также улучшить пользовательский опыт.
С помощью ИИ можно переводить видео в текст, готовить субтитры, а также генерировать, редактировать и анализировать изображения и ролики. В работе со звуком технологии применяют для озвучивания текстовых материалов и создания виртуальных дикторов, а в работе с текстами — для решения задач СМИ и написания креативных материалов.
О том, как ещё можно использовать инструменты на основе ИИ и машинного обучения для автоматизации работы и персонализации контента, читайте на странице сервисов Yandex Cloud для медиаиндустрии.