Как Smile Tech создаёт конспекты из аудиолекций с помощью Yandex SpeechKit

- Smile Tech — российская IT-компания, специализирующаяся на разработке систем в области образовательных технологий.
- В 2020 году компания перенесла свои продукты в Yandex Cloud.
- В 2024 году перед Smile Tech встала задача преобразовать 44 ТБ аудиолекций в текстовые конспекты за месяц и с минимальными затратами.
- Для транскрибации аудио компания выбрала Yandex SpeechKit, учитывая уже существующее сотрудничество с Yandex Cloud, скорость работы модели, опыт использования сервиса в других проектах и выгодные тарифы.
- Компания использовала асинхронное распознавание Yandex SpeechKit, которое позволяет обрабатывать аудиофайлы в отложенном режиме.
- Сначала была проведена тестовая настройка взаимодействия с Yandex SpeechKit, затем организован импорт данных и начата их обработка.
- С помощью Yandex SpeechKit и других сервисов Yandex Cloud (Yandex Object Storage, Yandex Managed Services for PostgreSQL, Yandex Cloud CDN, Yandex Compute Cloud, Yandex Managed Service for Kubernetes, Yandex Managed Service for Redis) были созданы субтитры для видео и текстовые конспекты лекций.
- Конспекты обрабатывались с помощью YandexGPT для сжатия текста и создания краткого содержания лекций.
- Задача была выполнена за три недели, компания уложилась в бюджет и соблюла дедлайн.
- Smile Tech планирует и в будущем применять созданное решение, а также рассматривает возможность выхода на зарубежные рынки.
- Компания считает использование Yandex Cloud экономически оправданным и помогающим снизить риски инфраструктурных инцидентов.
О чём эта история
IT‑компания Smile Tech
В 2024 году перед командой возникла задача — преобразовывать аудиолекции в текстовые конспекты. Нужно было не более чем за месяц преобразовать 44 ТБ аудиоданных. Smile Tech использовала Yandex SpeechKit для транскрибации. Все работы выполнили с оптимальными затратами в течение трёх недель, и при этом тестовые результаты получились высокого качества.

Задача компании
Smile Tech — это российская IT‑компания, которая специализируется на разработке систем в области образовательных технологий. Компания создаёт цифровые сервисы, которые помогают различным образовательным организациям увеличивать количество и качество реализуемых ими программ.
Самое крупное направление работы компании — это федеральный проект «Содействие занятости», в рамках которого за счёт государственного бюджета ежегодно получают дополнительное образование и трудоустраиваются порядка 100 000 человек.
Smile Tech никогда не имела существенной собственной серверной инфраструктуры и изначально пользовалась услугами иностранного облачного провайдера. Это позволяло не тратить лишние ресурсы и время сотрудников на низкоуровневое администрирование оборудования и операционных систем. Кроме того, использование PaaS‑решений позволяло снизить риски, связанные с инцидентами инфраструктуры и простоями.
В 2020 году компании потребовалось перестроиться на работу с российскими провайдерами. В частности нужно было найти российского облачного провайдера. Smile Tech рассмотрела несколько вариантов и выбрала Yandex Cloud, поскольку эта платформа выглядела наиболее зрелой из всех решений на рынке, при этом команда провайдера обладала высокой экспертизой.
В 2024 году в рамках обучающих курсов команде Smile Tech понадобилось преобразовать 44 ТБ аудиолекций в текстовые конспекты. Причём это нужно было сделать в очень ограниченные сроки — не более месяца, и с минимальными затратами.
Чтобы транскрибировать аудиодорожки, команда рассмотрела несколько сервисов, доступных на рынке, и в итоге остановилась на Yandex SpeechKit. На решение повлияли следующие факторы:
-
Все сервисы Smile Tech, включая хранилище аудиозаписей, уже размещались в Yandex Cloud.
-
Скорость работы модели распознавания и транскрибации удовлетворяла требованиям задачи. Yandex SpeechKit за доли секунды высокоточно распознаёт речь во всём её многообразии и стилистике.
-
Yandex SpeechKit уже используется для двух проектов компании: в LMS Odin и в федеральном проекте «Содействие занятости».
-
Сервис предоставляется по относительно низкой цене. На отложенное распознавание аудиозаписей, которое можно было использовать в этом проекте, действуют специальные тарифы, и команда могла уложиться в выделенный бюджет.
Решение
В этой статье:
Основные продукты Smile Tech:
-
Odin — система управления обучением (Learning management system — LMS), с помощью которой можно оцифровывать образовательные процессы в университетах, колледжах и организациях дополнительного образования. Этой системой пользуются приблизительно 1400 учебных организаций России.
-
Flow — система, которая автоматизирует обработку заявок на обучение, процесс зачисления, отчисления, документооборот, финансовые потоки. Изначально эта система создавалась под конкретные потребности федерального проекта «Содействие занятости» с учётом правил распределения бюджетных средств и отчётности.
-
Finch — система для автоматизации рутинных задач репетиторов: финансовый учёт, сбор оплат, составление расписаний, организация видеозвонков, интерактивные доски, обмен учебными материалами.
Ещё в 2020 году специалисты Smile Tech перенесли продукты компании в Yandex Cloud. Команда развернула все рабочие версии приложений, тестовые стенды, серверы сборки и перекодирования видео, после чего перенесла все нужные данные в Yandex Object Storage.
В рамках проекта по преобразованию аудио в текст компания использовала технологию асинхронного распознавания Yandex SpeechKit, которая работает в отложенном режиме. В таком режиме аудиофайл попадает в очередь распознавания с низким приоритетом и обрабатывается во время наименьших нагрузок на сервис.
Асинхронное распознавание позволяет преобразовывать в текст многоканальные аудиофайлы с максимальной длительностью записи в четыре часа и размером до 1 Гб, что соответствовало требованиям проекта.
Сначала провели тестовую настройку взаимодействия с Yandex SpeechKit. Нужно было проверить насколько качественными получатся результаты транскрибации и достаточно ли аудиоданных для формирования требуемых текстов. Кроме конспектов, команда хотела создать субтитры для видеолекций. Поэтому при тестовом запуске также проверили возможно ли создавать текст в подходящей для субтитров форме.
Команда организовала импорт данных из существующих систем подготовки и архивации медиаматериалов. После того как был налажен поток данных, сервис Yandex SpeechKit начал их обрабатывать. На первом этапе реализовали субтитры для видео. В результате распознавания получали набор фраз с временными метками. Этот набор фраз преобразовывали в файл субтитров и сохраняли рядом с видеофайлами, а затем добавляли информацию об этом файле в манифест-файл видео. Таким образом, видеоплеер автоматически смог подгружать субтитры. Эту же технологию Smile Tech использовала для преобразования аудиолекций в текстовые конспекты материалов. Конспекты затем обрабатывали с помощью YandexGPT, чтобы сжать текст, сделать его более читаемым и создать краткое содержание лекции.
Кроме того, в проекте использованы и другие сервисы Yandex Cloud:
-
Yandex Object Storage — здесь хранятся все загружаемые пользователями файлы. Основной объём занимают образовательные материалы в видео-формате — 200 ТБ. Звуковые дорожки находятся в отдельных файлах, т. к. видео подготовлено для потокового адаптивного воспроизведения. Здесь же хранятся файлы с готовыми субтитрами, а также документы для формирования отчётности по расходованию федерального бюджета.
-
Yandex Managed Services for PostgreSQL используется в качестве основной базы данных для долговременного хранения. Здесь находится информация об имеющихся файлах, отправленных в Yandex SpeechKit задачах, а также логи и сырые результаты работы этого сервиса. Такие данные необходимы на случай повторной обработки результатов.
-
Yandex Cloud CDN для кэширования и ускорения загрузки всего статического контента.
-
Yandex Compute Cloud и Yandex Managed Service for Kubernetes® для запуска вспомогательных приложений, которые конвертировали и извлекали аудиодорожки из видео. Приложения также взаимодействовали с API сервисов и отвечали за обработку результатов распознавания и формирования файлов с субтитрами и их добавление в видео.
-
Yandex Managed Service for Redis для хранения кэша, сессий и синхронизации между экземплярами приложений.
При реализации проекта команда столкнулась с необходимостью перекодировать аудио в формат .mp3, который поддерживается Yandex SpeechKit, но с этой задачей специалистам Smile Tech удалось справиться самостоятельно.
После тестового внедрения и устранения ошибок Smile Tech массово запустила генерацию субтитров и текстовых конспектов лекций. Затем весь процесс организовали в виде фоновой задачи и встроили в общий паттерн обработки видео.
Результаты
С помощью сервиса Yandex SpeechKit транскрибировали 44 ТБ данных, это весь имевшийся на тот момент объём архива. Команде удалось подготовить текстовые материалы всего за три недели и точно соблюсти дедлайн в месяц. При этом команда Smile Tech смогла уложиться в небольшой бюджет.
Smile Tech планирует и в будущем применять созданное решение. Его внедрили на платформе в виде дополнительного этапа в процессе обработки и подготовки видеофайла к потоковому воспроизведению.
В процессе работы команда проекта пришла к архитектурному решению, которое позволило существенно снизить нагрузку на сайт и уменьшить расходы на трафик. Smile Tech подключила Yandex Cloud CDN к основному домену сайта и теперь статический контент кэшируется, а динамический — напрямую проксируется. Это помогло компании справиться с пиковыми нагрузками на лендинги.
Smile Tech считает использование Yandex Cloud экономически оправданным, поскольку в условиях быстрого роста компании физическая инфраструктура стала бы ограничивающим фактором. Например, сейчас компания намерена выйти на зарубежные рынки и запустить проекты в Казахстане и Кении, и облачная инфраструктура остается актуальным выбором. Кроме того, используя многочисленные сервисы и обращаясь к экспертизе инженеров облачного провайдера, Smile Tech снижает риски инфраструктурных инцидентов.

