От сырых данных до готового решения: как устроена работа ML-специалистов в Yandex Cloud
Сотни терабайтов данных и одна команда, превращающая их в ИИ-продукты более чем для 40 тыс. клиентов. Руководитель ML‑команды Yandex Cloud Василий Ершов рассказывает, как устроен путь от датасета до готового сервиса и кто за это отвечает.
17 июня 2026 г.
15 минут чтения
Краткий пересказ YandexGPT
ML-команда Yandex Cloud развивает платформу Yandex AI Studio, которая объединяет ИИ- и ML-сервисы и помогает превращать идеи в высоконагруженные сервисы.
На платформе Yandex AI Studio доступны различные генеративные модели, включая Alice AI LLM, DeepSeek V4 Flash, Qwen3-235b и другие.
Команда работает с сотнями терабайт данных и развивает платформу, на которой уже более 30 генеративных нейросетей и свыше 40 тыс. клиентов.
В команде есть разные роли: ML-разработчики, инженеры Data Science, DevOps-инженеры, бэкенд-разработчики. Они часто совмещают несколько функций.
Процесс создания модели включает подготовку данных, обучение модели, масштабирование обучения, выбор лучшей модели и сборку продукта.
Yandex SpeechKit — один из ключевых продуктов, который распознаёт более 15 языков и способен генерировать речь. Одна из последних функций — Brand Voice Lite, которая позволяет создать синтез голоса по 20-минутной записи.
Для работы в команде важно иметь фундаментальные знания, а не только владение конкретными инструментами, а также обладать софт-скиллами, например умением автоматизировать рутинные процессы и исследовательским мышлением.
Команда активно ищет новых сотрудников и сотрудничает с вузами для поиска талантливых выпускников.
ML-команда Yandex Cloud: чем мы занимаемся
Наша команда развивает Yandex AI Studio — платформу, которая объединяет ИИ- и ML-сервисы Yandex Cloud и помогает с помощью готовых инструментов превращать идеи в высоконагруженные сервисы. На платформе есть всё для интеграции, адаптации и быстрой сборки кастомных решений из готовых компонентов.
Спектр задач ML-специалистов в нашей команде очень разнообразный. Мы создаём модели, подбираем и обрабатываем данные для их обучения, оптимизируем и развиваем получившиеся архитектуры. А ещё собираем отдельные ML-технологии в комплексные продукты, помогаем внедрять и адаптировать их для реальных бизнес-задач.
Наша цель — построить лучшую публичную ИИ‑платформу для разработки приложений и агентов в России для всех, кто хочет использовать ML в бизнесе.
На платформе Yandex AI Studio уже сегодня доступны Alice AI LLM, DeepSeek V4 Flash, Qwen3-235b и другие генеративные модели, в том числе с открытым исходным кодом. Помимо этого, мы развиваем собственные разработки Яндекса, например:
сервис речевой аналитики Yandex SpeechSense — один из ключевых продуктов платформы для бизнеса;
комплекс технологий для синтеза и распознавания речи Yandex SpeechKit;
инструмент машинного перевода для интеграции в приложения и веб-сервисы Yandex Translate;
продукт Yandex Vision OCR для извлечения текста из изображений и документов.
Наша команда работает с сотнями терабайт данных для обучения моделей и развивает платформу, на которой уже больше 30 генеративных нейросетей, свыше 40 тыс. клиентов, а потребление токенов через API в 2025 году достигло 234 млрд. Каждый день на платформе запускается более 200 уникальных ИИ-агентов.
Кто делает ML в Yandex Cloud
ML-разработчик
Специалист, который может вести полный цикл машинного обучения: разработать модель, подготовить данные для её обучения, создать ML-алгоритмы и адаптировать их для решения прикладных задач.
В обязанности ML-разработчиков входит продакшен-интеграция моделей, оптимизация инференса, взаимодействие с DevOps и разработка API-интерфейсов: то есть не только подготовка модели, но и вывод в работу.
Инженер Data Science
Работает на стыке ML, программирования и статистики. Такой специалист помогает внедрять и адаптировать ML-модели для реальных пользовательских сценариев: собирает, размечает и анализирует данные, определяет метрики качества.
Эти ребята анализируют входные и выходные данные, с которыми работают ML-модели: проводят исследования, готовят прототипы и строят инструменты, по которым мы можем улучшать качество сервисов. Например, именно они помогают ответить на вопрос «что такое хороший синтез речи?».
DevOps-инженер
Отвечает за развёртывание и автоматизацию процессов разработки. Настраивает пайплайны для сборки и выкатки сервисов, управляет инфраструктурой и помогает командам быстрее доставлять изменения в продакшен.
Именно DevOps-инженеры выстраивают процессы так, чтобы путь от коммита до продакшена был коротким, предсказуемым и надёжным.
Бэкенд-разработчик
Создаёт новые и совершенствует существующие ML‑сервисы и внедряет передовой искусственный интеллект в реальный бизнес.
Бэкенд-разработчики превращают технологии в готовые решения. А ещё — делают наши ИИ-продукты удобными и востребованными.
В нашей команде довольно стандартные роли, но на практике границы между ними размыты: инженеры часто совмещают несколько функций в разных пропорциях: у кого-то фокус больше на исследованиях, у кого-то — на инфраструктуре, у кого-то — на данных.
От датасета до продакшена: как рождается модель
Лучше всего понять, как эти роли работают вместе, можно на конкретном примере. Вот что происходит, когда мы создаём нейросетевую модель для Yandex AI Studio.
Распределение подготовки данных и инфраструктуры для их обработки
Цель этого этапа — собрать данные для обучения модели. Например, настроить регулярную разметку или разово отфильтровать десятки терабайт текстов, чтобы найти, какие сигналы помогут модели обучаться лучше всего.
Для этого ML-разработчики и инженеры Data Science смотрят на наши собственные датасеты, проверяют наборы данных в открытом доступе, изучают, что ещё подойдёт для задачи (иногда помогает генерация синтетического датасета).
ML-разработчики при этом больше программируют, а инженеры Data Science:
помогают разработчикам получить надёжные инструменты для разметки и подготовки данных;
консультируют продакт-менеджеров и других людей, принимающих решения, подойдёт ли модель для их задач и как лучше её использовать.
Обучение модели после подготовки данных
Затем ML-разработчики настраивают взаимодействие с кластером, где хранятся сырые данные: пишут код для обучения, профилируют и оптимизируют его. И только потом начинают тренировать модель.
NaN (Not a Number) — это специальное значение в программировании, которое представляет неопределенный или непредставимый числовой результат, особенно в вычислениях с плавающей запятой.
RPS (Requests Per Second) — это ключевая метрика производительности в IT, показывающая, сколько запросов к серверу или приложению обрабатывается за одну секунду.
Задача на этом этапе — получить работающую модель. Но обучать её не так просто, как кажется: ошибки в процессе — это почти всегда исследовательская задача. Внешне всё выглядит одинаково: в какой-то момент модель начинает выдавать NaN вместо предсказаний. А вот причины могут быть самыми разными. Ошибка в коде обучения — первое, что идём проверять. Но исправить типовые ошибки, которые разбирают со студентами в вузах, далеко не всегда достаточно: проблема может лежать в библиотеках, которые мы используем, а иногда оказывается, что дело вообще не в модели, а в данных, и нужно возвращаться на предыдущий этап. Бывает и так, что приходится аккуратно подбирать схему обучения или инициализацию параметров.
И ошибки — только полбеды. Модель может успешно обучиться, но вести себя не совсем так, как нужно. Например, синтез речи в одном проценте случаев начинает «приклеивать» окончание одного слова к началу следующего. Кто виноват — модель или данные? Чаще всего данные, но иногда причина в том, как мы моделируем целевую зависимость. Всё это нужно найти, разобраться и починить.
Масштабирование обучения
Хороший ML-исследователь генерирует десятки и сотни гипотез о том, как улучшить модель, — и каждую нужно проверить, то есть обучить заново. Исправление ошибок тоже часто сводится к переобучению. Ждать полгода, пока завершится один эксперимент, мы не готовы. При этом сегодня одного сервера для обучения в приемлемые сроки может не хватить — приходится оптимизировать код обучения и адаптировать его для работы на нескольких серверах одновременно.
Выбор лучшей модели
Результат обучения — десятки, а иногда и сотни моделей. Все они обладают разным балансом скорости работы, качества и стоимости. Нужно выбрать оптимальное соотношение, написать код интерфейса, оценить, сколько ресурсов потребуется на разных типах оборудования, и затем подготовить модель к внедрению в продакшен. Например, убедиться, что она выдерживает нужный лимит RPS.
Сборка продукта
Готовая модель — это не продукт, а деталь его реализации. Клиенту мы предоставляем стабильный публичный API — например, Responses API для работы с LLM или API SpeechKit для синтеза и распознавания речи — либо интерфейс, в котором модели нет в явном виде, как в SpeechSense. Чтобы всё это заработало, нужно встроить модель в продукт: настроить балансировщик, политики масштабирования, внедрить observability — и подключить приватный сервис к публичному контракту. Только после этого модель становится продуктом.
Yandex SpeechKit: как мы научили сервис клонировать голос за 20 минут
Весь этот путь — от датасета до продакшена — мы проходим каждый раз, когда развиваем наши продукты. Один из них, Yandex SpeechKit, полностью создаётся внутри ML-команды Yandex Cloud — мы адаптируем опыт и технологии голосового помощника Алиса, разрабатываем собственные алгоритмы и комбинируем это в продукт. Сегодня Yandex SpeechKit — это комплекс технологий, который распознаёт более 15 языков и способен генерировать речь. В 2025 году SpeechKit синтезировал более 185 млн минут речи.
Одна из последних фич — Brand Voice Lite. Главное преимущество в том, что ей достаточно от 20 минут записи, чтобы создать синтез голоса. Раньше для этого требовались десятки часов материалов. Собрать маленький обучающий датасет намного проще — так технология становится доступна куда большему числу людей.
Цели у проекта были такие:
Уменьшить объём обучающего датасета, сохранив текущее качество синтеза (по метрике side by side).
Добиться того, чтобы обучение занимало адекватное количество времени: не больше 12 часов.
Приблизить синтез к исходному голосу из записи.
Кроме side by side (аналог A/B-тестирования), в качестве метрики мы использовали собственную разработку — QQ, или quality questions. Это набор бинарных вопросов о качестве звука. Например, есть ли шумы на аудио, нет ли у диктора проблем с произношением и т. д.
Выбрать наиболее эффективную модель и её конфигурацию помогли тестовые датасеты разной длительности, записанные на разные устройства — от телефона до ноутбука. Всё это для того, чтобы лучше представить себе будущих клиентов.
Как попасть в команду
Чтобы работать в нашей команде, нужно владеть базовым стеком технологий:
ML-разработчик в работе использует Python®, PyTorch®, а для оптимизации инференса — NVIDIA Triton™, vLLM, SGLang и TensorRT™-LLM.
Основные инструменты инженера Data Science — Python, SQL, сервисы для разметки данных и построения метрик качества.
DevOps-инженер работает с Docker®, Kubernetes®, Temporal и CI/CD-пайплайнами.
Бэкенд-стек — Go, Java™, C++, а также S3, Redis®, Kafka® и PostgreSQL.
При этом для нас важнее фундаментальные знания, чем владение конкретными инструментами. Технологии быстро меняются, а теоретическая база, которая лежит в их основе, — нет. Нам нужны инженеры, которые готовы не только использовать готовые решения, но и вносить в них изменения при необходимости. Например, наша команда контрибьютит в такие проекты, как SGLang и MoonCake.
Важны и софт-скиллы. Например, в команде много по-хорошему ленивых людей: тех, кто видит закономерности и убирает человека из рутинных процессов, которые можно автоматизировать за вечер. А ещё мы очень ценим в коллегах исследовательские черты. Например, способность поменять взгляд команды на проблему и готовность искать что-то новое. И умение очень быстро обучаться применению разных инструментов.
Большинство продуктов вокруг ML можно условно поделить на два типа:
Продукты, для которых достаточно существующих алгоритмов, но важен качественно выстроенный процесс обработки данных. Например, достоверная оценка качества работы модели. Для таких продуктов требуются специалисты, способные видеть больше, чем алгоритмы, и предлагать оптимальные способы построить пайплайны.
Проекты, невозможные без создания новых технологий. Новые задачи появляются очень быстро — нам нужны те, кто сможет найти для них эффективные решения.
Резюмируем
Направление ML — одно из самых быстрорастущих в IT: спрос на специалистов по машинному обучению за последние годы вырос кратно, и мы это чувствуем по найму. Нам нужны не просто программисты, а инженеры с крепкой математической базой, исследовательским мышлением и опытом работы с данными — именно такие люди двигают наши продукты вперёд.
В нашей команде можно пройти весь путь: от подготовки датасетов до вывода готовых сервисов в продакшен. С одной стороны, мы растим будущих коллег внутри: сотрудничаем с вузами, приглашаем студентов поработать над настоящими задачами и по итогам выбираем лучших выпускников. С другой — активно ищем новых опытных сотрудников снаружи.
Если вам интересно развивать навыки на пересечении исследований, инженерии и продуктовой разработки — будем рады видеть вас в команде.