От сырых данных до готового решения: как устроена работа ML-специалистов в Yandex Cloud

Сотни терабайтов данных и одна команда, превращающая их в ИИ-продукты более чем для 40 тыс. клиентов. Руководитель ML‑команды Yandex Cloud Василий Ершов рассказывает, как устроен путь от датасета до готового сервиса и кто за это отвечает.

17 июня 2026 г.

15 минут чтения

Краткий пересказ YandexGPT

ML-команда Yandex Cloud развивает платформу Yandex AI Studio, которая объединяет ИИ- и ML-сервисы и помогает превращать идеи в высоконагруженные сервисы.
На платформе Yandex AI Studio доступны различные генеративные модели, включая Alice AI LLM, DeepSeek V4 Flash, Qwen3-235b и другие.
Команда работает с сотнями терабайт данных и развивает платформу, на которой уже более 30 генеративных нейросетей и свыше 40 тыс. клиентов.
В команде есть разные роли: ML-разработчики, инженеры Data Science, DevOps-инженеры, бэкенд-разработчики. Они часто совмещают несколько функций.
Процесс создания модели включает подготовку данных, обучение модели, масштабирование обучения, выбор лучшей модели и сборку продукта.
Yandex SpeechKit — один из ключевых продуктов, который распознаёт более 15 языков и способен генерировать речь. Одна из последних функций — Brand Voice Lite, которая позволяет создать синтез голоса по 20-минутной записи.
Для работы в команде важно иметь фундаментальные знания, а не только владение конкретными инструментами, а также обладать софт-скиллами, например умением автоматизировать рутинные процессы и исследовательским мышлением.
Команда активно ищет новых сотрудников и сотрудничает с вузами для поиска талантливых выпускников.

Тезисы сформулированыYandexGPT

Спасибо!

ML-команда Yandex Cloud: чем мы занимаемся

Наша команда развивает Yandex AI Studio — платформу, которая объединяет ИИ- и ML-сервисы Yandex Cloud и помогает с помощью готовых инструментов превращать идеи в высоконагруженные сервисы. На платформе есть всё для интеграции, адаптации и быстрой сборки кастомных решений из готовых компонентов.

Спектр задач ML-специалистов в нашей команде очень разнообразный. Мы создаём модели, подбираем и обрабатываем данные для их обучения, оптимизируем и развиваем получившиеся архитектуры. А ещё собираем отдельные ML-технологии в комплексные продукты, помогаем внедрять и адаптировать их для реальных бизнес-задач.

Наша цель — построить лучшую публичную ИИ‑платформу для разработки приложений и агентов в России для всех, кто хочет использовать ML в бизнесе.

На платформе Yandex AI Studio уже сегодня доступны Alice AI LLM, DeepSeek V4 Flash, Qwen3-235b и другие генеративные модели, в том числе с открытым исходным кодом. Помимо этого, мы развиваем собственные разработки Яндекса, например:

сервис речевой аналитики Yandex SpeechSense — один из ключевых продуктов платформы для бизнеса;
комплекс технологий для синтеза и распознавания речи Yandex SpeechKit;
инструмент машинного перевода для интеграции в приложения и веб-сервисы Yandex Translate;
продукт Yandex Vision OCR для извлечения текста из изображений и документов.

Наша команда работает с сотнями терабайт данных для обучения моделей и развивает платформу, на которой уже больше 30 генеративных нейросетей, свыше 40 тыс. клиентов, а потребление токенов через API в 2025 году достигло 234 млрд. Каждый день на платформе запускается более 200 уникальных ИИ-агентов.

Кто делает ML в Yandex Cloud

ML-разработчик

Специалист, который может вести полный цикл машинного обучения: разработать модель, подготовить данные для её обучения, создать ML-алгоритмы и адаптировать их для решения прикладных задач.

В обязанности ML-разработчиков входит продакшен-интеграция моделей, оптимизация инференса, взаимодействие с DevOps и разработка API-интерфейсов: то есть не только подготовка модели, но и вывод в работу.

Инженер Data Science

Работает на стыке ML, программирования и статистики. Такой специалист помогает внедрять и адаптировать ML-модели для реальных пользовательских сценариев: собирает, размечает и анализирует данные, определяет метрики качества.

Эти ребята анализируют входные и выходные данные, с которыми работают ML-модели: проводят исследования, готовят прототипы и строят инструменты, по которым мы можем улучшать качество сервисов. Например, именно они помогают ответить на вопрос «что такое хороший синтез речи?».

DevOps-инженер

Отвечает за развёртывание и автоматизацию процессов разработки. Настраивает пайплайны для сборки и выкатки сервисов, управляет инфраструктурой и помогает командам быстрее доставлять изменения в продакшен.

Именно DevOps-инженеры выстраивают процессы так, чтобы путь от коммита до продакшена был коротким, предсказуемым и надёжным.

Бэкенд-разработчик

Создаёт новые и совершенствует существующие ML‑сервисы и внедряет передовой искусственный интеллект в реальный бизнес.

Бэкенд-разработчики превращают технологии в готовые решения. А ещё — делают наши ИИ-продукты удобными и востребованными.

В нашей команде довольно стандартные роли, но на практике границы между ними размыты: инженеры часто совмещают несколько функций в разных пропорциях: у кого-то фокус больше на исследованиях, у кого-то — на инфраструктуре, у кого-то — на данных.

От датасета до продакшена: как рождается модель

Лучше всего понять, как эти роли работают вместе, можно на конкретном примере. Вот что происходит, когда мы создаём нейросетевую модель для Yandex AI Studio.

Распределение подготовки данных и инфраструктуры для их обработки

Цель этого этапа — собрать данные для обучения модели. Например, настроить регулярную разметку или разово отфильтровать десятки терабайт текстов, чтобы найти, какие сигналы помогут модели обучаться лучше всего.

Для этого ML-разработчики и инженеры Data Science смотрят на наши собственные датасеты, проверяют наборы данных в открытом доступе, изучают, что ещё подойдёт для задачи (иногда помогает генерация синтетического датасета).

ML-разработчики при этом больше программируют, а инженеры Data Science:

помогают разработчикам получить надёжные инструменты для разметки и подготовки данных;
консультируют продакт-менеджеров и других людей, принимающих решения, подойдёт ли модель для их задач и как лучше её использовать.

Обучение модели после подготовки данных

Затем ML-разработчики настраивают взаимодействие с кластером, где хранятся сырые данные: пишут код для обучения, профилируют и оптимизируют его. И только потом начинают тренировать модель.

Задача на этом этапе — получить работающую модель. Но обучать её не так просто, как кажется: ошибки в процессе — это почти всегда исследовательская задача. Внешне всё выглядит одинаково: в какой-то момент модель начинает выдавать NaN вместо предсказаний. А вот причины могут быть самыми разными. Ошибка в коде обучения — первое, что идём проверять. Но исправить типовые ошибки, которые разбирают со студентами в вузах, далеко не всегда достаточно: проблема может лежать в библиотеках, которые мы используем, а иногда оказывается, что дело вообще не в модели, а в данных, и нужно возвращаться на предыдущий этап. Бывает и так, что приходится аккуратно подбирать схему обучения или инициализацию параметров.

И ошибки — только полбеды. Модель может успешно обучиться, но вести себя не совсем так, как нужно. Например, синтез речи в одном проценте случаев начинает «приклеивать» окончание одного слова к началу следующего. Кто виноват — модель или данные? Чаще всего данные, но иногда причина в том, как мы моделируем целевую зависимость. Всё это нужно найти, разобраться и починить.

Масштабирование обучения

Хороший ML-исследователь генерирует десятки и сотни гипотез о том, как улучшить модель, — и каждую нужно проверить, то есть обучить заново. Исправление ошибок тоже часто сводится к переобучению. Ждать полгода, пока завершится один эксперимент, мы не готовы. При этом сегодня одного сервера для обучения в приемлемые сроки может не хватить — приходится оптимизировать код обучения и адаптировать его для работы на нескольких серверах одновременно.

Выбор лучшей модели

Результат обучения — десятки, а иногда и сотни моделей. Все они обладают разным балансом скорости работы, качества и стоимости. Нужно выбрать оптимальное соотношение, написать код интерфейса, оценить, сколько ресурсов потребуется на разных типах оборудования, и затем подготовить модель к внедрению в продакшен. Например, убедиться, что она выдерживает нужный лимит RPS.

Сборка продукта

Готовая модель — это не продукт, а деталь его реализации. Клиенту мы предоставляем стабильный публичный API — например, Responses API для работы с LLM или API SpeechKit для синтеза и распознавания речи — либо интерфейс, в котором модели нет в явном виде, как в SpeechSense. Чтобы всё это заработало, нужно встроить модель в продукт: настроить балансировщик, политики масштабирования, внедрить observability — и подключить приватный сервис к публичному контракту. Только после этого модель становится продуктом.

Yandex SpeechKit: как мы научили сервис клонировать голос за 20 минут

Весь этот путь — от датасета до продакшена — мы проходим каждый раз, когда развиваем наши продукты. Один из них, Yandex SpeechKit, полностью создаётся внутри ML-команды Yandex Cloud — мы адаптируем опыт и технологии голосового помощника Алиса, разрабатываем собственные алгоритмы и комбинируем это в продукт. Сегодня Yandex SpeechKit — это комплекс технологий, который распознаёт более 15 языков и способен генерировать речь. В 2025 году SpeechKit синтезировал более 185 млн минут речи.

Одна из последних фич — Brand Voice Lite. Главное преимущество в том, что ей достаточно от 20 минут записи, чтобы создать синтез голоса. Раньше для этого требовались десятки часов материалов. Собрать маленький обучающий датасет намного проще — так технология становится доступна куда большему числу людей.

Цели у проекта были такие:

Уменьшить объём обучающего датасета, сохранив текущее качество синтеза (по метрике side by side).
Добиться того, чтобы обучение занимало адекватное количество времени: не больше 12 часов.
Приблизить синтез к исходному голосу из записи.

Кроме side by side (аналог A/B-тестирования), в качестве метрики мы использовали собственную разработку — QQ, или quality questions. Это набор бинарных вопросов о качестве звука. Например, есть ли шумы на аудио, нет ли у диктора проблем с произношением и т. д.

Выбрать наиболее эффективную модель и её конфигурацию помогли тестовые датасеты разной длительности, записанные на разные устройства — от телефона до ноутбука. Всё это для того, чтобы лучше представить себе будущих клиентов.

Как попасть в команду

Чтобы работать в нашей команде, нужно владеть базовым стеком технологий:

ML-разработчик в работе использует Python^®, PyTorch^®, а для оптимизации инференса — NVIDIA Triton^™, vLLM, SGLang и TensorRT^™-LLM.
Основные инструменты инженера Data Science — Python, SQL, сервисы для разметки данных и построения метрик качества.
DevOps-инженер работает с Docker^®, Kubernetes^®, Temporal и CI/CD-пайплайнами.
Бэкенд-стек — Go, Java^™, C++, а также S3, Redis^®, Kafka^® и PostgreSQL.

При этом для нас важнее фундаментальные знания, чем владение конкретными инструментами. Технологии быстро меняются, а теоретическая база, которая лежит в их основе, — нет. Нам нужны инженеры, которые готовы не только использовать готовые решения, но и вносить в них изменения при необходимости. Например, наша команда контрибьютит в такие проекты, как SGLang и MoonCake.

Важны и софт-скиллы. Например, в команде много по-хорошему ленивых людей: тех, кто видит закономерности и убирает человека из рутинных процессов, которые можно автоматизировать за вечер. А ещё мы очень ценим в коллегах исследовательские черты. Например, способность поменять взгляд команды на проблему и готовность искать что-то новое. И умение очень быстро обучаться применению разных инструментов.

Большинство продуктов вокруг ML можно условно поделить на два типа:

Продукты, для которых достаточно существующих алгоритмов, но важен качественно выстроенный процесс обработки данных. Например, достоверная оценка качества работы модели. Для таких продуктов требуются специалисты, способные видеть больше, чем алгоритмы, и предлагать оптимальные способы построить пайплайны.
Проекты, невозможные без создания новых технологий. Новые задачи появляются очень быстро — нам нужны те, кто сможет найти для них эффективные решения.

Резюмируем

Направление ML — одно из самых быстрорастущих в IT: спрос на специалистов по машинному обучению за последние годы вырос кратно, и мы это чувствуем по найму. Нам нужны не просто программисты, а инженеры с крепкой математической базой, исследовательским мышлением и опытом работы с данными — именно такие люди двигают наши продукты вперёд.

В нашей команде можно пройти весь путь: от подготовки датасетов до вывода готовых сервисов в продакшен. С одной стороны, мы растим будущих коллег внутри: сотрудничаем с вузами, приглашаем студентов поработать над настоящими задачами и по итогам выбираем лучших выпускников. С другой — активно ищем новых опытных сотрудников снаружи.

Если вам интересно развивать навыки на пересечении исследований, инженерии и продуктовой разработки — будем рады видеть вас в команде.

Посмотреть вакансии

Василий Ершов

Руководитель ML-команды

В этой статье:

ML-команда Yandex Cloud: чем мы занимаемся
Кто делает ML в Yandex Cloud
От датасета до продакшена: как рождается модель
Yandex SpeechKit: как мы научили сервис клонировать голос за 20 минут
Как попасть в команду
Резюмируем

От сырых данных до готового решения: как устроена работа ML-специалистов в Yandex Cloud

17 июня 2026 г.

15 минут чтения

От сырых данных до готового решения: как устроена работа ML-специалистов в Yandex Cloud

ML-команда Yandex Cloud: чем мы занимаемся

Кто делает ML в Yandex Cloud

ML-разработчик

Инженер Data Science

DevOps-инженер

Бэкенд-разработчик

От датасета до продакшена: как рождается модель

Распределение подготовки данных и инфраструктуры для их обработки

Обучение модели после подготовки данных

Масштабирование обучения

Выбор лучшей модели

Сборка продукта

Yandex SpeechKit: как мы научили сервис клонировать голос за 20 минут

Как попасть в команду

Резюмируем

Для работы

Почему Yandex Cloud

Сообщество

Компания

Контакты

Мобильное приложение