При размещении ML-проекта в DataSphere не нужно настраивать среду машинного обучения, что позволяет оперативно начать работу над проектом. Выбранная нами конфигурация при расчётах 8 часов 5 дней в неделю обойдётся в 641 433 рубля в месяц. При этом не нужно администрировать серверы и платить за простой оборудования. Также клиент получает полностью готовую среду с широким набором нативных инструментов разработки и возможностями оптимального хранения и быстрого доступа к данным с помощью сервисов Yandex Cloud.

On-premise или облако? Сравниваем инфраструктуру для ML-проектов
Рассказываем об особенностях и стоимости развёртывания ML-проектов на физической инфраструктуре, на виртуальных машинах в облаке и с использованием сервиса для ML-разработки полного цикла.
Для специалистов Data Science сейчас важны возможности удалённой и командной работы, отказоустойчивость инфраструктуры и возможности масштабирования. Но у облаков есть и специфичные для машинного обучения преимущества. Облачные платформы предоставляют широкий выбор железа, в том числе наиболее мощных конфигураций. Покупка такой физической инфраструктуры потребовала бы очень больших вложений, при этом физические серверы утилизируются не всегда оптимально, простаивая часть времени. Кроме того, оборудование нужно разместить в подготовленном месте и постоянно обслуживать, а облачная платформа берёт работу с оборудованием на себя и гарантирует высокий уровень SLA. Также облачная инфраструктура позволяет отказываться от ресурсов, когда они не нужны.
Сколько стоит облачное и on‑premise‑развёртывание?
В Yandex Cloud ML-проект можно развернуть как самостоятельно, на виртуальных машинах Compute Cloud, так и в облачном сервисе для ML-разработки полного цикла DataSphere. DataSphere предоставляет понятный веб-интерфейс, привычные IDE, технологию бессерверных вычислений и позволяет использовать различные конфигурации вычислительных ресурсов Yandex Cloud.
Мы решили сравнить стоимость размещения on-premise и двух облачных вариантов развёртывания.
Оn-premise | Compute Cloud | DataSphere | |
---|---|---|---|
Покупка оборудования | ≈ 8 000 000 ₽ | — | — |
Электроэнергия, ежемесячно | ≈ 40 000 ₽ | — | — |
Обслуживание, ежемесячно | ≈ 30 000 ₽ | — | — |
Администрирование, ежемесячно | ≈ 200 000 ₽ | — | — |
Использование оборудования, ежемесячно | — | 2 478 240 ₽ | — |
Настройка среды для ML, ежемесячно | ≈ 50 000 ₽ | ≈ 50 000 ₽ | — |
Вычисления по 8 часов 5 дней в неделю, ежемесячно | — | — | 641 433 ₽ |
Для расчётов возьмём сервер с 8 высокопроизводительными видеокартами Nvidia Tesla A100 80 GB. Покупка этого оборудования для решения on-premise обойдётся компании более чем в 8 000 000 рублей, причём единовременно.
Ежемесячные траты на физическую инфраструктуру включат в себя:
-
затраты на электричество (приблизительно 40 000 рублей);
-
обслуживание (приблизительно 30 000 рублей);
-
администрирование серверов (приблизительно 200 000 рублей);
-
настройка среды для машинного обучения (приблизительно 50 000 рублей).
Итоговая стоимость одного месяца работы решения on-premise составит 320 000 рублей.
При размещении на виртуальных машинах Compute Cloud не нужно тратиться на электричество, закупку, обслуживание и администрирование серверов. Достаточно только настроить среду для машинного обучения, перенести данные и оплатить использование оборудования облачной платформы. Месяц использования конфигурации с 8 видеокартами Nvidia Tesla A100 80 GB обойдётся в 2 478 240 рублей, а итоговая стоимость размещения составит 2 528 240 рублей.
При использовании виртуальных машин удаётся избежать первоначальных трат на покупку железа и последующих расходов на его амортизацию, а также временных затрат на доставку, администрирование и обслуживание. Кроме того, закупка новых физических серверов и видеокарт, их доставка и ввод в эксплуатацию каждый раз требуют много времени, а масштабировать конфигурацию в Compute Cloud можно всего за пару кликов. Также проще решить вопрос отказоустойчивости: при облачном развёртывании можно сразу же выбрать хосты в различных зонах доступности.
Командный подход и нативные инструменты ML‑разработки
Потребности специалистов Data Science глубже и шире, чем просто доступные и современные вычислительные мощности. Важно, чтобы среда предоставляла нативные инструменты разработки, широкие возможности работы с данными, инструменты командной работы и гибкую аналитику. Желательно, чтобы сервис имел набор инструментов для всего пайплайна разработки, от сбора и хранения данных до обучения и инференса моделей.

Преимущества облачного сервиса перед развёртыванием on-premise:
-
Отсутствие конкуренции за ресурсы. Специалистам Data Science не приходится ждать своей очереди для того, чтобы приступить к вычислениям. Облачное решение позволяет обращаться к ресурсам по необходимости и автоматически освобождать их, когда вычисления завершены.
-
Облегчение коммуникации и онбординга сотрудников. Не нужно настраивать окружение на каждой новой машине, интегрированная среда разработки и ресурсы всегда под рукой. Кроме того, DataSphere содержит такие инструменты, как проекты и сообщества, что позволяет создавать отдельные рабочие места для каждого из сотрудников и обмениваться ресурсами.
-
Усовершенствование управления разработкой. С помощью сообществ можно централизованно управлять проектами, а гибкая система ролей поможет отслеживать состояние сервиса в продакшене, оценивать расходы и управлять ими напрямую внутри DataSphere.
-
Упрощение интеграции с хранилищами и базами данных. В DataSphere нативная интеграция с сервисами Data Platform позволяет подключаться к базам данных, хранилищам Object Storage, кластерам сервиса Yandex Data Proc и управлять ими напрямую в интерфейсе.
Облачное развёртывание ML-проекта может сэкономить время разработчиков и менеджеров, оптимизировать финансовые затраты, гарантирует высокий уровень отказоустойчивости и даёт команде специалистов Data Science полезные инструменты для совместной работы над проектами.
Проекты, реализованные с помощью DataSphere
Истории о том, как компании решают бизнес-задачи с помощью DataSphere.
В этой статье мы расскажем: