Как DataSphere помогает обучать студентов работе с ML-моделями

Ко Дню студента рассказываем, как университеты и учебные центры используют в образовательных проектах и для обучения студентов сервис DataSphere — инструмент для ML-разработки.

Во многих вузах есть свои вычислительные центры, и для решения классических задач разработки, например программирования на C++, их обычно достаточно. Но для работы с большими данными и обучения ML-моделей (например, расчёта автомобильного трафика, предсказания погоды, разработки модели по созданию иллюстраций) требуется большая вычислительная мощность. На обычных компьютерах организовать полноценное обучение ML-моделей очень сложно, нужны графические процессоры (GPU).

Если в университете есть свой кластер с GPU, то студент или преподаватель может обучить модель на нём. Но на такой кластер обычно длинная очередь из сотрудников и учеников. Кроме того, далеко не во всех вузах есть мощный вычислительный центр, а бюджет часто не позволяет арендовать промышленные серверы на стороне. Изучать нейросети только теоретически — недостаточно. Обучая ML-модели на практике, студенты могут узнать много нюансов, которые невозможно охватить на лекциях и теоретических занятиях. Например, понять, в чем отличия различных фреймворков, когда и какой лучше использовать, узнать про их ограничения и преимущества можно только поработав с ними.

Проблему нехватки больших вычислительных мощностей решают инструменты для работы с ML в облаке, такие, как Yandex DataSphere. В DataSphere студент может обучать сложные ML-модели. Например, тонко настраивать модели генерации изображений Stable Diffusion для отрисовки портретов, или обучить языковую модель, чтобы она отвечала на письма от его имени.

Yandex DataSphere — это сервис для ML-разработки, который позволяет обучать ML-модели на виртуальных машинах с GPU и быстро запускать модели в эксплуатацию. При этом не нужно самостоятельно создавать и обслуживать виртуальные машины: сервис «из коробки» создаст необходимые конфигурации и легко настраивается. В DataSphere есть привычная среда для интерактивной разработки Jupyter Notebook, а также такие пакеты для анализа данных и машинного обучения, как TensorFlow, Keras, PyTorch и NumPy.

«Мы работаем с DataSphere для решения таких задач как тренировка нейронных сетей для получения лучшего качества генерации фотографий, звука и т. д. Инструмент используют в институте при практической отработке заданий и в совместных исследованиях. Особенно удобно работать в Yandex DataSphere с большими массивами данных, например, на установках класса мегасаейнс. Это такие сверхмощные научные комплексы, которые позволяют проводить уникальные исследования высокой степени сложности. Пример подобного проекта — обработка данных Большого андронного коллайдера, по которому ВШЭ взаимодействует с Европейской организацией по ядерным исследованиям (ЦЕРН)».

Как DataSphere помогает запускать образовательные проекты

DataSphere позволяет решать задачи, где:

  • Много данных. Работать с большими объёмами на локальных компьютерах неудобно, а в облачном хранилище достаточно места.

  • Нужно производить много вычислений. С DataSphere можно обучать модели в облаке, ненадолго выделяя необходимые ресурсы.

Среди успешных образовательных проектов, которые были выполнены с помощью DataSphere, — художественный проект «Кибернетическое бессмертие фидонета» школы дизайна Высшей школы экономики, а также проект по предсказанию урожая: над ним работали биофак МГУ, Центр имени Мичурина и Тамбовский государственный университет. Ещё были проект по предсказанию погодных аномалий в Тихом океане и проект по мониторингу экосистемы Байкала.

author
Денис Деркач
Директор института по прикладным исследованиям и разработкам Института ИИ и Цифровых наук ФКН НИУ ВШЭ

«С помощью DataSphere мы реализовали несколько крупных проектов. Например, студенты разработали нейросеть, которая распознает на складах QR-коды товаров, придумали модель прогнозирования продаж для маркетплейсов. В конце прошлого года наши студенты вместе со специалистами Yandex Cloud использовали Yandex DataSphere для проекта с Сайлюгемским национальным парком. Мы помогли ученым создать интеллектуальное решение, которое автоматически распознает животных на снимках, полученных с фотоловушек. Цель проекта — изучение редких животных, в том числе — краснокнижных снежных барсов».

Платформа Yandex Cloud запустила академическое сообщество в Telegram. Здесь можно общаться с коллегами и специалистами Yandex Cloud, задавать вопросы, делиться опытом. На GitHub есть репозиторий кода и набор обучающих материалов: видео, примеры, коды, скрипты, которые преподаватели использовали, чтобы собрать задания со студентов или автоматически завести в инструмент всю группу.

Как учебному заведению начать работать с DataSphere

author
Алексей Толстиков
Руководитель Школы анализа данных (ШАД)

DataSphere можно протестировать за тестовый грант. Кроме того, есть гранты на учебные программы.

Для обучения любой модели нужен датасет — набор размеченных данных. Преподаватель может заранее сформировать датасеты для обучения и загрузить их в облачное хранилище S3. А студенты подключат эти датасеты к своим проектам в DataSphere как директорию. Если хранить датасеты на внешнем жёстком диске или в вычислительном центре вуза, придётся вручную копировать данные — уйдёт много времени.

Если преподаватель хочет, чтобы студенты доработали код для обучения, свои заготовки он может хранить на GitHub. Тогда студенты смогут клонировать репозиторий преподавателя в DataSphere, внести изменения и отправить результат на проверку.

DataSphere также поддерживает групповую работу над одним проектом. Соответственно, преподаватель может дать один курсовой или дипломный проект нескольким студентам. Можно выкладывать общие задания для всех студентов, но скрыть их проекты друг от друга.

Ещё, если вы студент, можно прийти к преподавателю и попросить оформить аккаунт, запросить доступ на всех студентов. Для этого преподавателю нужно заполнить форму.

Будущее сервисов для работы с ML

Инструменты для работы с ML развиваются в двух направлениях:

  • Citizen Data Science — инструменты Low Code / No Code, которые позволяют специалисту с минимальными знаниями в области машинного обучения начать проводить эксперименты.

  • Инструменты MLOps, чтобы запускать эксперименты на основе кода. Например, чтобы выстроить пайплайн, контролирующий дрейф данных и запускающий переобучение модели при необходимости. Сейчас это можно запрограммировать, но представьте прекрасный мир будущего, где такие пайплайны будут описываться декларативно, а процессы, связанные с развёртыванием кода, будут запускаться автоматически.

Программа содействия образованию и науке в области Computer Science

Используйте бесплатно выделенные ресурсы для учебно-исследовательской работы по машинному обучению.

Напишите нам

Начать пользоваться Yandex Cloud

Тарифы

Узнать цены и рассчитать стоимость

Мероприятия

Календарь событий Yandex Cloud
Как DataSphere помогает обучать студентов работе с ML-моделями
Войдите, чтобы сохранить пост