Рынок больших данных в облаке: разбираем тренды индустрии

Вместе с нашими экспертами разбираем, что нового появляется на глобальном рынке данных и как это отражается на развитии облачной платформы и потреблении пользователей.

Облачные технологии всё глубже проникают в самые популярные дата-сценарии: от построения единого хранилища данных до разработки рекомендательных систем и геоаналитики. Потребление сервисов Yandex Cloud для таких задач выросло вдвое за первое полугодие 2023 года.

Чтобы помогать клиентам эффективно использовать технологии для сбора и обработки данных, мы регулярно следим за изменениями индустрии.

Тренд № 1. Гибкая платформа данных

Количество задач по работе с данными в компаниях растёт, увеличивается штат аналитиков. При этом бизнесу важно быстро запускать дата-проекты и быть максимально адаптивным к любым изменениям, связанным в том числе со сменой технологического стека. В таких условиях компании чаще начинают использовать понятные и знакомые для разработчиков и дата-инженеров open-source-технологии, так как на освоение закрытых инструментов нужно время. Кроме этого, для работы с данными выбирают облако как гибкую среду, где эти технологии можно получить в виде управляемых сервисов и комбинировать их для построения корпоративных хранилищ и рекомендательных систем.

А что в Yandex Cloud?

Платформа данных Yandex Cloud включает более 20 сервисов для полного цикла работы с данными. Мы видим, что наши пользователи, в частности крупные компании, действительно стали чаще использовать продукты платформы комплексно. Это сразу несколько сервисов для управления популярными базами данных: ClickHouse®, PostgreSQL, Greenplum®, Mongo, Redis. Вместе с ними используют как сервисы для переноса данных (например, Data Transfer, Yandex Data Proc), так и охлаждение данных в Object Storage. Кроме этого, к стеку для сбора, управления и хранения данных добавляют сервисы визуализации и машинного обучения. Так, компания «ДелоТех» запустила большой аналитический проект по созданию единого корпоративного хранилища данных (DWH — Data Warehouse) и внедрению новой BI-системы. Использовали как раз интеграцию Yandex Managed Service for ClickHouse® и Yandex DataLens, которые входят в состав экосистемы облачной платформы.

Все сервисы платформы данных Yandex Coud

«Нам важно обеспечивать максимальную доступность технологий для пользователей. В Yandex Cloud управляемые сервисы для работы с данными разработаны на основе open-source-решений, и их можно развернуть в IT-инфраструктуре компаний по кнопке. Кроме этого, мы постоянно добавляем новые продукты, чтобы бизнес избегал vendor lock-in и мог закрывать на платформе любые задачи, в том числе строить ETL- и BI-процессы».

Тренд № 2. Фокус на безопасности и контроле данных

С одной стороны, развитие дата-сценариев усиливает общую безопасность информационных систем. Например, этому способствует прогнозная аналитика, которая, по оценкам экспертов Allied Market Research, достигнет объёма в более 35 млрд долларов к 2027 году. С её помощью компании могут создавать поведенческие профили клиентов и внутренних пользователей, чтобы предугадывать слабые места для взлома систем хакерами. С другой стороны, напротив, чем больше неструктурированных и структурированных данных становится, тем сложнее обнаруживать угрозы и оценивать соответствие нормативным требованиям.

Эти опасности стимулируют регуляторов активнее развивать законодательство по защите разных типов данных и IT-систем. Так, в июле 2023 года ФСТЭК опубликовал требования по безопасности информации к системам управления базами данных. Сами разработчики инфраструктурных решений и ПО также усиливают меры по обеспечению безопасности и в части приватности, и в части развития практических средств защиты. Google Cloud назвал одним из главных вызовов 2023 года создание автоматизированного контроля за данными.

А что в Yandex Cloud?

Платформа не только комплексно работает с приватностью и защищённостью инфраструктуры, но и регулярно расширяет возможности шифрования для отдельных СУБД. Так, в Yandex Managed Service for PostgreSQL и Yandex Managed Service for Greenplum® есть возможность шифровать данные штатными средствами. Это позволяет администраторам баз данных хранить определённые столбцы данных в более защищённом виде.

Все соединения с СУБД и резервные копии содержимого баз шифруются при помощи протокола TLS и технологией GPG соответственно. Кроме того, базы разных клиентов Yandex Cloud полностью изолированы друг от друга. Контроль доступа к кластерам осуществляется в соответствии с принципом наименьших привилегий, при этом платформа сама управляет уязвимостями, отслеживает инциденты и безопасность используемых компонентов в сервисе.

Также специалисты Yandex Cloud разрабатывают готовые сценарии для служб информационной безопасности, в частности по логированию. Например, рассказывали, как за несколько шагов настроить выгрузку аудитных логов из Audit Trails в Managed Service for OpenSearch.

Тренд № 3. Обогащение данных за счёт открытых систем и обмена

На большом форуме Ассоциации больших данных First Russian Data Forum 2023 отметили, что российские компании начнут активнее обмениваться данными и запускать на их основе новые продукты и сервисы. При этом речь идёт о сквозном обмене данными как внутри одной компании, так и за её пределами с другими организациями. Например, банку, чтобы предложить клиентам новый финансовый продукт, нужны и данные о текущих финансовых продуктах, и данные о поведении пользователя, и данные о комфортном для него способе коммуникации. И это всё равно останется лишь фрагментом его цифрового профиля.

Сейчас понятие Data Fusion (слияние данных) расширилось. Это не только одновременное использование разных источников и массивов данных, но и применение для их обработки сразу нескольких технологий. При этом всё чаще компании реализуют практики Data Fusion в инфраструктуре облачных провайдеров. Объединение данных в облаке предлагает готовые преобразования как для пакетной обработки, так и для обработки в режиме реального времени.

А что в Yandex Cloud?

Платформа участвует в глобальных научных проектах Data Fusion. На базе сервисов Yandex Cloud Сеченовский университет разрабатывает цифровую платформу больших медицинских данных, которая будет содержать все накопленные за последнее 10-летие данные о пациентах клинического центра — диагноз, результаты взятых анализов, обработанные снимки КТ, МРТ и других проведённых с пациентом исследований. В базу будут включены обезличенные и оцифрованные данные около 5,5 млн пациентов. Также Yandex Cloud может стать единой площадкой для обмена данными между несколькими карбоновыми полигонами разных регионов России в совместном проекте с МГУ. Это поможет разным научным группам делиться актуальными данными для изучения углеродного баланса.

Тренд № 4. Запрос на простоту работы с BI-инструментами

По мнению экспертов компании Navicon, в 2022 году российский рынок бизнес-аналитики вырос лишь на 10–12%, а по итогам 2023 года рост составит уже 30–40%. Если в прошлом году компании занимали выжидательную позицию в части использования российских BI-инструментов, то теперь они начинают активно тестировать и внедрять продукты.

Несмотря на перекраивание рынка, требования к BI-системам тоже растут. Нужен качественный пользовательский интерфейс, доступная техподдержка, возможность получать данные в режиме реального времени. А самое важное — компаниям нужны инструменты для снижения порога входа в технологию. В связи с этим появляются образовательные курсы от поставщиков технологий, образуются новые комьюнити.

А что в Yandex Cloud?

Количество пользователей сервиса визуализации и анализа данных Yandex DataLens увеличилось в 2,9 раза. Команда активно вкладывается в обучение и развитие экспертизы сообщества вокруг продукта. За последние полгода вышли 9 модулей бесплатного курса по DataLens на Яндекс Практикуме. Кроме того, мы продолжаем развивать и описывать для пользователей актуальные сценарии, в том числе для быстрой аналитики. Так, мы рассказали, как оптимизировать загрузку дашборда DataLens на основе таблицы из 150 миллионов строк в ClickHouse.

author
Алексей Лузан
Архитектор продуктов управления данными

«Растёт не только общее число пользователей DataLens, но и в целом масштабы облачных проектов BI. DataLens сегодня используют не только небольшие команды и отдельные департаменты, но и крупные заказчики с тысячами пользователей. Начало работы в несколько кликов (а не месяцев), открытое сообщество экспертов, бесплатные курсы — всё это делает DataLens самым популярным BI-решением на рынке для задач аналитики любых масштабов».

Тренд № 5. Демократизация машинного обучения для разных ролей и индустрий

В 2023 году компании активно начали использовать массивы данных для обучения моделей машинного обучения. Конечно, отдельные эксперименты и проекты в крупных организациях были и до этого, но с прогрессом ML внедрение моделей стало уже обязательным этапом в дата-пайплайнах. Благодаря этому рынок ML растёт огромными темпами, среднегодовой темп роста превышает 40%. Из интересного: качественное развитие NLP (обработка естественного языка) позволило применять их и для аналитических проектов. NLP позволяет компьютерам понимать, интерпретировать и генерировать человеческий язык, обеспечивая более эффективную коммуникацию и анализ текстовых данных. Так, NLP позволяет организациям анализировать отзывы клиентов, данные социальных сетей и онлайн-обзоры, чтобы получить представление о настроениях и мнениях клиентов.

Ещё один тренд — это более тесная интеграция в работе дата-инженеров и ML-специалистов. В рамках одного проекта дата-инженеры занимаются подготовкой датасетов, дата-сайентисты — обучением моделей, DevOps-специалисты настраивают рабочие среды, аналитики следят за стабильной работой полученного сервиса, администраторы со стороны бизнеса контролируют затраты. Всем этим специалистам необходимо взаимодействовать в рамках проекта: ставить цели и отслеживать текущее состояние сервиса, делиться результатами работы.

А что в Yandex Cloud?

Мы тоже поддерживаем тренд демократизации и делаем сервис для разработки ML-моделей Yandex DataSphere доступнее и проще для разных групп пользователей. В сервисе доступны все необходимые инструменты для полного цикла разработки машинного обучения в облаке. С Yandex DataSphere можно не думать о вычислительных ресурсах для обучения тяжёлых моделей, о разработке MLOps-процессов, а публикация и развёртывание моделей максимально упрощены.
Кроме этого, сервис интегрирован с другими инструментами платформы данных. Наши пользователи хранят данные в облаке, используют такие инструменты, как Yandex Data Proc для их обработки, а затем на их основе обучают ML-модели. В этом процессе все специалисты работают в едином удобном интерфейсе, что позволяет быстрее получать важные инсайты для бизнеса и ускорять time-to-market новых продуктов.

Кроме этого, Yandex Cloud делает тестирование машинного обучения проще для растущих в этой области индустрий. Например, для промышленных предприятий, которые находятся на раннем этапе облачной трансформации. Теперь разработчики смогут использовать ресурсы облака для обучения моделей через интерфейс командной строки или из локальных IDE в рамках DataSphere. Это позволит вести как локальную разработку с подключением облачных вычислений, так и организовать гибридный формат работы, передавая в облако только ресурсозатратный код.

author
Павел Дубинин
Продуктовый менеджер Yandex DataLens

«Мы видим, что экспертность в машинном обучении у клиентов Yandex Cloud непрерывно растёт. В DataSphere постоянно приходят новые пользователи — за прошедший год сервис вырос в 1,5 раза. Это радует и одновременно создаёт новые амбициозные вызовы для нас. Тренды меняются очень быстро, а вместе с ними облако становится ещё гибче в части настроек, поддержки любых нагрузок под разработку моделей, интеграции с дата-сервисами и не только».

Подпишитесь на наш канал в Telegram и следите за новостями Yandex Cloud.

author
Артем Макеенок
Ведущий менеджер продукта Yandex DataSphere

Вакансии

Все актуальные вакансии Yandex Cloud

Мероприятия

Календарь событий Yandex Cloud

Обучение

Освойте инструменты Yandex Cloud
Рынок больших данных в облаке: разбираем тренды индустрии
Войдите, чтобы сохранить пост