Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • Машинное обучение
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Облачная терминология
    • Data Lake
    • Data Mart
    • OLAP
    • OLTP
    • Кластер
    • Реляционные базы данных
    • Колоночные базы данных

В этой статье:

  • Применение Data Lake
  • Примеры использования Data Lake
  • Как устроено озеро данных
  • Отличия Data Lake от хранилища данных
  • Преимущества Data Lake
  • Недостатки Data Lake
  • Советы по использованию Data Lake
  • Реализация Data Lake с помощью сервисов Yandex Cloud
  1. Базы данных
  2. Data Lake

Data Lake

Статья создана
Yandex Cloud
Обновлена 26 марта 2025 г.
  • Применение Data Lake
  • Примеры использования Data Lake
  • Как устроено озеро данных
  • Отличия Data Lake от хранилища данных
  • Преимущества Data Lake
  • Недостатки Data Lake
  • Советы по использованию Data Lake
  • Реализация Data Lake с помощью сервисов Yandex Cloud

Data Lake или Озеро данных — технология для получения и управления данными в разных форматах: в необработанном, неупорядоченном или, наоборот, структурированном или слабоструктурированном виде, в едином репозитории. Данные, которые можно хранить в озере:

Тип данных Примеры
Неструктурированные Текстовые документы, медицинские данные, изображения и видео
Слабоструктурированные Файлы в формате xml, edi, json и лог-файлы
Структурированные Строки и столбцы реляционных БД, таблицы Excel

Применение Data LakeПрименение Data Lake

Термин придуман в 2010-м году основателем компании Pentaho Джеймсом Диксоном. Описывая концепцию, он сравнил Data Lake и Data Mart. Витрины данных похожи на бутилированную воду — очищенную и упакованную. Озера данных — это открытые водоемы, в которые вода стекается из различных источников. В водоемы можно погружаться, а можно брать образцы с поверхности.

Так, озера данных удобны для сбора, хранения и обработки больших потоков информации, которая поступает непрерывно. Если грамотно их использовать, они станут надежным инструментом для следующих отраслей:

  • Телекоммуникации. Озера данных часто применяются для хранения и анализа данных о клиентах, трафике, сетевых устройствах и других факторах, которые влияют на бизнес телекоммуникационных компаний.
  • Нефтегазовая промышленность. Data Lake собирают терабайты данных и используют их в прогнозных моделях для разведки месторождений, управления цепочками поставок и техническим обслуживанием.
  • Медицина. База данных о пациентах, их диагнозах и способах лечения может быть использована для автоматизации диагностики.
  • Розничная торговля. Data lake позволяет хранить и анализировать данные о продажах, клиентах, инвентаре и других факторах, которые важны для розничных компаний.
  • Организации, занимающиеся финансами, страхованием, логистикой, закупками — любой бизнес, который обрабатывает огромные объемы данных, может извлечь выгоду из использования Data Lake.

Примеры использования Data LakeПримеры использования Data Lake

  • Омниканальный маркетинг.

    Приложения для смартфонов нередко собирают информацию о действиях пользователя, а озера данных позволяют оперативно ее получать. На основе этой информации маркетологи могут делать специальные предложения или персонализированные скидки. Так, стриминговый сервис Netflix, Inc. с помощью Data Lake получает данные о просмотренных пользователями фильмах и сериалах.

  • Цифровая цепочка поставок.

    В цифровой цепочке поставок часто необходимо собирать большие объемы данных разного формата. Например, информация из цеха, отчеты о доставке и оплате. Благодаря Data Lake производитель может объединить их. Одним из первых пользователей Data Lake в промышленности стал международный производитель техники General Electric.

  • Интернет вещей.

    Интернет вещей непрерывно расширяется за счет многочисленных датчиков, которые устанавливаются на транспортные средства. С помощью них отслеживается передвижение транспорта, безопасность его эксплуатации, расход топлива и другое. Озера данных популярны для сбора такой информации, поскольку не требуют ее структурирования. Например, сервис доставки и такси Uber с помощью Data Lake следит за своими автомобилями.

Как устроено озеро данныхКак устроено озеро данных

Озеро данных можно рассматривать как шаблон проектирования — формализованные рекомендации, которые можно использовать для решения распространенных проблем при разработке инфраструктуры. Четыре основные особенности устройства Data Lake:

  • Данные необработаны либо слабообработаны.
  • Большой срок хранения данных.
  • Есть возможность преобразования данных.
  • Поддерживаются разные схемы чтения данных.

Файлы в Data Lake хранятся на нескольких серверах, куда поступают из таких источников, как CRM-системы, социальные сети, интернет-магазины, датчики на производстве и прочих. Поступающей в озеро информации присваиваются метаданные: время поступления, источник, формат, структура и другое.

Все это может использоваться для извлечения данных в будущем, чтобы провести аналитику или обучить чему-то искусственный интеллект. Способы организации Data Lake могут включать HDFS, S3, Data Vault и распределенные файловые системы. Для размещения озера данных можно использовать как локальное хранилище, так и облачное.

Отличия Data Lake от хранилища данныхОтличия Data Lake от хранилища данных

У озера данных и хранилища данных есть существенные различия, которые надо учитывать при выборе способа хранения информации:

Область сравнения Data Lake Хранилище данных
Сбор данных Данные любой структуры и из любых источников Данные приведены к единому виду
Обработка данных Осуществляется после сбора Осуществляется перед сбором
Основные пользователи Специалисты по глубокому анализу данных Оперативные пользователи
Стоимость хранения Ниже Выше
Получение данных Высокая скорость получения Низкая скорость получения

Преимущества Data LakeПреимущества Data Lake

  • Гибкие варианты использования.

    При использовании озер данных не нужно заранее знать, как их необходимо будет анализировать. Например, данные из одного и того же озера можно использовать для поиска совпадающих записей или удаления дублирующихся, преобразования данных для внешней интеграции, классификации и кластеризации или машинного обучения.

  • Снижение эксплуатационных расходов.

    Традиционные хранилища данных для аналитики и систем поддержки принятия решений используются уже более 30 лет. Озера данных совмещают в себе лучшие открытые и бесплатные технологии, что позволяет сэкономить на сборе и обработке информации.

  • Быстрый доступ к данным.

    Информация — это стратегический актив, на основе которого можно разрабатывать инновации. Data Lake позволяет быстрее получить данные и принять необходимые решения. Искусственный интеллект также зависит от больших объемов разнообразной информации, быстрый доступ к которой можно организовать с помощью озер данных.

  • Совместное использование.

    Крупные организации традиционно работают в разрозненных группах, каждая из которых может использовать разные типы данных. Объединенное хранилище для них — отличное решение, чтобы наладить совместную работу между командами.

  • Масштабируется бесконечно.

    Благодаря низкой стоимости Data Lake не имеют ограничений по размеру. Также озера данных способны масштабироваться горизонтально и вертикально, что позволяет обрабатывать вплоть до нескольких петабайт данных.

Недостатки Data LakeНедостатки Data Lake

Озера данных оптимизированы для высокой пропускной способности, но ради этого приходится жертвовать качеством данных:

  • В Data Lake не требуется структурировать данные, поэтому их сложнее анализировать.
  • Data Lake не имеет инструментов для интегрированного или целостного получения всех данных.
  • Без квалифицированного контроля за озерами данных трудно гарантировать конфиденциальность и безопасность хранилища.
  • Для сбора реляционных данных есть гораздо более удобные решения, чем Data Lake.
  • Если управление озером организовано плохо, в нем быстро накапливаются большие объемы неконтролируемых, и, возможно, бесполезных данных. Для эффективной фильтрации данных и отсечения недостоверных источников требуется высокая квалификация.

Советы по использованию Data LakeСоветы по использованию Data Lake

Для извлечения максимальной выгоды из озер данных нужно с умом подойти к их использованию. К счастью, технология уже обкатана многими компаниями, которые сформулировали основные правила работы с озерами. Можно выделить три основных момента, которые помогут развернуть озеро данных, избежав возможных проблем в будущем:

  1. Главное — сбор данных.

    Прежде всего необходимо максимально конкретизировать, что именно собирать, потому что озеро может поместить в себя что угодно и превратиться в болото. Грамотная настройка источников информации и фильтров в дальнейшем сильно упростит анализ и поможет сэкономить.

  2. Максимальная детализация метаданных.

    Данные в озерах часто неструктурированные или слабоструктурированные, но навести порядок в хранилище можно с помощью каталогизации и метаданных. Затраченные усилия непременно окупятся, когда придет время анализировать результаты.

  3. План уничтожения данных.

    Распространенная ошибка при работе с большими объемами информации — отсутствие плана по избавлению от ненужной. Если до сбора данных в озеро их удастся правильно разметить, то это поможет не удалить что-то нужное вместе с мусором, а также избавит от проблем с различными регуляторами и соответствием регламентам.

Реализация Data Lake с помощью сервисов Yandex CloudРеализация Data Lake с помощью сервисов Yandex Cloud

Yandex Cloud предлагает следующие инструменты для работы с озерами данных:

  • Сервис Managed Service for Apache Kafka® — работа с кластерами в режиме реального времени. Преимущество платформы в высокой пропускной способности и низкой задержке. Подробнее см. в документации.
  • Сервис Yandex Data Processing, который автоматически создает кластеры, настраивает сеть, устанавливает и обновляет ПО:
    • Работа с заданиями Hive.
    • Работа с заданиями Hadoop.

Была ли статья полезна?

Следующая
Data Mart
Проект Яндекса
© 2025 ООО «Яндекс.Облако»