Data Mart
Data Mart или витрина данных — база данных, предназначенная для решения специализированной задачи или набора задач из одной предметной области, например по поиску наименьшей цены товара, расчету загрузки производственных мощностей предприятия, организации тематических рассылок и т.п.
Альтернативная технология хранения данных — Data Lake или Озеро данных. Витрины данных похожи на бутилированную воду — очищенную и упакованную. Озера данных — это открытые водоемы, в которые вода стекается из различных источников.
Отличия витрины от хранилища данных
В отличие от хранилища, где размещаются большие объемы разнородной информации, требующей высокой скорости доступа, в витрине содержатся только однородные данные. К этим данным предъявляются высокие требования по достоверности и оперативности обновления.
Характеристика | Хранилище данных | Витрина данных |
---|---|---|
Тип хранимой информации | Разнородная | Однородная |
Объем хранимой информации | Большой | Средний или малый |
Скорость доступа к информации | Средняя | Высокая |
Достоверность информации | Средняя | Высокая |
Период обновления информации | Произвольный | Минимально возможный |
Преимущества Data Mart
- Время и стоимость создания витрины намного меньше затрат на создание хранилища.
- Данные для витрины можно размещать на разных аппаратно-программных комплексах и собирать по заранее настроенным запросам пользователя.
- Так как витрина представляет специализированную однородную информацию, ее может настроить один специалист в предметной области.
- Витрина обеспечивает быстрый доступ к необходимым пользователю сведениям.
- Благодаря относительно небольшому объему данных сокращается время анализа информации на витрине.
- За счет простой внутренней структуры витрину можно быстро перестроить в случае изменения информационной модели или задач пользователя.
- Так как решения Data Mart подразумевают деление данных по предметным областям, витрина позволяет гибко настраивать права доступа пользователей к информации.
Типы Data Mart
Витрины данных бывают зависимыми, независимыми и гибридными.
-
Зависимая витрина данных
Данные для витрин собираются централизованно через хранилище данных. С помощью специализированных наборов запросов информация из хранилища перегружается в витрины с разными назначениями. Преимущество этого типа Data Mart — единый источник информации и простое обновление данных на витринах по запросам к хранилищу. Основное условие успешной работы — наличие хранилища с заранее верифицированными данными.
-
Независимая витрина данных
Данные для витрин не хранятся, а собираются по запросам из разнородных источников (например, сети интернет), что уменьшает затраты на создание и поддержание в актуальном состоянии баз данных предприятия. Для этого типа Data Mart сложнее получать актуальную информацию. Кроме того, полученные данные требуют дополнительного анализа и верификации. Независимая витрина подходит для небольших проектов, ограниченных временными и бюджетными рамками.
-
Гибридная витрина данных
Сочетает преимущества обоих предыдущих типов. Наличие хранилища позволяет автоматизировать обновление витрин и увеличить скорость доступа к актуальным данным. Запросы ко внешним источникам обеспечивают отсутствие жесткой привязки к одному источнику данных и гибкость получаемой информации.
Применение витрин данных
Витрины данных позволяют оптимизировать работу отдельных пользователей или подразделений. Важно понимать, что Data Mart не предназначены для решения задач комплексной цифровизации бизнес-процессов.
Витрины обеспечивают:
-
Единство хранящихся данных.
Поскольку все представляемые данные выбираются из единого хранилища, это гарантирует непротиворечивость информации для всех пользователей и подразделений. Отсутствуют потери времени на дополнительную верификацию и сопряжение данных.
-
Высокую скорость доступа к информации.
Пользователи получают доступ к нужному подразделу информации с помощью заранее подготовленных запросов к единому хранилищу и автоматических механизмов выгрузки данных в специализированные СУБД — витрины данных. Это экономит время сотрудников, так как не требует постоянного доступа к центральному хранилищу и помощи квалифицированных ИТ-специалистов. Вся информация доступна для назначенных витрин и прав пользователей по мере необходимости.
-
Быстрое принятие решений на основе хранящейся статистики.
Витрина данных предоставляет доступ ко всей необходимой аналитике в объеме назначенных прав пользователей и потребностей подразделений. Статистические данные, собранные в едином хранилище для решения других задач, не мешают анализировать информацию по выбранной витрине.
-
Простое создание и применение.
Так как витрина данных настраивается на обслуживание задач конкретного направления, подразделения или пользователя, создание витрин проще и быстрее, чем создание единой аналитической базы данных. Для работы витрины достаточно наличия хранилища неструктурированных данных и запросов по выборке интересующей нас информации из этого хранилища.
-
Гибкость и масштабирование решений.
Поскольку представляемые данные изначально собираются не в витрины, а в хранилища данных, для перенастройки требуемой аналитики достаточно изменить запросы по выборке информации.
Лучшей аналогией этого процесса является куб (хранилище данных), у которого мы можем увидеть любую грань (витрину) по нашему выбору. -
Анализ динамики получаемой информации.
Для анализа изменения данных достаточно добавить к запросам по выборке информации при построении витрины еще один срез — время. Поскольку данные поступают в единое хранилище постоянно, это не требует перестройки работы хранилища в целом.
При создании Data Mart важно не попасть в другую крайность. Множество разнородных независимых витрин для разных пользователей в конечном итоге приводят к трудностям актуализации информации и снижают достоверность данных. При необходимости предоставления инструментария Data Mart для различных областей в рамках одного предприятия необходимо планировать разработку зависимых решений на основе единого хранилища данных.
Идеальной средой разработки подобных решений является облачное хранилище, например, хранилище от Yandex Cloud.
Реализация Data Mart с помощью сервисов Yandex Cloud
Чтобы успешно решать аналитические задачи с использованием зависимых витрин:
-
Соберите и подготовьте данные.
Для сбора и обработки данных из различных источников перед помещением их в хранилище используйте инструменты Yandex Cloud:
- Yandex Data Transfer — сервис для логического переноса данных между источниками и приемниками (СУБД, объектными хранилищами или брокерами сообщений).
- Yandex Data Streams — сервис для управления потоками данных в режиме реального времени (непрерывно).
- Yandex Data Processing — сервис для разворачивания кластеров Apache Hadoop и Apache Spark™ в инфраструктуре Yandex Cloud.
- Yandex Cloud Functions — сервис для запуска приложений в безопасном, отказоустойчивом и масштабируемом окружении без создания и обслуживания виртуальных машин.
-
Организуйте многоуровневое хранение данных.
Для многоуровневого хранения собранной информации используйте механизмы работы Yandex Cloud с популярными СУБД:
- Yandex Managed Service for PostgreSQL — для разворачивания кластера одной из самых популярных СУБД по обработке и структурированию полученной информации.
- Yandex Managed Service for Greenplum® — для работы с популярной массивно-параллельной СУБД по аналитике больших объемов данных.
- Yandex Managed Service for ClickHouse® — для создания витрины данных на базе высокопроизводительной колоночной СУБД.
- Сервис Yandex Query — для создания аналитических и потоковых SQL-запросов реального времени к собранным данным.
-
Создайте удобные инструменты для анализа данных.
Для удобной работы с собранной и подготовленной информацией используйте сервис для бизнес-аналитики Yandex DataLens.
Yandex DataLens позволит вам напрямую подключаться к различным источникам данных, а также создавать визуализации и дашборды для совместной работы.
Чтобы начать работу с сервисами, войдите в свой аккаунт в Yandex Cloud или зарегистрируйтесь
См. также
ClickHouse® является зарегистрированным товарным знаком ClickHouse, Inc