Big Data
Big Data — это крупные массивы разнообразной информации и стек специальных технологий для работы с ней. Термин применяется к таким объемам данных, с которыми пользовательский компьютер и офисные программы не справятся. С помощью анализа больших данных бизнес может получить возможность принимать решения по развитию продукта и завоевывать конкурентное преимущество.
Термин Big Data появился еще в прошлом веке, но начал набирать популярность, когда появились первые крупные интернет-сервисы. Компании столкнулись с тем, что пользователи загружают на сайты колоссальные объемы неструктурированного контента.
Это заставило разработчиков придумывать новые типы хранилищ данных, поскольку стандартных уже не хватало. Первой платформой, которая взяла на себя работу с такими объемами данных, стала Hadoop
Особенности больших данных
Термин «большие данные» слышал почти каждый, но часто он употребляется ошибочно. Существует шесть основных критериев или шесть «V», которые помогут определить, что перед вами Big Data:
- Volume (объем) — информации должно поступать более 150 Гб в сутки.
- Velocity (скорость) — для работы с массивами информации в режиме реального времени требуются повышенные вычислительные мощности.
- Variety (разнообразие) — поступающая информация имеет разные форматы или степень структурированности. Например, контент социальных сетей может сильно различаться даже в пределах одной страницы.
- Veracity (достоверность) — источникам данных можно доверять, а результат их обработки обладает достоверностью, достаточной для принятия решений.
- Variability (вариативность) — поток данных изменчив, на него может влиять даже время суток или погода. Например, в час пик приходит больше данных от таксистов.
- Value (ценность) — данные могут иметь разное значение для компании. Например, сделки с крупными покупателями имеют большее значение, чем с мелкими.
Примеры типов данных
Большие данные | Обычные данные |
---|---|
Записи всех звонков сотрудников крупного колл-центра. | Бухгалтерские отчеты компании в Excel. |
Поисковые запросы, переходы по ссылкам, движения и нажатия мыши всех пользователей Яндекса. | ФИО и возраст всех пользователей сервиса Яндекс Лавка. |
Сведения о перемещениях таксистов, трафик и спрос на поездки. | Расписание маршрутов всего общественного транспорта области. |
Информация о покупках клиентов банка и снятии ими наличных в терминалах и отделениях. | Список клиентов с просроченными задолженностями. |
Еще одна особенность больших данных заключается в их распределенной структуре — для сбора и анализа информации одновременно используется множество инструментов. Получается что-то наподобие воронок, которые пропускают информацию из разных источников, попутно обрабатывая ее. В умелых руках это дает ряд преимуществ:
- Расширяемость — платформы для работы с Big Data можно горизонтально масштабировать до тех пор, пока хватает вычислительных мощностей.
- Отказоустойчивость — сбой в одном потоке не нарушает работу других.
- Локализация — информация обрабатывается на тех же серверах, где она находится, что минимизирует затраты на транспортировку.
Работа с Big Data
До начала создания базы данных нужно определить, какие технологии планируется использовать для сбора, хранения, обработки и анализа информации. Чтобы лучше понимать эти процессы, рассмотрим этапы работы с Big Data:
-
Сбор
Все начинается с интеграции технологий сбора информации, определения ее источников и необходимой обработки. Это могут быть действия пользователей сайта, отчеты о продажах, статистические, медицинские и любые другие данные, которые ценны для компании. К процессу также подключаются специалисты по Data Cleaning, которые настраивают фильтры для будущего анализа.
-
Хранение
Для таких объемов информации недостаточно будет даже нескольких компьютеров, поэтому компании прибегают к услугам облачных провайдеров и задействуют распределенные вычислительные мощности. Примеры технологий, которые используются для хранения:
- Data Warehouse — единое корпоративное хранилище с обработанной и структурированной информацией. Хранилище упрощает анализ полученных данных, но требует структурированности.
- Data Vault — одна из моделей хранилища Data Warehouse с временными отметками размещения данных, которые позволяют проследить изменение хранимой информации во времени.
- Data Lake — данные в хранилище поступают непрерывно в неструктурированном или, наоборот, структурированном или слабоструктурированном виде. Используется для сбора данных из разных источников в режиме реального времени.
- Data Mart — хранилище данных, предназначенных для повседневного использования. Поступающую информацию необходимо тщательно обрабатывать, но после этого к ней проще регулярно обращаться.
-
Обработка
Для обработки крупных объемов информации используется технология MapReduce
. Массивы распределяется на разных узлах, которые могут параллельно их обрабатывать, даже если на одном узле случилась ошибка. На MapReduce, например, работают кластеры Apache Spark™, Apache Hadoop®. -
Анализ
Заключительным этапом работы является анализ — получение самого ценного из всего хранилища данных. С помощью СУБД, нейросетей и других инструментов массивы информации преобразуются в таблицы, диаграммы, графики и другое. Примеры назначения анализа:
- Сравнительная аналитика — изучение поведения потребителей и их вовлеченность в режиме реального времени, чтобы сравнить продукт компании с продуктами конкурентов.
- Аналитика настроений — изучение отзывов клиентов и обсуждений продукта в соцсетях, чтобы выявить слабые стороны продукта и уровень удовлетворенности потребителей.
- Маркетинговая аналитика — изучение данных о клиентах, чтобы улучшить маркетинговые компании и разработать бизнес-инициативы.
Специалисты для работы с Big Data
Можно выделить несколько групп специалистов, без которых вряд ли удастся организовать хранилище больших данных:
- Инженеры — создают инфраструктуру для сбора и хранения данных. К ним относятся также разработчики центров обработки данных и сотрудники облачных сервисов.
- Аналитики — помогают находить скрытые закономерности и вырабатывать решения по улучшению продукта. Это не только дата-сайентисты, но и маркетологи, дизайнеры интерфейсов, специалисты по обработке естественного языка и другие.
- Специалисты по нейросетям и машинному обучению — подключают к работе искусственный интеллект, упрощающий анализ массивов информации.
Применение Big Data
Необходимость в хранилище больших сегодня возникает практически у каждой крупной компании. Рассмотрим примеры из разных отраслей, для которых может потребоваться внедрение хранилища больших данных.
-
Телекоммуникации. Отрасль является абсолютным лидером по использованию Big Data: около 90% телекоммуникационных компаний уже собирают и анализируют большие данные, а остальные планируют начать в будущем. Например, такие онлайн-сервисы, как YouTube, VK и другие не смогли бы существовать без объемных хранилищ данных.
-
Продажи. Немецкий производитель автомобилей BMW несколько лет назад решил собрать данные о своих продажах, продажах конкурентов, а также отследить, где автомобили этой марки пользуются наибольшим спросом. Анализ и визуализация информации помогли им выявить слабые и сильные места своего бизнеса и внести коррективы в стратегию компании.
-
Маркетинг. Сложно представить, какое количество потребительских данных непрерывно поступает на серверы гиганта электронной коммерции Amazon. Благодаря анализу больших данных ритейлер в курсе интересов покупателей, а также предлагает собранную информацию другим компаниям, которые тоже используют ее в маркетинге.
-
Банкинг. Такие банки, как СберБанк, Тинькофф и многие другие с помощью Big Data не только анализируют действия клиентов и предлагают им свои продукты, но и повышают безопасность. Например, биометрические данные клиентов помогают им бороться с мошенниками, а анализ доходов и затрат клиентов — оценивать их кредитоспособность.
-
Транспорт. Получение больших объемов данных от водителей в режиме реального времени может сильно помочь сервисам такси. Так, Яндекс.Такси отслеживает спрос и количество водителей на территории, что позволяет предлагать клиентам актуальные цены.
-
Подбор персонала. Рутинную работу по подбору кандидатов в крупных компаниях уже давно выполняют роботы, которые анализируют многочисленные резюме без помощи рекрутеров. Например, компания PepsiCo заполнила 10% своих вакансий с помощью робота. По словам представителей производителя, искусственный рекрутер может провести 1500 интервью за 9 часов, на что у HR-сотрудника ушли бы месяцы.
-
Автомобилестроение. Наличие хранилища больших данных и умелых специалистов по их анализу иногда может даже спасти жизни. Например, компания Toyota с помощью Big Data выяснила, что большинство аварий происходит из-за того, что водители путают педали. Производитель начал разработку сервиса по определению манеры давления на педаль, который помешает водителю сделать ошибку во время стрессовой ситуации.
Недостатки Big Data
Несмотря на очевидную пользу, пользователи больших данных сталкиваются с рядом трудностей:
-
Сложность. Чтобы правильно собирать, фильтровать, обрабатывать и анализировать разрозненную и разнообразную информацию, требуется труд множества квалифицированных специалистов, а также вычислительные мощности и инфраструктура.
-
Затраты. Специалисты по работе с данными очень востребованы, для хранения и обработки требуются серьезные вычислительные мощности, а многие инструменты являются платными.
-
Безопасность. Чем больше у вас важной информации, тем выше риски, что она попадет не в те руки. Так, если взломать хранилище данных банка, то миллионы его клиентов могут остаться без денег. Чтобы не допустить этого, нужен основательный подход к сохранности данных и квалифицированные специалисты.
Реализация хранилища Big Data с помощью сервисов Yandex Cloud
Yandex Cloud предлагает следующие инструменты для работы с большими данными:
Назначение | Технологии |
---|---|
Обработка транзакций | Managed Service for PostgreSQL Managed Service for MongoDB Managed Service for MySQL® Managed Service for SQL Server |
Запросы и отчеты | Yandex Data Processing Managed Service for Greenplum® Managed Service for ClickHouse® |
New SQL | Managed Service for YDB |
Документоориентированная СУБД | Managed Service for MongoDB |
Резидентная СУБД | Managed Service for Redis |
БД «ключ — значение» | Yandex Data Processing Managed Service for Greenplum® Managed Service for MongoDB |
БД временных рядов | Managed Service for ClickHouse® |
Потоковая обработка | Yandex Data Processing Managed Service for Apache Kafka® |
Полнотекстовый поиск | Managed Service for OpenSearch |
Очередь сообщений | Message Queue |
Полезные материалы
- Бизнес-аналитика и визуализация данных в облаке
- Рекомендательная система для ритейла и e‑commerce
- Data Science в облаке
- Корпоративное хранилище данных
- Автоматизация колл‑центров в облаке
- Анализ потока изменений Debezium
ClickHouse® является зарегистрированным товарным знаком ClickHouse, Inc