Аналитическая обработка данных
Аналитическая обработка данных — это технология обработки данных, заключающаяся в подготовке агрегированной информации на основе больших массивов данных. Данный тип анализа данных является классическим и используется при обработке данных, хранящихся, например, в СУБД.
С течением времени объемы данных растут, но не ко всем данным обращения при этом производятся часто. Поэтому редко используемые данные обычно переносят в системы хранения типа Yandex Object Storage, которые позволяют гораздо дешевле, по сравнению с СУБД, такие данные хранить.
Данные в Yandex Object Storage хранятся в виде файловой структуры с каталогами и файлами. Для хранения данных в файлах обычно выбираются стандартные форматы хранения: CSV, JSON и другие.
Yandex Query позволяет обращаться к хранимым в Yandex Object Storage данным, как к СУБД, выполняя запросы на диалекте SQL — YQL
Обычно под управлением Yandex Object Storage хранятся большие объемы данных. Yandex Query анализирует объем данных, которые необходимо обработать, и запускает десятки-сотни параллельных задач обработки данных внутри вычислительного кластера. Это позволяет с высокой скоростью обрабатывать даже значительные объемы данных.