Фон YDB

Аналитические возможности YDB

Колоночное хранение, параллельная обработка и стоимостной оптимизатор для тяжёлых аналитических запросов.

Основные преимущества

Распределённая отказоустойчивая SQL СУБД, которая позволяет разработчикам строить масштабируемые и высокодоступные сервисы. Обеспечивает строгую консистентность, высокую скорость обработки данных, отлично подходит для высоконагруженных аналитических задач.

Раздельный compute и storage

Хранение и вычисления масштабируются независимо, что позволяет обрабатывать задачи любой сложности и любые объёмы данных

Высокая скорость обработки

MPP (Massively Parallel Processing) — параллельное выполнение запросов с линейным ростом производительности при масштабировании

Одна база. Все виды аналитических запросов

Витрины данных, сложные JOIN’ы, тяжёлые ELT‑запросы — всё это доступно в одной базе данных

Аналитика больших данных

В основе YDB — колоночные таблицы и MPP‑архитектура: тяжёлые запросы выполняются предсказуемо и масштабируются с ростом кластера.

Колоночные таблицы

Оптимизация под работу с большими массивами данных. Эффективное сжатие и передача данных.

Параллельное выполнение

Сканирование и соединения выполняются на всех узлах, производительность растёт линейно.

Витрины и BI

Быстрый отклик дашбордов на колоночных таблицах, высокие результаты в тестах ClickBench для сценариев витрин данных.

Спроектировано для тяжёлых запросов

Автоматическая ребалансировка партиций, отсутствие единой точки отказа, постоянная оптимизация хранения и предсказуемые планы выполнения.

Разделение compute и storage

Масштабирование CPU и слоя хранения производится независимо для минимизации TCO.

Стоимостной оптимизатор

Современный Cost‑Based Optimizer подбирает оптимальные планы для запросов с десятками и сотнями таблиц.

Тиринг данных в S3 в разработке

Автоматическое перемещение «холодных» данных в S3‑совместимые хранилища для снижения стоимости хранения, с сохранением полного доступа для запросов.

Центр обработки ваших данных

Встроенные топики с поддержкой Kafka® API, чтение из большого числа внешних источников, поддержка работы с Data Lake.

Потоковый ввод данных

Получение потоков данных в реальном времени из любых источников с помощью Kafka API

Пакетный ввод данных

Загружайте данные с помощью драйвера Apache Spark, JDBC, FluentBit/LogStash, SDK для различных языков программирования

Встроенный трансфер данных

Обновляйте витрины из OLTP‑таблиц и внешних систем с помощью встроенного механизма TRANSFER

Большинство задач решается с помощью SQL

-- Создание колоночной таблицы
CREATE TABLE transactions_columnar (
  transaction_id    Uint64,
  transaction_date Date,
  revenue    Double,
  PRIMARY KEY (transaction_date, transaction_id)
) WITH (
  STORE=COLUMN
);

Привычные инструменты дата‑инженера

Поддержка трансформаций данных с помощью плагина к DBT

Адаптер DBT для YDB позволяет описывать модели, инкрементальные обновления и тесты в знакомом синтаксисе и выполнять их напрямую в YDB.

Оркестрация с помощью Airflow®

Интеграция с Airflow позволяет запускать DAG для загрузки и трансформаций в YDB, управляя зависимостями, ретраями и проверками на каждом шаге.

Обработка больших данных с помощью Apache Spark

Коннектор для Spark позволяет выполнять ETL-процессы и аналитику, достигая высокой скорости за счёт параллельного чтения данных напрямую из каждого узла YDB.

Аналитика и оптимизация запросов

BI-интеграции

Стройте интерактивные дашборды и отчеты в привычных BI‑инструментах. YDB нативно интегрируется с Apache Superset, Yandex DataLens, Polymatica и другими системами.

Анализ производительности запросов

Анализируйте и оптимизируйте каждый запрос с помощью детального плана выполнения (EXPLAIN / ANALYZE) и фиксируйте его с помощью Query Hints.

Apache®, Apache Kafka®, Apache Spark, Apache Airflow® и Apache Superset являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.

ClickHouse является зарегистрированным товарным знаком ClickHouse, Inc.