Аналитические возможности YDB

Q: Создание таблиц

-- Создание колоночной таблицы CREATE TABLE transactions_columnar ( transaction_id Uint64, transaction_date Date, revenue Double, PRIMARY KEY (transaction_date, transaction_id) ) WITH ( STORE=COLUMN );

Q: Создание топика

-- Создание топика CREATE TOPIC `my_topic` ( -- с указанным консьюмером CONSUMER my_consumer WITH (important = true) ) WITH ( -- и интервалом хранения данных retention_period = Interval('P1D') );

Q: Автоматический перенос данных из топиков в таблицы

-- Автоматический перенос и преобразование данных из топиков в таблицы $transformation_lambda = ($msg) -> { $json = CAST($msg._data AS JSON); return <|timestamp: $json.timestamp, operation: $json.operation, object_id: $json.object + $json.id|>; }; CREATE TRANSFER example_transfer FROM example_topic TO example_table USING $transformation_lambda;

Колоночное хранение, параллельная обработка и стоимостной оптимизатор для тяжёлых аналитических запросов.

Быстрый старт Подробнее

Основные преимущества

Распределённая отказоустойчивая SQL СУБД, которая позволяет разработчикам строить масштабируемые и высокодоступные сервисы. Обеспечивает строгую консистентность, высокую скорость обработки данных, отлично подходит для высоконагруженных аналитических задач.

Раздельный compute и storage

Хранение и вычисления масштабируются независимо, что позволяет обрабатывать задачи любой сложности и любые объёмы данных

Высокая скорость обработки

MPP (Massively Parallel Processing) — параллельное выполнение запросов с линейным ростом производительности при масштабировании

Одна база. Все виды аналитических запросов

Витрины данных, сложные JOIN’ы, тяжёлые ELT‑запросы — всё это доступно в одной базе данных

Аналитика больших данных

В основе YDB — колоночные таблицы и MPP‑архитектура: тяжёлые запросы выполняются предсказуемо и масштабируются с ростом кластера.

Колоночные таблицы

Оптимизация под работу с большими массивами данных. Эффективное сжатие и передача данных.

Параллельное выполнение

Сканирование и соединения выполняются на всех узлах, производительность растёт линейно.

Витрины и BI

Быстрый отклик дашбордов на колоночных таблицах, высокие результаты в тестах ClickBench для сценариев витрин данных.

Спроектировано для тяжёлых запросов

Автоматическая ребалансировка партиций, отсутствие единой точки отказа, постоянная оптимизация хранения и предсказуемые планы выполнения.

Разделение compute и storage

Масштабирование CPU и слоя хранения производится независимо для минимизации TCO.

Стоимостной оптимизатор

Современный Cost‑Based Optimizer подбирает оптимальные планы для запросов с десятками и сотнями таблиц.

Тиринг данных в S3 ^{в разработке}

Автоматическое перемещение «холодных» данных в S3‑совместимые хранилища для снижения стоимости хранения, с сохранением полного доступа для запросов.

Потоковый ввод данных

Получение потоков данных в реальном времени из любых источников с помощью Kafka API

Пакетный ввод данных

Загружайте данные с помощью драйвера Apache Spark^™, JDBC, FluentBit/LogStash, SDK для различных языков программирования

Встроенный трансфер данных

Обновляйте витрины из OLTP‑таблиц и внешних систем с помощью встроенного механизма TRANSFER

Большинство задач решается с помощью SQL

-- Создание колоночной таблицы
CREATE TABLE transactions_columnar (
  transaction_id    Uint64,
  transaction_date Date,
  revenue    Double,
  PRIMARY KEY (transaction_date, transaction_id)
) WITH (
  STORE=COLUMN
);

-- Создание топика
CREATE TOPIC `my_topic` (
    -- с указанным консьюмером
    CONSUMER my_consumer 
      WITH (important = true)
) WITH (
   -- и интервалом хранения данных
   retention_period = Interval('P1D')
);

-- Автоматический перенос и преобразование данных из топиков в таблицы
$transformation_lambda = ($msg) -> {
$json = CAST($msg._data AS JSON);
    return <|timestamp: $json.timestamp,
             operation: $json.operation,
             object_id: $json.object + $json.id|>;
};                
CREATE TRANSFER example_transfer
FROM example_topic TO example_table USING $transformation_lambda;

Привычные инструменты дата‑инженера

Поддержка трансформаций данных с помощью плагина к DBT

Адаптер DBT для YDB позволяет описывать модели, инкрементальные обновления и тесты в знакомом синтаксисе и выполнять их напрямую в YDB.

Оркестрация с помощью Airflow®

Интеграция с Airflow позволяет запускать DAG для загрузки и трансформаций в YDB, управляя зависимостями, ретраями и проверками на каждом шаге.

Обработка больших данных с помощью Apache Spark

Коннектор для Spark позволяет выполнять ETL-процессы и аналитику, достигая высокой скорости за счёт параллельного чтения данных напрямую из каждого узла YDB.

Аналитика и оптимизация запросов

BI-интеграции

Стройте интерактивные дашборды и отчеты в привычных BI‑инструментах. YDB нативно интегрируется с Apache Superset^™, Yandex DataLens, Polymatica и другими системами.

Анализ производительности запросов

Анализируйте и оптимизируйте каждый запрос с помощью детального плана выполнения (EXPLAIN / ANALYZE) и фиксируйте его с помощью Query Hints.

Apache^®, Apache Kafka^®, Apache Spark^™, Apache Airflow^® и Apache Superset^™ являются зарегистрированными товарными знаками или товарными знаками Apache Software Foundation в США и/или других странах.

ClickHouse является зарегистрированным товарным знаком ClickHouse, Inc.

Аналитические возможности YDB

Основные преимущества

Раздельный compute и storage

Высокая скорость обработки

Одна база. Все виды аналитических запросов

Аналитика больших данных

Колоночные таблицы

Параллельное выполнение

Витрины и BI

Спроектировано для тяжёлых запросов

Разделение compute и storage

Стоимостной оптимизатор

Тиринг данных в S3 ^{в разработке}

Центр обработки ваших данных

Потоковый ввод данных

Пакетный ввод данных

Встроенный трансфер данных

Большинство задач решается с помощью SQL

Создание таблиц

Создание топика

Автоматический перенос данных из топиков в таблицы

Привычные инструменты дата‑инженера

Поддержка трансформаций данных с помощью плагина к DBT

Оркестрация с помощью Airflow®

Обработка больших данных с помощью Apache Spark

Аналитика и оптимизация запросов

BI-интеграции

Анализ производительности запросов

Для работы

Почему Yandex Cloud

Сообщество

Компания

Контакты

Мобильное приложение

Основные преимущества

Раздельный compute и storage

Высокая скорость обработки

Одна база. Все виды аналитических запросов

Аналитика больших данных

Колоночные таблицы

Параллельное выполнение

Витрины и BI

Спроектировано для тяжёлых запросов

Разделение compute и storage

Стоимостной оптимизатор

Тиринг данных в S3 в разработке

Центр обработки ваших данных

Потоковый ввод данных

Пакетный ввод данных

Встроенный трансфер данных

Большинство задач решается с помощью SQL

Создание таблиц

Создание топика

Автоматический перенос данных из топиков в таблицы

Привычные инструменты дата‑инженера

Поддержка трансформаций данных с помощью плагина к DBT

Оркестрация с помощью Airflow®

Обработка больших данных с помощью Apache Spark

Аналитика и оптимизация запросов

BI-интеграции

Анализ производительности запросов

Тиринг данных в S3 ^{в разработке}