Форматы данных и алгоритмы сжатия

Статья создана

Yandex Cloud

Улучшена

Обновлена 22 июля 2026 г.

Открыть в Markdown

Поддерживаемые форматы данных
Пример чтения данных
Поддерживаемые алгоритмы сжатия

Ниже описаны поддерживаемые в Yandex Query форматы данных и алгоритмы сжатия.

Поддерживаемые форматы данных

В Yandex Query Language поддерживаются следующие форматы данных:

Формат csv_with_names

Формат основан на CSV. Данные размещаются в колонках, разделенных запятыми. Первая строка файла содержит имена колонок.

Пример данных:

Year,Manufacturer,Model,Price
1997,Ford,E350,3000.00
1999,Chevy,"Venture «Extended Edition»",4900.00

Пример запроса

SELECT 
    * 
FROM <соединение>.<путь> 
WITH
(
    format=csv_with_names, 
    SCHEMA
    (
        Year int, 
        Manufacturer string, 
        Model string, 
        Price double
    )
)

Результат выполнения запроса:

#	Manufacturer	Model	Price	Year
1	Ford	E350	3000	1997
2	Chevy	Venture «Extended Edition»	4900	1999

Формат tsv_with_names

Формат основан на TSV. Данные размещаются в колонках, разделенных символами табуляции с кодом 0x9. Первая строка файла содержит имена колонок.

Пример данных:

Year    Manufacturer    Model   Price
1997    Ford    E350    3000.00
1999    Chevy   "Venture «Extended Edition»"    4900.00

Пример запроса

SELECT 
    * 
FROM <соединение>.<путь> 
WITH
(
    format=tsv_with_names, 
    SCHEMA
    (
        Year int, 
        Manufacturer string, 
        Model string, 
        Price double
    )
)

Результат выполнения запроса:

#	Manufacturer	Model	Price	Year
1	Ford	E350	3000	1997
2	Chevy	Venture «Extended Edition»	4900	1999

Формат json_list

Формат основан на JSON-представлении данных. Каждый файл должен содержать список объектов в корректном JSON-представлении.

Пример корректных данных (данные представлены в виде списка объектов JSON):

[
    { "Year": 1997, "Manufacturer": "Ford", "Model": "E350", "Price": 3000.0 },
    { "Year": 1999, "Manufacturer": "Chevy", "Model": "Venture «Extended Edition»", "Price": 4900.00 }
]

Пример некорректных данных, в котором объекты не объединены в список:

{ "Year": 1997, "Manufacturer": "Ford", "Model": "E350", "Price": 3000.0 }
{ "Year": 1999, "Manufacturer": "Chevy", "Model": "Venture «Extended Edition»", "Price": 4900.00 }

Формат основан на JSON-представлении данных. Каждая строка файла должна содержать объект в корректном JSON-представлении. Объекты не объединяются в JSON-список. Такой формат используется при передаче данных через потоковые системы, например Yandex Data Streams.

Пример корректных данных (на каждой отдельной строке находится отдельный объект в формате JSON, но эти объекты не объединены в список):

{ "Year": 1997, "Manufacturer": "Ford", "Model": "E350", "Price": 3000.0 },
{ "Year": 1999, "Manufacturer": "Chevy", "Model": "Venture «Extended Edition»", "Price": 4900.00 }

Пример запроса

SELECT 
    * 
FROM <соединение>.<путь> 
WITH
(
    format=json_each_row, 
    SCHEMA
    (
        Year int, 
        Manufacturer string, 
        Model string, 
        Price double
    )
)

Результат выполнения запроса:

#	Manufacturer	Model	Price	Year
1	Ford	E350	3000	1997
2	Chevy	Venture «Extended Edition»	4900	1999

Формат raw

Формат позволяет считывать содержимое файлов без преобразований. Полученные данные можно обработать средствами YQL, разделив на строки и столбцы.

Используйте этот формат, если встроенных возможностей разбора исходных данных в Yandex Query недостаточно.

Пример запроса

SELECT 
    * 
FROM <соединение>.<путь> 
WITH
(
    format=raw, 
    SCHEMA
    (
        Data String
    )
)

Результат выполнения запроса:

Year,Manufacturer,Model,Price
1997,Ford,E350,3000.00
1999,Chevy,\"Venture «Extended Edition»\",4900.00

Формат json_as_string

Формат основан на JSON-представлении данных. Он не разбивает входной JSON-документ на поля, а представляет каждую строку файла в виде одного объекта JSON. Используйте этот формат, если список полей может изменяться в разных сообщениях.

В этом формате внутри каждого файла должен находиться:

объект в корректном JSON-представлении в каждой отдельной строке файла;
объекты в корректном JSON-представлении, объединенные в список.

Пример корректных данных (данные представлены в виде списка объектов JSON):

{ "Year": 1997, "Manufacturer": "Ford", "Model": "E350", "Price": 3000.0 }
{ "Year": 1999, "Manufacturer": "Chevy", "Model": "Venture «Extended Edition»", "Price": 4900.00 }

Пример запроса

SELECT 
    * 
FROM <соединение>.<путь> 
WITH
(
    format=json_as_string, 
    SCHEMA
    (
        Data Json
    )
)

Результат выполнения запроса:

#	Data
1	`{"Manufacturer": "Ford", "Model": "E350", "Price": 3000, "Year": 1997}`
2	`{"Manufacturer": "Chevy", "Model": "Venture «Extended Edition»", "Price": 4900, "Year": 1999}`

Формат parquet

Формат позволяет считывать содержимое файлов Apache Parquet.

Поддерживаются следующие алгоритмы сжатия внутри файлов Parquet:

без сжатия;
SNAPPY;
GZIP;
LZO;
BROTLI;
LZ4;
ZSTD;
LZ4_RAW.

Пример запроса

SELECT 
    * 
FROM <соединение>.<путь> 
WITH
(
    format=parquet, 
    SCHEMA
    (
        Year int, 
        Manufacturer string, 
        Model string, 
        Price double
    )
)

Результат выполнения запроса:

#	Manufacturer	Model	Price	Year
1	Ford	E350	3000	1997
2	Chevy	Venture «Extended Edition»	4900	1999

Пример чтения данных

Пример запроса для чтения данных из Yandex Object Storage:

SELECT
        *
FROM
    connection.`folder/filename.csv`
WITH(
    format='csv_with_names',
    SCHEMA 
    (
        Year int,
        Manufacturer String,
        Model String,
        Price Double 
    )
);

Где:

Поле	Описание
`connection`	Название соединения с Yandex Object Storage
`folder/filename.csv`	Путь к файлу в бакете Yandex Object Storage
`SCHEMA`	Описание схемы данных в файле

Поддерживаемые алгоритмы сжатия

Чтение

В Yandex Query поддерживаются следующие алгоритмы сжатия данных для чтения:

Формат сжатия	Название в Query
Gzip	gzip
Zstd	zstd
LZ4	lz4
Brotli	brotli
Bzip2	bzip2
Xz	xz

Формат Parquet поддерживает собственные алгоритмы сжатия. Yandex Query позволяет читать данные в формате Parquet с использованием следующих алгоритмов:

Формат сжатия	Название в Query
Raw	raw
Snappy	snappy

Запись в Yandex Object Storage

В настоящий момент поддерживается запись в следующих форматах:

Формат данных	Название в Query
CSV	csv_with_names
Parquet	parquet

В Query поддерживаются следующие алгоритмы сжатия данных для записи:

Формат сжатия	Название в Query
Gzip	gzip
Zstd	zstd
LZ4	lz4
Brotli	brotli
Bzip2	bzip2
Xz	xz

Формат файлов parquet поддерживает собственные внутренние алгоритмы сжатия. Query позволяет записывать данные в формате parquet с использованием следующих алгоритмов сжатия:

Формат сжатия	Название в Query
Snappy	Без названия, по умолчанию

Запись в Yandex Data Streams

В Data Streams можно выполнять запись только в виде байтового потока, который интепретируется на принимающей стороне.

Настройки форматов файлов и алгоритмов сжатия при записи в Data Streams не применяются.

Форматы данных и алгоритмы сжатия

Поддерживаемые форматы данных

Формат csv_with_names

Формат tsv_with_names

Формат json_list

Формат json_each_row

Формат raw

Формат json_as_string

Формат parquet

Пример чтения данных

Поддерживаемые алгоритмы сжатия

Чтение

Запись в Yandex Object Storage

Запись в Yandex Data Streams

Была ли статья полезна?

Форматы данных и алгоритмы сжатия

Поддерживаемые форматы данныхПоддерживаемые форматы данных

Формат csv_with_namesФормат csv_with_names

Формат tsv_with_namesФормат tsv_with_names

Формат json_listФормат json_list

Формат json_each_rowФормат json_each_row

Формат rawФормат raw

Формат json_as_stringФормат json_as_string

Формат parquetФормат parquet

Пример чтения данныхПример чтения данных

Поддерживаемые алгоритмы сжатияПоддерживаемые алгоритмы сжатия

ЧтениеЧтение

Запись в Yandex Object StorageЗапись в Yandex Object Storage

Запись в Yandex Data StreamsЗапись в Yandex Data Streams

Была ли статья полезна?

Поддерживаемые форматы данных

Формат csv_with_names

Формат tsv_with_names

Формат json_list

Формат json_each_row

Формат raw

Формат json_as_string

Формат parquet

Пример чтения данных

Поддерживаемые алгоритмы сжатия

Чтение

Запись в Yandex Object Storage

Запись в Yandex Data Streams