Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Истории успеха
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Доступны в регионе
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • ИИ для бизнеса
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Партнёрская программа
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Истории успеха
  • Документация
  • Блог
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»
Yandex MPP Analytics for PostgreSQL
  • Начало работы
    • Все инструкции
    • Подключение к внешнему файловому серверу (gpfdist)
    • Вспомогательные утилиты
  • Управление доступом
  • Правила тарификации
  • Справочник Terraform
  • Метрики Monitoring
  • Аудитные логи Audit Trails
  • Публичные материалы
  • История изменений
  • Обучающие курсы

В этой статье:

  • Запуск gpfdist
  • Создание внешней таблицы с использованием утилиты gpfdist
  • Примеры создания внешних таблиц
  1. Пошаговые инструкции
  2. Подключение к внешнему файловому серверу (gpfdist)

Подключение к внешнему файловому серверу

Статья создана
Yandex Cloud
Обновлена 13 ноября 2025 г.
  • Запуск gpfdist
  • Создание внешней таблицы с использованием утилиты gpfdist
  • Примеры создания внешних таблиц

Greenplum® Parallel File Server (gpfdist) — утилита для чтения и записи данных из файлов, расположенных на удаленных серверах. Она установлена на всех хостах-сегментах кластера Greenplum® и обеспечивает параллельную загрузку данных, распределяя их между сегментами равномерно или согласно заданному ключу дистрибуции. Это повышает производительность при работе с большими объемами внешних данных.

Утилита gpfdist может работать с любыми текстовыми файлами, которые содержат разделители, а также со сжатыми файлами gzip и bzip2.

Для чтения или записи файлов на внешнем сервере:

  1. Установите и запустите gpfdist в составе пакета Greenplum® Loader или Greenplum® Database на удаленном сервере, где находятся нужные файлы.
  2. Создайте внешнюю таблицу, которая будет ссылаться на эти файлы, в базе данных Greenplum®.

Запуск gpfdistЗапуск gpfdist

Примечание

Скачивание и использование продуктов с сайта VMware не входит в условия использования Yandex MPP Analytics for PostgreSQL и является предметом отдельного регулирования между клиентом и VMware. Яндекс не несет ответственности за взаимоотношения клиента и VMware, вытекающие из использования клиентом продуктов или услуг VMware.

  1. Скачайте и установите пакет Greenplum® Loader с сайта VMware или пакет Greenplum® Database из бакета Yandex Object Storage по инструкции.

  2. Запустите утилиту gpfdist:

    gpfdist -d <директория_с_файлами_данных> -p <порт_подключения> -l <путь_к_файлу_логов>
    

    Где:

    • <директория_с_файлами_данных> — локальный путь к директории, в которой хранятся файлы для чтения или записи данных через внешнюю таблицу.
    • <порт_подключения> — порт, через который будет работать утилита. По умолчанию — 8080.
    • <путь_к_файлу_логов> — (опционально) путь к файлу, в который gpfdist будет записывать логи своей работы.

    Чтобы распределить нагрузку на сеть, вы можете запустить несколько экземпляров gpfdist на одном сервере, указав разные директории и порты для подключения, например:

    gpfdist -d /var/load_files1 -p 8081 -l /home/gpadmin/log1 & \
    gpfdist -d /var/load_files2 -p 8082 -l /home/gpadmin/log2 &
    
  3. Проверьте, что файлы в указанной директории доступны на указанном порту из Yandex Cloud. Для этого выполните команду с ВМ в Yandex Cloud:

    wget http://hostname:port/filename
    

Создание внешней таблицы с использованием утилиты gpfdistСоздание внешней таблицы с использованием утилиты gpfdist

Синтаксис SQL-запроса для создания внешней таблицы:

CREATE [WRITABLE] EXTERNAL TABLE <имя_таблицы>
       (<имя_столбца> <тип_данных> [, ...])
       LOCATION('gpfdist://<путь_к_файлу_на_удаленном_сервере>' [, ...])
       FORMAT '[TEXT|CSV|CUSTOM]';

Где:

  • <имя_таблицы> — имя внешней таблицы, которая будет создана в базе данных Greenplum®.
  • <имя_столбца> — имя столбца таблицы.
  • <тип_данных> — тип данных столбца таблицы.
  • <путь_к_файлу_на_удаленном_сервере> — адрес сервера, на котором запущен gpfdist, порт для подключения и путь к файлу. Вы можете указать конкретный файл или задать маску с помощью символа звездочки (*).

Опция WRITABLE позволяет записывать данные во внешний объект. Чтобы считать данные из внешнего объекта, создайте внешнюю таблицу с опцией READABLE.

Примеры создания внешних таблицПримеры создания внешних таблиц

  • Создание внешней таблицы с данными из файла file.csv на сервере hostname:

    CREATE EXTERNAL TABLE tableName (id int)
           LOCATION('gpfdist://hostname:8080/file.csv')
           FORMAT 'CSV' (DELIMITER ',');
    
  • Создание внешней таблицы, объединяющей данные из всех файлов формата txt, где | — символ разделителя, а пробел — значение NULL, на серверах hostname1 и hostname2:

    CREATE EXTERNAL TABLE tableName (...)
           LOCATION('gpfdist://hostname1:8081/*.txt',
                    'gpfdist://hostname2:8081/*.txt')
           FORMAT 'TEXT' (DELIMITER '|' NULL ' ');
    

Greenplum® и Greenplum Database® являются зарегистрированными товарными знаками или товарными знаками Broadcom Inc в США и/или других странах.

Была ли статья полезна?

Предыдущая
Изменение настроек PXF
Следующая
Управление расширениями
Проект Яндекса
© 2025 ТОО «Облачные Сервисы Казахстан»