Yandex Cloud
Поиск
Связаться с намиПодключиться
  • Документация
  • Блог
  • Все сервисы
  • Статус работы сервисов
    • Популярные
    • Инфраструктура и сеть
    • Платформа данных
    • Контейнеры
    • Инструменты разработчика
    • Бессерверные вычисления
    • Безопасность
    • Мониторинг и управление ресурсами
    • AI Studio
    • Бизнес-инструменты
  • Все решения
    • По отраслям
    • По типу задач
    • Экономика платформы
    • Безопасность
    • Техническая поддержка
    • Каталог партнёров
    • Обучение и сертификация
    • Облако для стартапов
    • Облако для крупного бизнеса
    • Центр технологий для общества
    • Облако для интеграторов
    • Поддержка IT-бизнеса
    • Облако для фрилансеров
    • Обучение и сертификация
    • Блог
    • Документация
    • Контент-программа
    • Мероприятия и вебинары
    • Контакты, чаты и сообщества
    • Идеи
    • Истории успеха
    • Тарифы Yandex Cloud
    • Промоакции и free tier
    • Правила тарификации
  • Документация
  • Блог
Проект Яндекса
© 2025 ООО «Яндекс.Облако»
Yandex Cloud AI Hybrid
  • Функциональные характеристики и архитектура
  • Системные требования
  • Установка программного обеспечения
  • Эксплуатация программного обеспечения
  • Стоимость программного обеспечения

В этой статье:

  • Компоненты
  • Модели
  • Управление
  • Функциональное тестирование
  • Отправка произвольного REST-запроса

Установка программного обеспечения Yandex Cloud AI Hybrid

Статья создана
Yandex Cloud
Обновлена 3 марта 2025 г.
  • Компоненты
  • Модели
  • Управление
  • Функциональное тестирование
    • Отправка произвольного REST-запроса

КомпонентыКомпоненты

Cloud AI Hybrid разворачивается на виртуальной машине, внутри которой запущены три Docker-контейнера:

  1. API-proxy — проксирующий балансировщик, принимающий REST-запросы пользователя, конвертирующий их в gRPC и направляющий в микросервис gRPC-backend.
  2. gRPC-backend — нормализатор, принимающий gRPC-запросы от API-proxy и направляющий их в микросервис Triton-backend.
  3. Triton-backend — микросервис, обслуживающий запросы непосредственно к модели.

По умолчанию микросервисы работают на следующих сетевых TCP-портах:

  • API-proxy: 8080 — REST-запросы
  • gRPC-backend: 17004 — gRPC-запросы
  • Triton-backend:
    • 8001 — gRPC-запросы
    • 8082 — метрики мониторинга в формате Prometheus

Номер любого из перечисленных портов может быть переопределен.

МоделиМодели

Помимо Docker-контейнеров компонентов в составе Cloud AI Hybrid поставляются конфигурационные файлы моделей в формате TRT. В данном примере файлы модели YandexGPT Pro размещены в директории ``./models/yagpt-pro`. В ходе развертывания она должна быть смонтирована внутрь микросервиса Triton-backend.

УправлениеУправление

Все параметры конфигурации рассматриваемой инсталляции Cloud AI Hybrid сосредоточены в двух файлах: .env и docker-compose.yaml.

Содержимое файла, описывающего схему запуска Cloud AI Hybrid посредством утилиты docker-compose:

services:
  api-proxy:
    depends_on:
      - grpc-backend
    container_name: api-proxy
    network_mode: host
    image: cr.yandex/.../services-proxy-foundation-models:0.240
    command:
      - "/bin/bash"
      - "-c"
      - "/root/server -config /etc/yandex/services_proxy/config.yaml -gateway-port 8080"
    environment:
      - TZ=UTC
      - CLOUD_INSTALLATION=0
    cap_add:
      - NET_BIND_SERVICE
    restart: always

  grpc-backend:
    depends_on:
      - triton-backend
    container_name: grpc-backend
    network_mode: host
    image: cr.yandex/.../grpc-backend:yagpt
    environment:
      - TZ=UTC
      - GRPC_NUM_CQS=64
      - GRPC_MIN_POLLERS=64
    restart: always

  triton-backend:
    container_name: triton-backend
    image: cr.yandex/.../triton-backend:yagpt-pro
    network_mode: host
    privileged: true
    environment:
      - TZ=UTC
      - MODEL_NAME=yagpt-pro
      - WORLD_SIZE=1
      - TRTLLM_NGRAM_PENALTY=true
      - CUDA_VISIBLE_DEVICES=0
      - NVIDIA_VISIBLE_DEVICES=0
      - NVIDIA_DRIVER_CAPABILITIES=compute,utility
    volumes:
      - ./models/yagpt-pro:/opt/yagpt-pro:ro
    shm_size: 2gb
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ["0"]
              capabilities: [gpu]
    restart: always

Схема запускается и останавливается командами docker-compose up -d и docker-compose down.

Функциональное тестированиеФункциональное тестирование

Отправка произвольного REST-запросаОтправка произвольного REST-запроса

time curl \
  --http1.0 \
  --request POST \
  "http://<server>:8080/foundationModels/v1/completion" \
  --header "Content-Type: application/json; charset=utf-8" \
  --header "Authorization: Bearer 0" \
  --data @- <<'EOF'
{
  "modelUri": "gpt://0/general",
  "completionOptions": {
    "stream": false,
    "temperature": 0.1,
    "maxTokens": "1000"
  },
  "messages": [
    {
      "role": "system",
      "text": "Translate text"
    },
    {
      "role": "user",
      "text": "To be, or not to be: that is the question."
    }
  ]
}
EOF

Результат:

{"result":{"alternatives":[{"message":{"role":"assistant","text":"Быть или не быть — вот в чём вопрос."},"status":"ALTERNATIVE_STATUS_FINAL"}],"usage":{"inputTextTokens":"26","completionTokens":"11","totalTokens":"37"},"modelVersion":"07.03.2024"}}

Была ли статья полезна?

Предыдущая
Системные требования
Следующая
Эксплуатация программного обеспечения
Проект Яндекса
© 2025 ООО «Яндекс.Облако»