Требования к инфраструктуре для работы SpeechSense Hybrid

Статья создана

Обновлена 28 августа 2025 г.

Чтобы развернуть модуль SpeechSense Hybrid, необходимо подготовить инфраструктуру. Потребуется кластер Kubernetes с поддержкой GPU, развернутые базы данных PostgreSQL, ClickHouse®, OpenSearch, а также объектное хранилище, совместимое с AWS API или Yandex Object Storage API.

Компонент инфраструктуры	Назначение	Целевой компонент
PostgreSQL	Хранение метаданных сервисов	Model Service, Queue Agent, Tuning Service, Dataset Service
Объектное хранилище S3	Хранение данных моделей. API объектного хранилища должен быть совместим с Yandex Object Storage API	Model Service, Queue Agent, Tuning Service, Dataset Service
(Опционально) Apache Kafka®	Работа с очередями. По умолчанию данные записываются агентом очередей в PostgreSQL и асинхронно обрабатываются компонентами Inference	Inference Backend
Kubernetes	Инфраструктурный слой работы SpeechSense Hybrid
ClickHouse®	Обеспечение работы отчетности, хранение эмбеддингов для смыслового поиска и смысловых тегов	SpeechSense Hybrid
OpenSearch	Хранение и индексация текстов диалогов и метаданных. Полнотекстовый поиск и фильтрация.	SpeechSense Hybrid

Для всех баз данных необходим режим кластеризации. Для PostgreSQL предпочтителен режим физической репликации с возможностью читать данные из реплики. Для Apache Kafka® необходимы стандартные для этой базы режимы кластеризации и кворума.

Кластер Kubernetes должен поддерживать Persistent volume claim с объектным хранилищем (S3 Storage). То есть требуется драйвер CSI (Container Storage Interface) для доступа к S3 API. Узлы группы Kubernetes должны иметь GPU и набор LTS-драйверов NVIDIA®.

Требования к инфраструктуре для работы SpeechSense Hybrid

Была ли статья полезна?