Требования к инфраструктуре для работы SpeechSense Hybrid
Чтобы развернуть модуль SpeechSense Hybrid, необходимо подготовить инфраструктуру. Потребуется кластер Kubernetes с поддержкой GPU, развернутые базы данных PostgreSQL, ClickHouse®, OpenSearch, а также объектное хранилище, совместимое с AWS API или Yandex Object Storage API.
| Компонент инфраструктуры | Назначение | Целевой компонент |
|---|---|---|
| PostgreSQL | Хранение метаданных сервисов | Model Service, Queue Agent, Tuning Service, Dataset Service |
| Объектное хранилище S3 | Хранение данных моделей. API объектного хранилища должен быть совместим с Yandex Object Storage API | Model Service, Queue Agent, Tuning Service, Dataset Service |
| (Опционально) Apache Kafka® | Работа с очередями. По умолчанию данные записываются агентом очередей в PostgreSQL и асинхронно обрабатываются компонентами Inference | Inference Backend |
| Kubernetes | Инфраструктурный слой работы SpeechSense Hybrid | |
| ClickHouse® | Обеспечение работы отчетности, хранение эмбеддингов для смыслового поиска и смысловых тегов | SpeechSense Hybrid |
| OpenSearch | Хранение и индексация текстов диалогов и метаданных. Полнотекстовый поиск и фильтрация. | SpeechSense Hybrid |
Для всех баз данных необходим режим кластеризации. Для PostgreSQL предпочтителен режим физической репликации с возможностью читать данные из реплики. Для Apache Kafka® необходимы стандартные для этой базы режимы кластеризации и кворума.
Кластер Kubernetes должен поддерживать Persistent volume claim с объектным хранилищем (S3 Storage). То есть требуется драйвер CSI