Обработка результатов распознавания с помощью LLM
SpeechKit API v3 позволяет не только распознавать аудио, но и обрабатывать результаты распознавания с помощью больших генеративных моделей. Таким образом можно автоматизировать обработку результатов распознавания речи, например, сразу же получить краткий пересказ распознанного аудио, на основе аудио заполнить определенные поля в CRM-системе или перевести диалог на английский язык.
Чтобы использовать возможности генеративных моделей при распознавании аудио, в конфигурации запроса заполните блок summarization
. Вы можете указать только текстовую инструкцию (промт) для модели или задать структуру ответа в виде JSON. Подробнее про структуру ответа см. в документации Foundation Models. Чтобы использовать возможности генеративных моделей в SpeechKit API v3, понадобится роль ai.languageModels.user
или выше.
{
...
"summarization": {
"modelUri": "gpt://<идентификатор_каталога>/<название_модели>",
"properties": [
{
"instruction": "Промт для модели"
}
]
}
...
}
{
...
"summarization": {
"modelUri": "gpt://<идентификатор_каталога>/<название_модели>",
"properties": [
{
"instruction": "Промт для модели, требующий структурированного ответа",
"jsonObject": true
}
]
}
...
}
{
...
"summarization": {
"modelUri": "gpt://<идентификатор_каталога>/<название_модели>",
"properties": [
{
"instruction": "Промт для модели, требующий структурированного ответа",
"jsonSchema": {
// Заданная схема вывода
"schema": "<json-схема>"
}
}
]
}
...
}
Где:
modelUri
— модель, доступная для работы в синхронном режиме.instruction
— промт модели («Выдели основные тезисы», «Переведи на английский»). Рекомендации по созданию промтов доступны в разделе Руководство по проектированию промтов, примеры эффективных промтов см. в библиотеке промтов YandexGPT.jsonObject
— при значенииtrue
задает вывод модели в виде JSON произвольного формата.jsonSchema
— схема для строго форматированного JSON-вывода.
Результаты работы модели вернутся в объекте summarization
:
{
...
"result": {
"summarization": {
"results": [
{
"response": "Текст от LLM-модели"
},
{
"response": "JSON от LLM-модели"
}
],
"contentUsage": {
"inputTextTokens": 150, // Токены запроса
"completionTokens": 80, // Токены ответа
"totalTokens": 230 // Суммарное потребление
}
}
}
...
}
Поле contentUsage
содержит детализацию расходов токенов. Стоимость использования зависит от выбранной модели и рассчитывается по тарифам сервиса Foundation Models на основе суммарного количества токенов в вопросе и ответе (поле totalTokens
).