Talk Analytics API, gRPC: TalkService.Get

Статья создана

Yandex Cloud

Обновлена 26 сентября 2025 г.

gRPC request
GetTalkRequest
GetTalkResponse
Talk
Field
Transcription
Phrase
PhraseText
Word
PhraseStatistics
UtteranceStatistics
AudioSegmentBoundaries
DescriptiveStatistics
Quantile
RecognitionClassifierResult
PhraseHighlight
RecognitionClassifierLabel
AlgorithmMetadata
Error
SpeechStatistics
SilenceStatistics
InterruptsStatistics
InterruptsEvaluation
ConversationStatistics
SpeakerStatistics
Points
Quiz
TextClassifiers
ClassificationResult
ClassifierStatistics
Histogram
Summarization
SummarizationStatement
SummarizationField
Assistants
AssistantResult
AssistantFieldResult
TalkState
AlgorithmProcessingInfo

rpc for bulk get

gRPC request

rpc Get (GetTalkRequest) returns (GetTalkResponse)

GetTalkRequest

{
  "organization_id": "string",
  "space_id": "string",
  "connection_id": "string",
  "project_id": "string",
  "talk_ids": [
    "string"
  ],
  "results_mask": "google.protobuf.FieldMask"
}

Field	Description
organization_id	string id of organization
space_id	string id of space
connection_id	string id of connection to search data
project_id	string id of project to search data
talk_ids[]	string ids of talks to return. Requesting too many talks may result in "message exceeds maximum size" error. Up to 100 of talks per request is recommended.
results_mask	google.protobuf.FieldMask All types of analysis will be returned if not set.

GetTalkResponse

{
  "talk": [
    {
      "id": "string",
      "organization_id": "string",
      "space_id": "string",
      "connection_id": "string",
      "project_ids": [
        "string"
      ],
      "created_by": "string",
      "created_at": "google.protobuf.Timestamp",
      "modified_by": "string",
      "modified_at": "google.protobuf.Timestamp",
      "talk_fields": [
        {
          "name": "string",
          "value": "string",
          "type": "FieldType"
        }
      ],
      "transcription": {
        "phrases": [
          {
            "channel_number": "int64",
            "start_time_ms": "int64",
            "end_time_ms": "int64",
            "phrase": {
              "text": "string",
              "language": "string",
              "normalized_text": "string",
              "words": [
                {
                  "word": "string",
                  "start_time_ms": "int64",
                  "end_time_ms": "int64"
                }
              ]
            },
            "statistics": {
              "statistics": {
                "speaker_tag": "string",
                "speech_boundaries": {
                  "start_time_ms": "int64",
                  "end_time_ms": "int64",
                  "duration_seconds": "int64"
                },
                "total_speech_ms": "int64",
                "speech_ratio": "double",
                "total_silence_ms": "int64",
                "silence_ratio": "double",
                "words_count": "int64",
                "letters_count": "int64",
                "words_per_second": {
                  "min": "double",
                  "max": "double",
                  "mean": "double",
                  "std": "double",
                  "quantiles": [
                    {
                      "level": "double",
                      "value": "double"
                    }
                  ]
                },
                "letters_per_second": {
                  "min": "double",
                  "max": "double",
                  "mean": "double",
                  "std": "double",
                  "quantiles": [
                    {
                      "level": "double",
                      "value": "double"
                    }
                  ]
                }
              }
            },
            "classifiers": [
              {
                "start_time_ms": "int64",
                "end_time_ms": "int64",
                "classifier": "string",
                "highlights": [
                  {
                    "text": "string",
                    "offset": "int64",
                    "count": "int64"
                  }
                ],
                "labels": [
                  {
                    "label": "string",
                    "confidence": "double"
                  }
                ]
              }
            ]
          }
        ],
        "algorithms_metadata": [
          {
            "created_task_date": "google.protobuf.Timestamp",
            "completed_task_date": "google.protobuf.Timestamp",
            "error": {
              "code": "string",
              "message": "string"
            },
            "trace_id": "string",
            "name": "string"
          }
        ]
      },
      "speech_statistics": {
        "total_simultaneous_speech_duration_seconds": "int64",
        "total_simultaneous_speech_duration_ms": "int64",
        "total_simultaneous_speech_ratio": "double",
        "simultaneous_speech_duration_estimation": {
          "min": "double",
          "max": "double",
          "mean": "double",
          "std": "double",
          "quantiles": [
            {
              "level": "double",
              "value": "double"
            }
          ]
        }
      },
      "silence_statistics": {
        "total_simultaneous_silence_duration_ms": "int64",
        "total_simultaneous_silence_ratio": "double",
        "simultaneous_silence_duration_estimation": {
          "min": "double",
          "max": "double",
          "mean": "double",
          "std": "double",
          "quantiles": [
            {
              "level": "double",
              "value": "double"
            }
          ]
        },
        "total_simultaneous_silence_duration_seconds": "int64"
      },
      "interrupts_statistics": {
        "speaker_interrupts": [
          {
            "speaker_tag": "string",
            "interrupts_count": "int64",
            "interrupts_duration_ms": "int64",
            "interrupts": [
              {
                "start_time_ms": "int64",
                "end_time_ms": "int64",
                "duration_seconds": "int64"
              }
            ],
            "interrupts_duration_seconds": "int64"
          }
        ]
      },
      "conversation_statistics": {
        "conversation_boundaries": {
          "start_time_ms": "int64",
          "end_time_ms": "int64",
          "duration_seconds": "int64"
        },
        "speaker_statistics": [
          {
            "speaker_tag": "string",
            "complete_statistics": {
              "speaker_tag": "string",
              "speech_boundaries": {
                "start_time_ms": "int64",
                "end_time_ms": "int64",
                "duration_seconds": "int64"
              },
              "total_speech_ms": "int64",
              "speech_ratio": "double",
              "total_silence_ms": "int64",
              "silence_ratio": "double",
              "words_count": "int64",
              "letters_count": "int64",
              "words_per_second": {
                "min": "double",
                "max": "double",
                "mean": "double",
                "std": "double",
                "quantiles": [
                  {
                    "level": "double",
                    "value": "double"
                  }
                ]
              },
              "letters_per_second": {
                "min": "double",
                "max": "double",
                "mean": "double",
                "std": "double",
                "quantiles": [
                  {
                    "level": "double",
                    "value": "double"
                  }
                ]
              }
            },
            "words_per_utterance": {
              "min": "double",
              "max": "double",
              "mean": "double",
              "std": "double",
              "quantiles": [
                {
                  "level": "double",
                  "value": "double"
                }
              ]
            },
            "letters_per_utterance": {
              "min": "double",
              "max": "double",
              "mean": "double",
              "std": "double",
              "quantiles": [
                {
                  "level": "double",
                  "value": "double"
                }
              ]
            },
            "utterance_count": "int64",
            "utterance_duration_estimation": {
              "min": "double",
              "max": "double",
              "mean": "double",
              "std": "double",
              "quantiles": [
                {
                  "level": "double",
                  "value": "double"
                }
              ]
            }
          }
        ]
      },
      "points": {
        "quiz": [
          {
            "request": "string",
            "response": "google.protobuf.StringValue",
            "id": "string"
          }
        ]
      },
      "text_classifiers": {
        "classification_result": [
          {
            "classifier": "string",
            "classifier_statistics": [
              {
                "channel_number": "google.protobuf.Int64Value",
                "total_count": "int64",
                "histograms": [
                  {
                    "count_values": [
                      "int64"
                    ]
                  }
                ]
              }
            ]
          }
        ]
      },
      "summarization": {
        "statements": [
          {
            "field": {
              "id": "string",
              "name": "string",
              "type": "SummarizationFieldType"
            },
            "response": [
              "string"
            ]
          }
        ]
      },
      "assistants": {
        "assistant_results": [
          {
            "assistant_id": "string",
            "results": [
              {
                "field_id": "string",
                // Includes only one of the fields `string_result`, `int_result`, `float_result`
                "string_result": "string",
                "int_result": "int64",
                "float_result": "double"
                // end of the list of possible fields
              }
            ]
          }
        ]
      },
      "talk_state": {
        "processing_state": "ProcessingState",
        "algorithm_processing_infos": [
          {
            "algorithm": "Algorithm",
            "processing_state": "ProcessingState"
          }
        ]
      }
    }
  ]
}

Field	Description
talk[]	Talk

Talk

Field	Description
id	string talk id
organization_id	string
space_id	string
connection_id	string
project_ids[]	string
created_by	string audition info
created_at	google.protobuf.Timestamp
modified_by	string
modified_at	google.protobuf.Timestamp
talk_fields[]	Field key-value representation of talk fields with values
transcription	Transcription various ml analysis results
speech_statistics	SpeechStatistics
silence_statistics	SilenceStatistics
interrupts_statistics	InterruptsStatistics
conversation_statistics	ConversationStatistics
points	Points
text_classifiers	TextClassifiers
summarization	Summarization
assistants	Assistants
talk_state	TalkState

Field

connection field value

Field	Description
name	string name of the field
value	string field value
type	enum FieldType field type `FIELD_TYPE_UNSPECIFIED` `FIELD_TYPE_STRING` `FIELD_TYPE_NUMBER` `FIELD_TYPE_DECIMAL` `FIELD_TYPE_BOOLEAN` `FIELD_TYPE_DATE` `FIELD_TYPE_JSON`

Transcription

Field

Description

phrases[]

Phrase

algorithms_metadata[]

AlgorithmMetadata

Their might be several algorithms that work on talk transcription. For example: speechkit and translator
So there might be other fields here for tracing

Phrase

Field	Description
channel_number	int64
start_time_ms	int64
end_time_ms	int64
phrase	PhraseText
statistics	PhraseStatistics
classifiers[]	RecognitionClassifierResult

PhraseText

Field	Description
text	string
language	string
normalized_text	string
words[]	Word

Word

Field	Description
word	string
start_time_ms	int64
end_time_ms	int64

PhraseStatistics

Field	Description
statistics	UtteranceStatistics

UtteranceStatistics

Field	Description
speaker_tag	string
speech_boundaries	AudioSegmentBoundaries Audio segment boundaries
total_speech_ms	int64 Total speech duration
speech_ratio	double Speech ratio within audio segment
total_silence_ms	int64 Total silence duration
silence_ratio	double Silence ratio within audio segment
words_count	int64 Number of words in recognized speech
letters_count	int64 Number of letters in recognized speech
words_per_second	DescriptiveStatistics Descriptive statistics for words per second distribution
letters_per_second	DescriptiveStatistics Descriptive statistics for letters per second distribution

AudioSegmentBoundaries

Field	Description
start_time_ms	int64 Audio segment start time
end_time_ms	int64 Audio segment end time
duration_seconds	int64 Duration in seconds

DescriptiveStatistics

Field	Description
min	double Minimum observed value
max	double Maximum observed value
mean	double Estimated mean of distribution
std	double Estimated standard deviation of distribution
quantiles[]	Quantile List of evaluated quantiles

Quantile

Field

Description

level

double

Quantile level in range (0, 1)

value

double

Quantile value

RecognitionClassifierResult

Field	Description
start_time_ms	int64 Start time of the audio segment used for classification
end_time_ms	int64 End time of the audio segment used for classification
classifier	string Name of the triggered classifier
highlights[]	PhraseHighlight List of highlights, i.e. parts of phrase that determine the result of the classification
labels[]	RecognitionClassifierLabel Classifier predictions

PhraseHighlight

Field	Description
text	string Text transcription of the highlighted audio segment
offset	int64 offset in symbols from the beginning of whole phrase where highlight begins
count	int64 count of symbols in highlighted text

RecognitionClassifierLabel

Field

Description

label

string

The label of the class predicted by the classifier

confidence

double

The prediction confidence

AlgorithmMetadata

Field	Description
created_task_date	google.protobuf.Timestamp
completed_task_date	google.protobuf.Timestamp
error	Error
trace_id	string
name	string

Error

Field	Description
code	string
message	string

SpeechStatistics

Field	Description
total_simultaneous_speech_duration_seconds	int64 Total simultaneous speech duration in seconds
total_simultaneous_speech_duration_ms	int64 Total simultaneous speech duration in ms
total_simultaneous_speech_ratio	double Simultaneous speech ratio within audio segment
simultaneous_speech_duration_estimation	DescriptiveStatistics Descriptive statistics for simultaneous speech duration distribution

SilenceStatistics

Field	Description
total_simultaneous_silence_duration_ms	int64
total_simultaneous_silence_ratio	double Simultaneous silence ratio within audio segment
simultaneous_silence_duration_estimation	DescriptiveStatistics Descriptive statistics for simultaneous silence duration distribution
total_simultaneous_silence_duration_seconds	int64

InterruptsStatistics

Field

Description

speaker_interrupts[]

InterruptsEvaluation

Interrupts description for every speaker

InterruptsEvaluation

Field	Description
speaker_tag	string Speaker tag
interrupts_count	int64 Number of interrupts made by the speaker
interrupts_duration_ms	int64 Total duration of all interrupts
interrupts[]	AudioSegmentBoundaries Boundaries for every interrupt
interrupts_duration_seconds	int64 Total duration of all interrupts in seconds

ConversationStatistics

Field

Description

conversation_boundaries

AudioSegmentBoundaries

Audio segment boundaries

speaker_statistics[]

SpeakerStatistics

Average statistics for each speaker

SpeakerStatistics

Field	Description
speaker_tag	string Speaker tag
complete_statistics	UtteranceStatistics analysis of all phrases in format of single utterance
words_per_utterance	DescriptiveStatistics Descriptive statistics for words per utterance distribution
letters_per_utterance	DescriptiveStatistics Descriptive statistics for letters per utterance distribution
utterance_count	int64 Number of utterances
utterance_duration_estimation	DescriptiveStatistics Descriptive statistics for utterance duration distribution

Points

Field	Description
quiz[]	Quiz

Quiz

Field	Description
request	string
response	google.protobuf.StringValue
id	string

TextClassifiers

Field	Description
classification_result[]	ClassificationResult

ClassificationResult

Field

Description

classifier

string

Classifier name

classifier_statistics[]

ClassifierStatistics

Classifier statistics

ClassifierStatistics

Field	Description
channel_number	google.protobuf.Int64Value Channel number, null for whole talk
total_count	int64 classifier total count
histograms[]	Histogram Represents various histograms build on top of classifiers

histogram count values. For example:
if len(count_values) = 2, it means that histogram is 50/50,
if len(count_values) = 3 - [0] value represents first third, [1] - second third, [2] - last third, etc.

Summarization

Field	Description
statements[]	SummarizationStatement

SummarizationStatement

Field	Description
field	SummarizationField
response[]	string

SummarizationField

Field	Description
id	string
name	string
type	enum SummarizationFieldType `SUMMARIZATION_FIELD_TYPE_UNSPECIFIED` `TEXT` `TEXT_ARRAY`

Assistants

Field

Description

assistant_results[]

AssistantResult

List of assistants results

AssistantResult

Field

Description

assistant_id

string

Assistant id

results[]

AssistantFieldResult

Per-field assistant results

AssistantFieldResult

Field	Description
field_id	string Assistant result field id
string_result	string Result as a string Includes only one of the fields `string_result`, `int_result`, `float_result`. Parsed model answer for the field. If the model answer could not be parsed, no result fields will be set.
int_result	int64 Result as an integer Includes only one of the fields `string_result`, `int_result`, `float_result`. Parsed model answer for the field. If the model answer could not be parsed, no result fields will be set.
float_result	double Result as a floating-point number Includes only one of the fields `string_result`, `int_result`, `float_result`. Parsed model answer for the field. If the model answer could not be parsed, no result fields will be set.

TalkState

Field

Description

processing_state

enum ProcessingState

PROCESSING_STATE_UNSPECIFIED
PROCESSING_STATE_NOT_STARTED
PROCESSING_STATE_PROCESSING
PROCESSING_STATE_SUCCESS
PROCESSING_STATE_FAILED

algorithm_processing_infos[]

AlgorithmProcessingInfo

AlgorithmProcessingInfo

Field

Description

algorithm

enum Algorithm

ALGORITHM_UNSPECIFIED
ALGORITHM_SPEECHKIT
ALGORITHM_YGPT
ALGORITHM_CLASSIFIER
ALGORITHM_SUMMARIZATION
ALGORITHM_EMBEDDING
ALGORITHM_STATISTICS
ALGORITHM_ASSISTANT

processing_state

enum ProcessingState

PROCESSING_STATE_UNSPECIFIED
PROCESSING_STATE_NOT_STARTED
PROCESSING_STATE_PROCESSING
PROCESSING_STATE_SUCCESS
PROCESSING_STATE_FAILED

Talk Analytics API, gRPC: TalkService.Get

gRPC requestgRPC request

GetTalkRequestGetTalkRequest

GetTalkResponseGetTalkResponse

TalkTalk

FieldField

TranscriptionTranscription

PhrasePhrase

PhraseTextPhraseText

WordWord

PhraseStatisticsPhraseStatistics

UtteranceStatisticsUtteranceStatistics

AudioSegmentBoundariesAudioSegmentBoundaries

DescriptiveStatisticsDescriptiveStatistics

QuantileQuantile

RecognitionClassifierResultRecognitionClassifierResult

PhraseHighlightPhraseHighlight

RecognitionClassifierLabelRecognitionClassifierLabel

AlgorithmMetadataAlgorithmMetadata

ErrorError

SpeechStatisticsSpeechStatistics

SilenceStatisticsSilenceStatistics

InterruptsStatisticsInterruptsStatistics

InterruptsEvaluationInterruptsEvaluation

ConversationStatisticsConversationStatistics

SpeakerStatisticsSpeakerStatistics

PointsPoints

QuizQuiz

TextClassifiersTextClassifiers

ClassificationResultClassificationResult

ClassifierStatisticsClassifierStatistics

HistogramHistogram

SummarizationSummarization

SummarizationStatementSummarizationStatement

SummarizationFieldSummarizationField

AssistantsAssistants

AssistantResultAssistantResult

AssistantFieldResultAssistantFieldResult

TalkStateTalkState

AlgorithmProcessingInfoAlgorithmProcessingInfo

Была ли статья полезна?

gRPC request

GetTalkRequest

GetTalkResponse

Talk

Field

Transcription

Phrase

PhraseText

Word

PhraseStatistics

UtteranceStatistics

AudioSegmentBoundaries

DescriptiveStatistics

Quantile

RecognitionClassifierResult

PhraseHighlight

RecognitionClassifierLabel

AlgorithmMetadata

Error

SpeechStatistics

SilenceStatistics

InterruptsStatistics

InterruptsEvaluation

ConversationStatistics

SpeakerStatistics

Points

Quiz

TextClassifiers

ClassificationResult

ClassifierStatistics

Histogram

Summarization

SummarizationStatement

SummarizationField

Assistants

AssistantResult

AssistantFieldResult

TalkState

AlgorithmProcessingInfo