Графики мониторинга
Примечание
Для обработчиков типа Stream сбор статистики отдельных HTTP-запросов не производится.
Графики мониторинга показывают состояние балансировщика и связанные метрики в реальном времени. Используйте их для обнаружения аномалий и анализа производительности. Статистика работы балансировщика автоматически записывается в метрики сервиса Yandex Monitoring. Полный список метрик, передаваемых в Yandex Monitoring, представлен в справочнике.
HTTP статистика
Графики HTTP показывают интенсивность трафика, стабильность ответов бэкендов и время обработки запросов. Используются для выявления аномалий в нагрузке, роста ошибок и деградации производительности.
RPS
RPS (Requests Per Second) — количество HTTP-запросов к балансировщику в секунду. График отображает интенсивность входящего трафика. Регулярно анализируйте график, чтобы определить среднюю нагрузку на балансировщик в разные дни и время. Средняя нагрузка позволит вовремя выявлять аномалии.
- Резкий рост RPS может указывать на увеличение пользователей или DDoS-атаку. Сравните с графиком 4xx или 5xx. Если ошибок нет — трафик скорее легитимный. Если есть — возможно, бэкенды не справляются с нагрузкой или происходит DDoS-атака.
- Резкое падение RPS в период обычной активности может означать, что балансировщик недоступен для пользователей. Проверьте его состояние, зоны доступности и DNS-записи.
5xx
5xx (Server Errors) — количество ответов с кодами 5xx, возвращаемых бэкендами через балансировщик. Это ключевой график для оценки стабильности серверной части.
- Резкий рост 5xx может означать, что бэкенды не справляются с нагрузкой из-за проблем с инфраструктурой. Чтобы локализовать проблему, изучите логи бэкендов.
- Плавный рост 5xx может говорить об утечке памяти или деградации ресурсов на бэкендах. Проверьте состояние инфраструктуры и при необходимости перезапустите экземпляры.
4xx
4xx (Client Errors) — количество ответов с кодами 4xx.
- Рост 4xx связан с пользовательскими ошибками, некорректными вызовами API и проблемами авторизации. Проверьте логи запросов и актуальность токенов доступа.
Latency
Latency — время от получения балансировщиком первого байта запроса до отправки последнего байта ответа. График отображает значения от 50-го до 99-го перцентиля.
- Сопоставляйте Latency с RPS, 5xx и метриками ресурсов бэкендов для поиска причин увеличения Latency.
Request size
Request size — суммарный объем запросов к балансировщику в секунду. Используется для оценки нагрузки на сеть и влияния больших запросов.
- Резкий рост объема запросов при неизменном RPS увеличивает Bytes per second. Проверьте пропускную способность и настройки сжатия.
Response size
Response size — суммарный объем ответов балансировщика в секунду.
- Рост Response size влияет на Latency и увеличивает сетевую нагрузку. Проверьте настройки сжатия и кэширования или измените формат ответа.
Статистика масштабирования
Графики масштабирования показывают поведение соединений и объем обрабатываемых данных. Используются для настройки автоматического масштабирования и оценки использования ресурсных единиц.
Active connections
Active connections — количество активных соединений.
- Резкий рост может указывать на увеличение пользовательских соединений, долгоживущие соединения или проблемы с закрытием соединений. Сравните с Requests per second — большое число активных соединений при низком RPS указывает на зависшие соединения.
Connections per second
Connections per second — количество новых соединений в секунду.
- Высокое значение при стабильном RPS означает, что пользователи не переиспользуют соединения или выполняют частые переподключения. Пиковые значения влияют на нагрузку инфраструктуры и могут потребовать увеличения ресурсных единиц.
Requests per second
Requests per second — количество запросов к балансировщику в секунду.
- Используйте для расчета требуемого числа ресурсных единиц и настройки порогов автоматического масштабирования.
Bytes per second
Bytes per second — суммарный объем запросов и ответов к балансировщику в секунду.
- Рост Bytes per second при неизменном RPS указывает на увеличение среднего размера запросов или ответов. Следите за показателем при планировании сетевой пропускной способности.
Совет
Чтобы вовремя выявлять сбои в работе инфраструктуры, создайте сводный дашборд по наиболее важным показателям: RPS, Latency для 99-го перцентиля и 5xx.