Управление SLO в Monium
Для работы со SLO на главной странице сервиса Monium
Статусы SLO
В зависимости от результата вычислений и настроенного целевого значения SLO может перейти в один из следующих статусов:
-
OK — вычисление успешно, SLI не опустился ниже указанного SLO.
-
Alarm — вычисление успешно, SLI опустился ниже указанного SLO.
-
No data — хотя бы одна из метрик, на основе которых вычисляются SLO, не существует. Например, в имени метрики допущена ошибка, и такой метрики не существует, или указанная метрика была удалена по TTL.
Важно
Если в метриках отсутствуют точки, SLO продолжит вычисляться.
-
Error — пользовательская или системная ошибка. Например, SLO некорректно сконфигурирован и не может быть вычислен.
Настройка SLO
Базовые параметры
-
Название (обязательно) — произвольное название SLO. Например,
API Availability. -
Описание — дополнительное описание SLO.
-
Лейблы — список пар
ключ-значениедля разметки SLO дополнительной метаинформацией, которую можно использовать при поиске и фильтрации. Например, при выборе списка SLO для отображения в виджете. -
Метод расчета (обязательно) — способ вычисления SLI на основе событий:
- Good Events / Total Events — хорошие события и общие события, например, успешные ответы сервиса и общее количество запросов к сервису.
- Bad Events / Total Events — плохие события и общие события, например, ответы сервиса с ошибкой и общее количество запросов к сервису.
- Good Events / Bad Events — хорошие события и плохие события, например, успешные ответы сервиса и ответы сервиса с ошибкой.
При выборе любого из методов расчета количество событий неуказанного типа высчитывается автоматически. Например, если указаны только хорошие и плохие события, то общее количество событий высчитывается как сумма плохих и хороших событий.
-
Окно вычисления (обязательно) — период расчета SLO. По умолчанию
30d(30 дней).Примечание
Сейчас доступны окна в 1, 7 или 30 дней, в будущем будет поддержка произвольного окна вычисления до 1 года.
Важно
При выборе метрик для расчета SLI обратите внимание на TTL. Значение TTL-метрик не должно быть меньше, чем выбранное окно вычисления показателей. Иначе нужные метрики могут быть удалены из хранилища из-за прекращения их поставки.
-
Задержка вычисления (обязательно) — сдвиг временного окна назад во времени в секундах. По умолчанию
1m(1 минута).Примечание
Рекомендуется указывать задержку вычисления не менее 1 минуты, чтобы избавиться от неровностей в интервале сбора метрик и эффекта долгого накопления последней точки: для ее вычисления нужно получить значения всех метрик, для которых выполняется правило агрегации, а на момент вычисления SLO может быть получена только часть данных, и значение точки оказывается меньше, чем ожидается. Поэтому для SLO рекомендуется устанавливать достаточную задержку вычисления, чтобы избавиться от всех нежелательных эффектов при сборе метрик.
-
SLO (обязательно) — целевой показатель уровня надежности сервиса. По умолчанию
99%.
Список запросов
Примечание
Доступный набор запросов при создании SLO зависит от выбранного метода расчета.
Good Events
Набор запросов, которые возвращают линию или набор линий для вычисления блока Good Events. Для каждого запроса можно:
- Отключить вычисление запроса, выбрав пункт Деактивировать в контекстном меню за троеточием. Ссылки на запросы, которые не вычисляются, будут приводить к ошибкам.
- Исключить запрос из вычисления итогового результата и скрыть результаты вычисления запроса на графике, нажав на кнопку
. - Ссылаться на имена запросов как на переменные внутри одного блока.
Примечание
Результат вычисления блока Good Events всегда рассчитывается как сумма результатов всех запросов, входящих в этот блок. Из итогового результата исключаются запросы, которые были скрыты или деактивированы. Скрытые запросы продолжат вычисляться, на них можно ссылаться в других запросах внутри одного блока.
Bad Events
Набор запросов, которые возвращают линию или набор линий для вычисления блока Bad Events. Для каждого запроса можно:
- Отключить вычисление запроса, выбрав пункт Деактивировать в контекстном меню за троеточием. Ссылки на запросы, которые не вычисляются, будут приводить к ошибкам.
- Исключить запрос из вычисления итогового результата и скрыть результаты вычисления запроса на графике, нажав на кнопку
. - Ссылаться на имена запросов как на переменные внутри одного блока.
Примечание
Результат вычисления блока Bad Events всегда рассчитывается как сумма результатов всех запросов, входящих в этот блок. Из итогового результата исключаются запросы, которые были скрыты или деактивированы. Скрытые запросы продолжат вычисляться, на них можно ссылаться в других запросах внутри одного блока.
Total Events
Набор запросов, которые возвращают линию или набор линий для вычисления блока Total Events. Для каждого запроса можно:
- Отключить вычисление запроса, выбрав пункт Деактивировать в контекстном меню за троеточием. Ссылки на запросы, которые не вычисляются, будут приводить к ошибкам.
- Исключить запрос из вычисления итогового результата и скрыть результаты вычисления запроса на графике, нажав на кнопку
. - Ссылаться на имена запросов как на переменные внутри одного блока.
Примечание
Результат вычисления блока Total Events всегда рассчитывается как сумма результатов всех запросов, входящих в этот блок. Из итогового результата исключаются запросы, которые были скрыты или деактивированы. Скрытые запросы продолжают вычисляться, на них можно ссылаться в других запросах внутри одного блока.
Область предпросмотра
В области предпросмотра отображаются текущие вычисленные значения SLI и остатка Error Budget, основанные на запросах в блоках Good Events и Total Events. Для каждого из блоков с запросами показывается свой график с метриками. При изменении любых параметров SLO значения автоматически пересчитываются.
Для каждого из графиков метрик можно выбрать тип визуализации:
- Линия (по умолчанию).
- Область.
- Столбец.
- Точки.
Область предпросмотра можно закрыть в любой момент и повторно открыть нажатием на кнопку Предпросмотр в правом верхнем углу страницы.
Просмотр SLO
На странице просмотра SLO показываются его основные параметры, статус и текущие вычисленные показатели.
Примечание
Со страницы просмотра SLO можно перейти в обзор метрик, нажав на кнопку Перейти в метрики. После перехода на странице просмотра метрик покажут все запросы, участвующие в расчете SLO, а также метрики с результатами вычисления количества событий каждого типа (Good, Bad, Total).
В блоке История вычисления доступны следующие элементы:
- Временная шкала — компонент для управления выбранным интервалом просмотра графиков. По умолчанию выбран интервал, равный окну вычисления. Изменение временной шкалы влияет на все графики.
- SLI — история вычисленного значения SLI и изменения SLO. График с автоматическим масштабированием в зависимости от значения показателей.
- Error Budget burndown — график скорости расхода бюджета ошибок за интервал, равный окну вычисления. У этого графика фиксированный временной диапазон, равный окну вычисления. При изменении интервала на временной шкале диапазон на этом графике не изменится, правая граница оси X будет совпадать с правой границей выбранного интервала.
- Метрики Good Events / Bad Events или Bad Events / Total Events — график, показывающий результаты вычисления метрик, на основе которых высчитывается SLI. По умолчанию для этого графика включена нормализация и тип визуализации
Область. Нормализацию можно отключить, тогда на графике будут показаны абсолютные значения метрик. Поддерживаемые типы визуализации: линия, область (по умолчанию), столбец и точки.
В блоке Список запросов в режиме просмотра показаны запросы, на основе которых вычисляются Good Events, Bad Events и Total Events. Набор доступных запросов зависит от выбранного метода расчета.