Управление роботизированным трафиком
Веб-ресурсы обрабатывают значительную долю роботизированного трафика. При этом часть ботов — легитимные и необходимы для работы различных веб-сервисов. Например, веб-краулеры
Smart Web Security предоставляет гибкие инструменты для защиты и фильтрации роботизированного трафика:
- Список категорий верифицированных ботов по их назначению или характеру действий (AcademicResearchBot, AISearchBot).
- Актуальные списки легитимных ботов различных сервисов и компаний (Yandex, Googlebot, Bing).
- Возможность использовать признак верифицированного бота.
- Настройка порогов вероятности бота (Bot Score) от 0 до 100 для индивидуальной настройки правил.
Перечисленные условия на трафик можно задать в правилах профиля безопасности (базовом, Smart Protection, WAF) и в правилах профиля ARL.
Результат фильтрации трафика и уровень вероятности бота доступны в логах для более тонкой настройки правил безопасности.
Категории верифицированных ботов
AcademicResearchBot— боты для сбора данных из интернета, которые используются в академических исследованиях. Помогают автоматизировать извлечение информации для анализа и изучения научных проблем.AccessibilityBot— боты для улучшения доступности контента в интернете для людей с ограниченными возможностями. Например, помогают озвучивать текст на сайте.AdvertisingAndMarketingBot— боты для поддержки рекламных и маркетинговых кампаний.AggregatorBot— боты для сбора и распространения информации. Например, для агрегации статей с новостных сайтов.AIAssistantBot— ассистенты на базе искусственного интеллекта. Используются для решения широкого круга задач.AICrawlerBot— боты для обучения и улучшения моделей искусственного интеллекта. Могут собирать данные для тренировки алгоритмов машинного обучения.AISearchBot— боты на основе искусственного интеллекта, оптимизированные для интерактивного поиска и предоставления информации по запросам пользователей.ArchiverBot— боты для записи и долгосрочного хранения копий веб-страниц и других интернет-ресурсов.FeedFetcherBot— боты для извлечения данных из различных источников с регулярными обновлениями, таких как новостные ленты и блоги. Помогают пользователям получать актуальную информацию.MonitoringAndAnalyticsBot— боты для сбора аналитики по веб-сайтам. Отслеживают различные метрики сайтов (например, посещаемость, скорость загрузки, количество ошибок) и предоставляют аналитическую информацию для улучшения работы сайтов.PagePreviewBot— бот для генерации предварительного просмотра страниц по ссылкам, которыми делятся пользователи в мессенджерах или соцсетях.SearchEngineCrawlerBot— боты для сканирования интернета и индексации страниц для поисковых систем. Помогают системам, например Яндексу, обновлять базы данных и предоставлять актуальные результаты поиска.SearchOptimizationBot— боты для оптимизации сайтов и улучшения их видимости в поисковых системах. Анализируют страницы на наличие ошибок, предлагают изменения в контенте и структуре.SecurityBot— боты для проверки веб-сайтов на уязвимости и различные угрозы безопасности.SocialMediaMarketingBot— боты для управления присутствием брендов в социальных сетях. Автоматизируют публикации, модерацию и ответы пользователям, собирают аналитику и оценивают эффективность SMM-кампаний.WebhooksBot— боты для автоматизации процессов с помощью технологий реального времени, позволяющих веб-приложениям взаимодействовать друг с другом.OthersBot— прочие категории верифицированных ботов.
Список легитимных ботов
Ниже приведен список ботов, которые используются различными компаниями для индексации контента, предоставления информации по запросам пользователей, SEO-оптимизации и обучения AI-моделей. Список регулярно обновляется. На основе этого списка вы можете настроить условия на трафик с учетом особенностей вашего сервиса или приложения.
Легитимные боты доверенных сервисов и компаний
YandexBot— основной индексирующий бот Яндекса.YandexAccessibilityBot— бот проверяет доступность и работоспособность сайта.YandexAdNetBot— рекламный бот.YandexBlogs— бот индексирует посты в интернет‑блогах для поиска по ним в Яндекс Поиске.YandexMirrorDetectorBot— бот находит зеркала сайта.YandexCalendar— бот скачивает файлы календарей по запросам пользователей. Часто эти файлы находятся в каталогах, недоступных для индексации.YandexDirect— бот загружает информацию о контенте сайтов‑партнеров рекламной сети Яндекса, чтобы определить их категории и выбрать релевантные объявления.YandexFavicons— бот скачивает иконки сайтов (favicon.ico) для отображения в поисковой выдаче.YaDirectFetcher— бот Яндекса, который загружает страницы объявлений для проверки их доступности и уточнения категории.YandexForDomain— бот используется для проверки права владения доменом.YandexImages— бот индексирует изображения для Яндекс Поиска.YandexImageResizer— бот собирает изображения с сайтов и обрабатывает их для отображения на различных устройствах в разных форматах.YandexMobileBot— бот определяет страницы, подходящие для мобильных устройств.YandexMarket— бот Яндекс Маркета для получения актуальной информации о товаре с сайтов интернет‑магазинов.YandexMedia— бот индексирует мультимедийные данные для Яндекс Поиска.YandexMetrika— бот загружает страницы сайта, в том числе страницы объявлений Яндекс Директ, чтобы проверить их доступность.YandexMobileScreenShotBot— бот делает снимок экрана страницы для мобильных устройств.YandexNews— бот для агрегации новостей.YandexOntoDB— бот генерирует карточки‑ответы в Яндекс Поиске.YandexPagechecker— бот получает доступ к странице, когда запускается проверка микроданных через форму проверки структурированных данных.YandexPartner— бот скачивает информацию о содержимом сайтов‑партнеров Яндекса.YandexRCA— бот собирает данные для генерации превью страниц.YandexRenderResourcesBot— бот загружает ресурсы для рендеринга страницы с помощью JavaScript.YandexSearchShop— бот загружает YML‑файлы каталогов продукции по запросам пользователей. Часто эти файлы находятся в каталогах, ограниченных для индексации.YandexSitelinks— бот проверяет доступность страниц, которые используются в качестве дополнительных ссылок (sitelinks).YandexSpravBot— бот сервиса Яндекс Бизнес.YandexTracker— бот Яндекс Трекера.YandexUserproxy— бот управляет действиями пользователя в сервисах Яндекса, например отправляет запросы в ответ на нажатие кнопки и загружает страницы для онлайн‑перевода.YandexVertis— поисковый бот Яндекс Вертикалей.YandexVerticals— бот сервисов объявлений: Авто.ру, Яндекс Недвижимость, Яндекс Вакансии и Яндекс Отзывы.YandexVideo— бот индексирует видео для показа в поисковой выдаче.YandexWebmaster— бот Яндекс Вебмастера для SEO‑оптимизации.YandexScreenshotBot— бот для удобного и быстрого создания скриншотов веб‑страниц.YandexAdditionalBot— бот для создания быстрых ответов с YandexGPT.YandexComBot— бот индексирует контент для нерусскоязычного сегмента поиска.ZenBot— бот Дзена для агрегации новостей с порталов‑клиентов.MailruBot— бот Mail.ru.Googlebot— бот Google для индексации сайтов.StorebotGoogle— бот Google для индексации интернет‑магазинов.GoogleInspectionTool— бот Google, который используется в инструментах тестирования сайтов.GoogleOther— бот Google общего назначения, который используется командами разных продуктов для получения общедоступных материалов сайтов.GoogleCloudVertexBot— бот Google, с помощью которого владельцы сайтов создают агентов на основе Vertex AI.GoogleExtended— бот Google для AI-поиска.APIsGoogle— бот для отправки пуш‑уведомлений со стороны API Google.AdsBotGoogle— бот Google для проверки качества рекламных объявлений на сайте.MediapartnersGoogle— бот Google сканирует сайты из программы AdSense для размещения релевантных объявлений.GoogleSafety— бот Google выполняет сканирование для поиска нарушений правил использования платформы, например ищет вредоносное ПО в общедоступных ссылках продуктов Google.FeedFetcherGoogle— бот для сканирования фидов RSS или Atom для Google News и PubSubHubbub.GoogleProducer— бот извлекает и обрабатывает фиды, которые явно предоставлены издателями для целевых страниц Google News.GoogleReadAloud— бот по запросу пользователя получает и зачитывает веб‑страницы, преобразуя текст в речь.GoogleSiteVerification— бот извлекает токены подтверждения Search Console для подтверждения права собственности на сайт в Google.Bingbot— индексирующий бот Microsoft.AdIdxBot— поисковый бот службы Bing Ads, который сканирует рекламу и переходит на веб‑сайты по объявлениям для контроля качества.BingPreview— бот создает превью страниц в Bing.MicrosoftPreview— бот создает превью страниц для сервисов Microsoft.Amazonbot— поисковый бот Amazon для улучшения качества услуг, например помогает Alexa более точно отвечать на вопросы клиентов.Applebot— бот собирает данные для работы различных инструментов, интегрированных в пользовательские интерфейсы экосистемы Apple (Spotlight, Siri, Safari), например для технологии поиска.FacebookExternalHit— бот собирает, кеширует и показывает информацию о сайте или приложении, в том числе название, описание и иконку (миниатюрное изображение).MetaExternalAgent— бот просматривает веб‑контент для обучения моделей искусственного интеллекта и улучшения продуктов путем прямого индексирования контента.Meta‑ExternalFetcher— бот поддерживает способность Meta AI предоставлять пользователям актуальную информацию, выходящую за рамки обучающих данных.Pinterestbot— бот сканирует общедоступные сайты для индексации контента и направления трафика на эти сайты, проверяет актуальность данных в пинах (например, цену и название), удаляет нерабочие ссылки.Slackbot‑LinkExpanding— бот для сбора данных из ссылок в постах Slack для показа превью этих ссылок.Slack‑ImgProxy— бот используется для извлечения и кеширования изображений, размещенных в каналах Slack.Slackbot— бот выполняет API‑запросы к сервисам, обрабатывает вебхуки в Slack и может выполнять другие функции, которыми не занимаются Slackbot‑LinkExpanding и Slack‑ImgProxy.Qwantbot— индексирующий бот Qwant.Senutobot— бот для оказания услуг по поисковой оптимизации сайтов от компании Senuto.CCBot— бот архивирует веб‑страницы для сайта commoncrawl.org.YahooSlurpBot— основной индексирующий бот Yahoo.YahooLinkPreviewBot— бот для предпросмотра страниц Yahoo.YahooMailProxyBot— бот для предпросмотра ссылок в письмах Yahoo Mail.YahooAdMonitoring— клиент извлекает содержимое по URL‑адресам, указанным в рекламных сервисах Yahoo. Содержимое целевой страницы используется для повышения точности рекламных объявлений на странице, а значит, и удобства взаимодействия с пользователем.Pingdom— бот для автоматизированного тестирования и мониторинга сайтов.SEMrushBot— бот для оказания услуг по поисковой оптимизации сайтов от компании SEMrush.OdklBot— бот социальной сети Одноклассники.vkShareBot— бот для создания виджета Поделиться на вашей странице. При нажатии на виджет автоматически создается пост в VK со ссылкой на сайт.Twitterbot— бот для показа превью страниц в X.TelegramBot— бот для показа превью страниц в Telegram.SeznamBot— индексирующий бот Seznam.WebArchiveBot— бот‑архиватор сайта archive.org.DuckDuckBot— индексирующий бот DuckDuckGo.rogerbot— бот для оказания услуг по поисковой оптимизации сайтов от компании SEOmoz.dotbot— бот для оказания услуг по поисковой оптимизации сайтов от компании SEOmoz.PetalBot— индексирующий бот поисковика Petal Search от Huawei.AhrefsBot— индексирующий бот поисковика Yep.AhrefsSiteAudit— бот для SEO‑оптимизации, используемый в инструменте Ahrefs Site Audit tool.Proximic— маркетинговый бот компании ComScore.DataForSEOBot— бот для оказания услуг по поисковой оптимизации сайтов от компании DataForSEO.SeekportBot— индексирующий бот поисковика Seekport.Serpstatbot— бот для оказания услуг по поисковой оптимизации сайтов от компании Serpstat.GPTBot— бот для обучения моделей ChatGPT.ChatGPTUser— бот, который может использоваться для посещения сайтов, указанных в запросе пользователя ChatGPT.OAISearchBot— бот для умного поиска в ChatGPT.Synthetics— бот для автоматизированного тестирования и мониторинга сайтов.UptimeRobot— бот для автоматизированного тестирования и мониторинга.BLEXBot— бот для оказания услуг по поисковой оптимизации сайтов от компании SE Ranking.BaiduSpider— индексирующий бот китайского поисковика Baidu.Stripe— бот компании Stripe для автоматизации взаимодействия с платежной платформой Stripe.ClaudeBot— бот для обучения моделей Claude.Claude‑User— с помощью Claude‑User agent обеспечивается доступ Claude AI к веб‑сайтам при обработке запросов пользователей.Claude‑SearchBot— бот анализирует онлайн‑контент для повышения релевантности и точности запросов пользователя.PerplexityBot— бот для обучения моделей Perplexity.Perplexity‑User— бот для посещения сайтов, указанных в запросе пользователя Perplexity.QcBot— бот для онлайн‑сервисов QUIC.cloud, которые требуют получения данных с вашего сайта с последующей доставкой результата на ваш сайт. Например, бот извлекает изображения с вашего сайта для их оптимизации и уведомляет сайт, когда обновленные изображения готовы к загрузке.AudistoBot— бот для предоставления услуг по SEO‑оптимизации и мониторингу сайтов.CoccocBot— основной индексирующий бот поисковой системы CốC CốC.IASCrawlerBot— бот для оказания услуг по анализу и верификации цифровой рекламы.IbouBot— основной индексирующий бот Ibou.JobswithgptcomBot— бот для агрегации вакансий компании Jobswithgptcom.MonsidoBot— бот для мониторинга состояния вашего сайта с помощью сервиса Monsido.PaqleBot— основной индексирующий бот Paqle.QuantcastBot— бот для анализа рекламы, которая размещается на сайтах.SvnBot— бот для мониторинга работоспособности сайтов.TestomatoBot— бот для мониторинга работоспособности сайтов.PingAdminBot— бот для мониторинга работоспособности сайтов.Meta‑WebIndexerBot— бот просматривает веб‑ресурсы, чтобы повысить качество результатов поиска Meta AI для пользователей.Meta‑ExternalAdsBot— бот просматривает веб‑контент в поисках сценариев использования, таких как улучшение рекламы и других бизнес‑продуктов и услуг.
Оценка вероятности бота
Чтобы настроить индивидуальные правила для вашего трафика, можно задать правила фильтрации по уровню вероятности бота — Bot Score.
Smart Web Security присваивает трафику уровень от 0 (самая низкая вероятность, человек) до 100 (самая высокая вероятность, бот).
При принятии решения используются следующие пороги значений:
не более 20— человек;20–40— вероятно человек;40–60— не определено;60–80— вероятно бот;более 80— бот.
В условиях фильтрации запросов укажите пороговые значения уровня, используя операторы >=, <=, =, != и логический оператор и.
Например, =10, >=20 и <=40.
Для окончательной настройки используйте правило в режиме только логирование и анализируйте логи для определения оптимального уровня.