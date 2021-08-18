Затем Elasticsearch передает обработанный текст токенизатору, который очищает поток символов от знаков препинания и разбивает по определенным правилам на отдельные слова — токены. В зависимости от токенизатора можно получить как набор слов, так и набор, где будут лишь основы слов (например, корни).

После токенизатора система передает набор слов в один или несколько фильтров токенов, которые могут добавлять, удалять или менять слова в наборе. Например, фильтр стоп-токенов может удалять часто используемые служебные слова, такие как артикли a и the в англоязычном тексте. На выходе из анализатора мы имеем набор токенов, который помещается в индекс. Это позволяет сохранять максимум смысла при минимуме знаков.

Elasticsearch ищет слова из запроса уже по индексу. При этом поисковые индексы можно разделить на сегменты — шарды. На каждом узле (запущенном экземпляре Elasticsearch) может быть размещено несколько сегментов. Каждый узел действует как координатор для делегирования операций правильному сегменту, а перебалансировка и маршрутизация выполняются автоматически.

Elasticsearch. Хранилище данных

Elasticsearch — это нереляционное хранилище документов, которое имеет REST API и позволяет работать с данными в формате JSON. Строгая структурированность при этом не является обязательным требованием.

Основные преимущества Elasticsearch — это высокая горизонтальная масштабируемость, легкое управление и отказоустойчивость. Система может быть запущена на десятках или сотнях узлов вместо одного мощного сервера, а добавить в кластер еще один узел можно практически без дополнительных настроек. При этом начать работу с экземпляром узла Elasticsearch очень просто: его установочная версия не требует никаких изменений конфигурации.

Отказоустойчивость реализована таким образом, что индекс Elasticsearch автоматически распределяется по узлам кластера. При сбое одного из узлов индекс перераспределяется на оставшиеся, используя внутренний механизм репликации данных. Кластеры Elasticsearch продолжают работать, даже если возникают аппаратные ошибки типа сбоя узла или неполадок сети.

Как компании применяют Elastic Stack

Для полнотекстового поиска по сайту

Stack Overflow использует Elasticsearch как средство для полнотекстового поиска по вопросам и ответам для пользователей, а также для поиска похожих вопросов и подсказок при создании нового вопроса. С помощью Elasticsearch сервис предоставляет поиск по точному совпадению (например, поиск строки кода) и нечёткий поиск с большим количеством настроек.

GitHub обеспечивает пользователей возможностями полнотекстового поиска и поиска по отдельным критериям среди 8 миллионов репозиториев кода благодаря Elasticsearch. Например, можно найти проект на языке Clojure, который был активен в течение последнего месяца.

Для хранения и анализа журналов

Netflix выбрал Elasticsearch для хранения, индексации и поиска по этим данным. Всего за два года после начала внедрения инфраструктура выросла до 150 кластеров, а количество инстансов превысило 3500.

Для поиска по продуктам

Компания Leroy Merlin в России с помощью Elasticsearch создала поиск по продуктам, быструю выдачу каталога и сервис поисковых подсказок. С момента запуска сервиса количество товаров в индексе увеличилось в два раза и продолжает расти. В среднем пользователи делают 300 поисковых запросов в секунду, а время отклика составляет меньше 200 миллисекунд.

На нашем митапе Elasticsearch Community Meetup спикеры из разных компаний подробно рассказали про свой опыт работы с Elasticsearch.

Как развернуть Elasticsearch и весь Elastic Stack

Для этого подойдут как локальные физические сервера, так и облачные среды. Большинство крупных облачных платформ предоставляет различные возможности развертывания Elastic Stack. Но самый быстрый результат от использования Elasticsearch достигается при использовании его в виде управляемого сервиса на облачной платформе. Вам не нужно обслуживать кластер, заниматься резервированием, мониторингом, обеспечением отказоустойчивости, обновлением, настраивать интеграции между сторонними сервисами и Elasticsearch. Кроме того, в облаке уже настроены интеграции с сервисами самой платформы, а также всегда доступны инструменты для оперативного реагирования и управления кластером.

В 2021 году облачная платформа Yandex Cloud и компания Elastic договорились о партнерстве. Yandex Cloud — первая в России платформа, которая предоставляет Elasticsearch от создателя технологии в модели CSP (Cloud Solution Provider) с доступом как к управляемому сервису в публичном облаке в трех вариантах подписки: Basic, Gold и Platinum. Это позволяет открыть доступ пользователям к официальным расширенным функциям сервиса, таким как мониторинг, инструменты визуализации, управление доступом, аналитика графов, а также к технической поддержке уровня L3 от команды Elasticsearch. Пользователи сервиса первыми получают доступ к новым функциям, патчам безопасности и другим улучшениям.