YTsaurus доступна в двух форматах поставки: в облаке и в инфраструктуре заказчика (on‑premises). Для раннего доступа к Yandex Managed Service for YTsaurus необходимо подать заявку на странице сервиса.

YTsaurus: запустили единую платформу для работы с данными любого объёма
С ее помощью можно анализировать эксабайты данных в компаниях и обучать сложные модели машинного обучения с миллиардами параметров.
В Яндексе YTsaurus разрабатывали с 2010 года — сейчас её используют для хранения данных большинства сервисов, обучения YandexGPT и других нейросетей, задач поискового индекса. Например, Яндекс Маркет с помощью платформы разрабатывают систему промоакций, а автономный транспорт обрабатывают данные о поездках и улучшает алгоритмы. В 2023 году платформу выложили в опенсорс — её уже применяют большие технологические компании в России и за рубежом.
Платформа масштабируется до миллиона CPU и десятков тысяч GPU, а в Яндексе хранит и обрабатывает до эксабайта данных. Платформу можно использовать как классическую MapReduce‑систему или применять внутри платформы другие популярные решения для обработки данных, в том числе ClickHouse® и Apache Spark™. C помощью YTsaurus можно строить корпоративные хранилища данных, ETL‑системы, обрабатывать структурированные и полуструктурированные данные, в том числе логи или финансовые транзакции.
«Для нас важно, чтобы у компаний были сервисы и инструменты для работы с данными под любой сценарий. Для этого мы, с одной стороны, тестируем и адаптируем для бизнеса собственные разработки, такие как YTsaurus и YDB, которые уже успешно применяются для внутренней инфраструктуры компании. С другой — создаём и развиваем сервисы на базе опенсорса».
На конференции Data&ML2Business Yandex Cloud не только представила YTsaurus для бизнеса, но и объявила об обновлении других решений для работы с данными. Для компаний стали доступны новые управляемые сервисы на базе решений с открытым исходным кодом — Yandex Managed Service for Spark™ и сервис управления распределенным аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре. В Yandex DataLens

