YTsaurus: запустили единую платформу для работы с данными любого объёма

С ее помощью можно анализировать эксабайты данных в компаниях и обучать сложные модели машинного обучения с миллиардами параметров.

В Яндексе YTsaurus разрабатывали с 2010 года — сейчас её используют для хранения данных большинства сервисов, обучения YandexGPT и других нейросетей, задач поискового индекса. Например, Яндекс Маркет с помощью платформы разрабатывают систему промоакций, а автономный транспорт обрабатывают данные о поездках и улучшает алгоритмы. В 2023 году платформу выложили в опенсорс — её уже применяют большие технологические компании в России и за рубежом.

YTsaurus доступна в двух форматах поставки: в облаке и в инфраструктуре заказчика (on‑premises). Для раннего доступа к Yandex Managed Service for YTsaurus необходимо подать заявку на странице сервиса.

Платформа масштабируется до миллиона CPU и десятков тысяч GPU, а в Яндексе хранит и обрабатывает до эксабайта данных. Платформу можно использовать как классическую MapReduce‑систему или применять внутри платформы другие популярные решения для обработки данных, в том числе ClickHouse® и Apache Spark. C помощью YTsaurus можно строить корпоративные хранилища данных, ETL‑системы, обрабатывать структурированные и полуструктурированные данные, в том числе логи или финансовые транзакции.

author
Команда Yandex Cloud

«Для нас важно, чтобы у компаний были сервисы и инструменты для работы с данными под любой сценарий. Для этого мы, с одной стороны, тестируем и адаптируем для бизнеса собственные разработки, такие как YTsaurus и YDB, которые уже успешно применяются для внутренней инфраструктуры компании. С другой — создаём и развиваем сервисы на базе опенсорса».

На конференции Data&ML2Business Yandex Cloud не только представила YTsaurus для бизнеса, но и объявила об обновлении других решений для работы с данными. Для компаний стали доступны новые управляемые сервисы на базе решений с открытым исходным кодом — Yandex Managed Service for Spark и сервис управления распределенным аналитическим массивно‑параллельным движком обработки больших данных Trino в облачной инфраструктуре. В Yandex DataLens стал доступен Editor — редактор для кастомизации графиков и таблиц с помощью JavaScript, а также появилась публичная витрина готовых примеров дашбордов, чартов и кастомизаций для аналитики данных.

author
Иван Пузыревский
Технический директор Yandex Cloud
YTsaurus: запустили единую платформу для работы с данными любого объёма
Войдите, чтобы сохранить пост