Аналитическая обработка данных из Yandex Object Storage
В этом примере вы выполните аналитическую обработку данных о поездках Нью-Йоркского такси. Данные для выполнения примера предварительно размещены в бакете Yandex Object Storage в файлах формата Parquet
В результате вы получите частотное распределение длительности поездок по числу поездок в виде гистограммы.
Для выполнения примера:
Примечание
Yandex Cloud предоставляет набор данных - поездки Нью-Йоркского такси - на условиях “как есть” (as is). Yandex Cloud не дает никаких заверений, явных или подразумеваемых, гарантий или условий в отношении использования вами указанного датасета (набора данных). В пределах, разрешенных вашим местным законодательством, Yandex Cloud не несет никакой ответственности за любые убытки или ущерб, включая прямые, побочные, специальные, косвенные, случайные или штрафные, возникшие в результате использования вами датасета.
NYC Taxi and Limousine Commission (TLC):
Данные были собраны и предоставлены NYC Taxi and Limousine Commission (TLC) поставщиками технологий, уполномоченными в рамках Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Данные о поездке не были созданы TLC, и TLC не делает никаких заявлений относительно точности этих данных.
Ознакомьтесь с источником
Подготовьтесь к работе
- Войдите в консоль управления
или зарегистрируйтесь. Если вы еще не зарегистрированы, перейдите в консоль управления и следуйте инструкциям. - На странице Yandex Cloud Billing
убедитесь, что у вас подключен платежный аккаунт и он находится в статусеACTIVE
илиTRIAL_ACTIVE
. Если платежного аккаунта нет, создайте его. - Если у вас еще нет каталога, создайте его.
Подключитесь к данным
-
В консоли управления
выберите каталог, в котором нужно создать соединение. -
В списке сервисов выберите Yandex Query.
-
На панели слева выберите
Учебник. -
В блоке Создать инфраструктуру для обучения нажмите кнопку Создать соединение.
Откроется страница создания соединения. Просмотрите значения параметров по умолчанию, изменять их не нужно.
-
Нажмите кнопку Создать.
Откроется страница создания привязки к данным. Просмотрите значения параметров по умолчанию, изменять их не нужно.
-
Нажмите кнопку Создать.
Выполните запрос
-
В редакторе запросов в интерфейсе Query нажмите кнопку Новый аналитический запрос.
-
В текстовом поле введите текст запроса:
$data = SELECT * FROM `tutorial-analytics`; $ride_time = SELECT DateTime::ToMinutes(tpep_dropoff_datetime-tpep_pickup_datetime) AS ride_time FROM $data; SELECT Histogram::Print(histogram(ride_time)) FROM $ride_time;
-
Нажмите кнопку Выполнить.
Исследуйте результат
После выполнения запроса станет доступен результат — распределение длительности поездок в такси по числу поездок.
Kind: AdaptiveWard Bins: 100 WeightsSum: 140151844.000 Min: -531231.000 Max: 43648.000
░░░░░░░░░░░░░░░░░░░░░░░░ P: -5706.500 F: 4.000
░░░░░░░░░░░░░░░░░░░░░░░░░ P: -4177.000 F: 3.000
░░░░░░░░░░░░░░░░░░░░░░░░░ P: -2905.625 F: 8.000
░░░░░░░░░░░░░░░░░░░░░░░░░ P: -1156.556 F: 9.000
░░░░░░░░░░░░░░░░░░░░░░░░░ P: -43.545 F: 1685.000
█████████░░░░░░░░░░░░░░░░ P: 0.523 F: 3205072.000
███████████░░░░░░░░░░░░░░ P: 2.000 F: 3974384.000
█████████████████░░░░░░░░ P: 3.000 F: 6216464.000
██████████████████████░░░ P: 4.000 F: 7799899.000
████████████████████████░ P: 5.000 F: 8431504.000
█████████████████████████ P: 6.000 F: 8637705.000
████████████████████████░ P: 7.000 F: 8461147.000
███████████████████████░░ P: 8.000 F: 8122270.000
██████████████████████░░░ P: 9.000 F: 7643893.000
████████████████████░░░░░ P: 10.000 F: 7143245.000
██████████████████░░░░░░░ P: 11.000 F: 6549030.000
█████████████████░░░░░░░░ P: 12.000 F: 6013493.000
███████████████░░░░░░░░░░ P: 13.000 F: 5452450.000
██████████████░░░░░░░░░░░ P: 14.000 F: 4955050.000
████████████░░░░░░░░░░░░░ P: 15.000 F: 4470485.000
███████████░░░░░░░░░░░░░░ P: 16.000 F: 4047062.000
███████████████████░░░░░░ P: 17.474 F: 6886725.000
████████████████░░░░░░░░░ P: 19.475 F: 5569891.000
█████████████░░░░░░░░░░░░ P: 21.474 F: 4499806.000
██████████░░░░░░░░░░░░░░░ P: 23.475 F: 3646437.000
████████░░░░░░░░░░░░░░░░░ P: 25.475 F: 2962072.000
██████░░░░░░░░░░░░░░░░░░░ P: 27.476 F: 2414497.000
█████░░░░░░░░░░░░░░░░░░░░ P: 29.476 F: 1962886.000
████░░░░░░░░░░░░░░░░░░░░░ P: 31.535 F: 1676489.000
███░░░░░░░░░░░░░░░░░░░░░░ P: 33.542 F: 1301808.000
████░░░░░░░░░░░░░░░░░░░░░ P: 35.855 F: 1408697.000
███░░░░░░░░░░░░░░░░░░░░░░ P: 38.569 F: 1206848.000
███░░░░░░░░░░░░░░░░░░░░░░ P: 41.900 F: 1264922.000
██░░░░░░░░░░░░░░░░░░░░░░░ P: 45.386 F: 745821.000
█░░░░░░░░░░░░░░░░░░░░░░░░ P: 48.358 F: 597152.000
█░░░░░░░░░░░░░░░░░░░░░░░░ P: 51.440 F: 521645.000
█░░░░░░░░░░░░░░░░░░░░░░░░ P: 54.776 F: 442015.000
█░░░░░░░░░░░░░░░░░░░░░░░░ P: 58.505 F: 443528.000
░░░░░░░░░░░░░░░░░░░░░░░░░ P: 62.515 F: 344650.000
░░░░░░░░░░░░░░░░░░░░░░░░░ P: 67.911 F: 308517.000
░░░░░░░░░░░░░░░░░░░░░░░░░ P: 115.984 F: 22039.000