За основу этой статьи мы взяли публикацию «Milovidov A., 2020. Everything You Ever Wanted To Know About GitHub (But Were Afraid To Ask) ».

Разработчики ClickHouse проанализировали датасет архива GitHub из 3 млрд записей и 74 млн форков, сделанных за десять лет миллионами программистов. И получили любопытную статистику о пользователях, компаниях, репозиториях и пулреквестах.

Аналитика данных в облаке: почему это удобно

Аналитика GitHub предоставляет широкие возможности для изучения тенденций настоящего и будущего развития индустрии IT.

Даже отдельно взятому программисту любопытно знать, в какой день недели выше шанс поймать звезду, выложив свой проект на GitHub. Что уж говорить о компаниях, данные о которых можно проанализировать исходя из открытых фактов — количества репозиториев у компании, звезд и форков, issue и коммитов, которые оставляют сами разработчики. Достаточно уметь пользоваться инструментом для сбора и аналитики данных.

Один из популярных инструментов аналитики big data — СУБД ClickHouse. Сегодня при его помощи сотни корпораций работают с данными и анализируют в режиме реального времени петабайты информации.

Датасет, созданный в ClickHouse на основе архива GitHub , включает в себя все события всех репозиториев за десять лет. Он был подготовлен командой ClickHouse в 2020 году.

К счастью, сегодня облачные технологии уже позволяют обходиться без мощного железа и максимально быстро получать аналитику информационных массивов. Поэтому вы сами можете подготовить свой датасет GitHub и легко воспроизвести данные статистики с помощью управляемого ClickHouse в Yandex.Cloud.

Managed Service for ClickHouse как облачный сервис закрывает потребность в обслуживании баз данных — резервировании, мониторинге, обеспечении отказоустойчивости и обновлении ПО. Благодаря этому инструменту компании могут не беспокоиться о том, как работает СУБД, а концентрироваться на основных проектах. И, анализируя рынок, двигаться быстрее конкурентов.

Для этой статьи мы перевели и адаптировали занятные, на наш взгляд, данные о кухне разработчиков на самой большой в мире площадке для совместной работы программистов. Кроме того, для получения запросов мы использовали управляемый ClickHouse, из консоли которого сделали скриншоты.

12 фактов о мировой разработке на основе данных из GitHub

Звездный рейтинг репозиториев

Репозиториев, у которых есть хотя бы одна звезда, — 16 млн. Репозиториев с 10 или более звездами — 1,4 млн. Всего лишь 240 тыс. репозиториев получили свыше 100 звезд, 29 тыс. — больше 1 тыс. звезд, 1800 — более 10 тыс. звезд, и только 20 репозиториев получили свыше 100 тыс. звезд.

В какой день недели выше шансы поймать звезду