Как были обнаружены скрытые «переключатели» в геноме человека

С помощью ИИ и облачных сервисов Yandex Cloud исследователи выяснили, что необычные участки ДНК — левосторонние спирали (Z‑ДНК) — могут быть связаны с развитием рака и других болезней.

Краткий пересказ YandexGPT
  • Исследование провела междисциплинарная команда из Института общей физики им. А. М. Прохорова РАН, ФИЦ ИППИ РАН и Высшей школы экономики при поддержке Российского научного фонда и Yandex Cloud.
  • Z-ДНК — левозакрученная форма ДНК, которая ранее считалась редкой аномалией, но теперь рассматривается как возможный регулятор работы генов.
  • Супер-энхансеры — крупные регуляторные участки ДНК, которые могут резко повышать активность критически важных генов.
  • Анализ показал, что Z-ДНК гораздо чаще встречается в супер-энхансерах, чем в других участках генома.
  • Новые данные могут помочь в диагностике и лечении онкологических и аутоиммунных заболеваний, а также нейродегенеративных расстройств.
  • Z-участки ДНК могут стать новыми биомаркерами заболеваний и мишенями для геномной терапии.
  • Использование ИИ и облачных технологий Yandex Cloud значительно ускорило анализ геномных данных: обработку огромного объёма информации, которая заняла бы месяцы при локальной работе, выполнили за несколько недель.
  • Следующий этап работы — лабораторная проверка полученных биоинформатических результатов с помощью экспериментов на культурах человеческих клеток.
Тезисы сформулированыYandexGPT
Спасибо!

Процесса считывания информации с ДНК для синтеза белков.

Супер‑энхансеры — крупные регуляторные участки ДНК, сложенные из нескольких обычных энхансеров — усилителей транскрипции. Вместе они работают как мощные «переключатели» и резко повышают активность критически важных генов.

Эти участки ДНК играют важную роль в развитии и функционировании клетки. Если супер‑энхансер повреждён или проявляет необычную активность, это может привести к возникновению опухоли или нарушить работу тканей и органов. Чтобы понять, как действуют эти «переключатели», исследователи обработали тысячи геномных участков на нашей вычислительной платформе и выявили скопления Z‑ДНК внутри супер‑энхансеров.

Полноэкранное изображение

Визуализация распределения участков ДНК, которые закручены влево (Z‑форма ДНК). Цвет отражает плотность: чем темнее участок, тем выше концентрация Z‑ДНК в этой области.

Клеточная линия, полученная из клеток карциномы (злокачественной опухоли) толстой кишки человека. Часто используется для изучения механизмов регуляции генов.

Сегменты, на которые делят хромосому для анализа. В этом случае каждая хромосома разделена на 25 равных участков (бинов), чтобы сравнивать плотность Z‑ДНК.

Участки ДНК, которые контролируют активность генов: определяют, когда и как активно с них считывается информация (экспрессия генов).

Типичный энхансер — стандартный регуляторный элемент, усиливающий экспрессию генов.

Энхансер, входящий в состав супер‑энхансера — энхансер, который является частью супер‑энхансера, и обычно оказывает более мощное воздействие на экспрессию генов.

Супер‑энхансер — группа энхансеров, работающих совместно и сильно усиливающих активность важных генов, часто определяющих специфические функции клеток.

Фоновые области генома — участки ДНК, не относящиеся к активным регуляторным элементам и обычно характеризующиеся низкой регуляторной активностью.

На изображении выше показана тепловая карта плотности Z‑ДНК: линия HCT116, деление хромосомы на 25 бинов. Тепловые карты распределения Z‑ДНК по 22 хромосомам и четырём типам регуляторных элементов (TE, SE‑E, SE, BG) — показывают, что левозакрученные спирали концентрируются внутри супер‑энхансеров.

В статье расскажем, как российские учёные совместно с Yandex Cloud обнаружили левозакрученные сегменты ДНК в супер‑энхансерах, какие важные мутации уже удалось выявить, как облачные вычисления ускорили расчёты и каким образом учёные проверяют выводы на клеточных моделях.

Проект № 22‑74‑10053.

Кто участвовал в исследовании

Исследование провела при поддержке Российского научного фонда междисциплинарная команда из Института общей физики им. А. М. Прохорова РАН, ФИЦ ИППИ РАН и Высшей школы экономики под руководством научного сотрудника ИОФ РАН, кандидата биологических наук Натальи Орловой.

Команда Yandex Cloud подготовила скрипты автоматизации для многочисленных пермутационных тестов и предоставила исследователям масштабируемую вычислительную инфраструктуру:

  • десятки виртуальных машин для параллельных расчётов,
  • объектное хранилище для хранения и быстрого доступа к терабайтам данных.

Проект реализовали в рамках сотрудничества с Центром технологий для общества Yandex Cloud. Это первый геномный кейс в рамках программы.

«Мы как облачный провайдер много лет поддерживаем проекты в здравоохранении и биологии, а сейчас расширили фокус на биоинформатику. Эти направления заслуживают особого внимания: с точки зрения науки они открывают новые горизонты, а с точки зрения общества напрямую влияют на качество жизни. Поддержка приносит результаты уже сегодня — аналитические сервисы помогают врачам ставить точные диагнозы и ускоряют исследования. Биоинформатика строит свои методы на искусственном интеллекте и машинном обучении, и здесь Yandex Cloud выступает естественным партнёром, задающим тон развитию рынка».

Объединение академической экспертизы и облачных технологий позволило построить всю карту Z‑ДНК за несколько недель.

Так называют фрагменты ДНК, способные образовывать спираль, закрученную влево.

Участки ДНК или белка, способные специфически связывать другие молекулы: например, белки или транскрипционные факторы.

Химических модификаций, регулирующих активность ДНК.

Z-ДНК — от редкой аномалии к возможному регулятору

Известно, что ДНК похожа на верёвочную лестницу, закрученную вправо. Но иногда она может закручиваться и влево. Такая двойная спираль называется Z‑ДНК.

Раньше считалось, что это просто редкая случайность: такие формы составляют не более 0,8% генома. За последние годы появилось много данных о том, что Z‑участки — важный элемент регуляции генов. Участки Z‑ДНК нередко образуются в активно работающих участках генома и могут влиять на работу соседних генов. Учёные предполагают, что такие нестандартные изгибы ДНК участвуют в управлении генами, но точные механизмы остаются неизвестными.

Особенно интересно, какую роль Z‑ДНК играет в супер‑энхансерах. Эти большие регуляторные зоны содержат множество сайтов связывания белков и меток хроматина, которые являются своеобразным сигнальным кодом и влияют на активность генов. Вклад необычных форм ДНК в работу супер‑энхансеров до сих пор практически не изучен.

Чтобы выяснить, как часто левозакрученные спирали возникают внутри супер‑энхансеров и как они могут влиять на работу генов, команда исследователей проанализировала огромный объём данных: весь геном человека, сотни регуляторных элементов и тысячи генетических вариаций. Традиционные методы не подходят для такой задачи, поэтому исследователи ИОФ РАН разработали и применили новый метод анализа.

Как Z‑ДНК влияет на работу супер‑энхансеров

В 2025 году учёные выяснили, что в супер‑энхансерах Z‑форма ДНК встречается заметно чаще, чем в других участках генома. Таким образом, в геноме человека были обнаружены скрытые «регуляторы» работы генов.

Меняя форму, Z‑участки ДНК могут влиять на включение и выключение соседних генов. Исследователи впервые выдвинули гипотезу о существовании такого типа регуляции внутри супер‑энхансеров и провели её биоинформатическую валидацию. Рассмотрим три основных вывода этого большого анализа.

Полноэкранное изображение

Тип графика, показывающий распределение данных. Центральная линия соответствует медиане (середине данных), а границы «ящика» и «усов» отражают разброс и вариабельность значений.

Способ представления статистической значимости результатов теста. Чем выше значение −log10(p‑value), тем меньше вероятность случайности результата и выше статистическая значимость.

Метод статистического анализа, при котором исходные данные многократно перемешиваются для оценки вероятности получения наблюдаемого результата случайно. Выполняется 1000 раз для повышения точности оценки.

Шесть образцов клеток, выделенных из разных типов раковых опухолей человека. Используются для изучения механизмов заболевания и тестирования препаратов.

На изображении выше показано статистически значимое обогащение Z‑ДНК в разных типах регуляторных элементов. Box‑plot — распределение −log10 (p‑value), полученное после проведения 1000‑кратных пермутационных тестов для 6 раковых клеточных линий — визуально подтверждает статистическую значимость обогащения в SE‑E и TE.

Пар нуклеотидов гуанин (G) и цитозин ©, которые входят в состав ДНК и отвечают за её стабильность.

Единица длины ДНК, равная 1000 пар нуклеотидов (оснований). Например, участок в 5 кб содержит 5000 пар оснований.

Означает, что на каждые 1000 пар оснований ДНК приходится примерно 0,022 мутации — или примерно 22 мутации на миллион пар оснований.

Места, где левозакрученная ДНК совпадает с участками прикрепления белков KLF/SP, управляющих считыванием генов.

Международная база данных, в которой собрана информация о связи конкретных вариантов генов и участков ДНК с различными заболеваниями и нарушениями у человека.

Z‑ДНК гораздо чаще встречается в супер‑энхансерах

Анализ показал, что левозакрученные участки ДНК гораздо чаще встречаются внутри супер‑энхансеров. Их количество в 47 раз больше, чем на случайных участках генома с таким же содержанием GC‑нуклеотидов. Иными словами, Z‑участки явно тяготеют к супер‑энхансерам, а их распределение по геному не случайно.

Мутации редко поражают Z‑ДНК «регуляторы»

Многие тяжёлые болезни, особенно рак и аутоимунные расстройства, связаны с поломкой супер‑энхансеров. Новое исследование подтвердило: если Z‑ДНК «регулятор» повреждён и проявляет необычный паттерн активности, с большой вероятностью может быть нарушена важная функция клетки, ткани и, как следствие, это оказывает системный негативный эффект на человеческий организм.

По данным международного проекта «1000 геномов», в областях Z‑ДНК медианная частота мутаций в нефункциональных участках ≈ 0,108 на килобазу — это в 5 и в 12 раз выше, чем в активных и малоактивных элементах супер‑энхансеров (≈0,022 и 0,009/кб).

Это наблюдение говорит о сильном естественном отборе, который «бережёт» критически важные места регуляции от лишних изменений. При этом мутации в регуляторных регионах могут быть важными «двигателями» в развитии серьёзных заболеваний, влияя на работу ключевых генов. Поэтому группа учёных сосредоточилась на более прицельном изучении таких изменчивых участков, чтобы лучше понять их роль в возникновении болезней и потенциально разработать новые методы диагностики и терапии.

Обнаружили «горячую точку» на десятой хромосоме

Среди сотен супер‑энхансеров особое внимание привлёк небольшой участок на десятой хромосоме, который оказался частью супер‑энхансера. Здесь обнаружилось неожиданное совпадение Z‑участков с мотивами связывания белков — регуляторов транскрипции KLF/SP. По данным базы ClinVar, известные мутации в этом участке связаны с нейродегенеративными заболеваниями.

Команде учёных удалось обнаружить в этом супер‑энхансере пять наследуемых длинных и коротких мутаций, роль которых для здоровья человека остаётся неизвестной. Все они приходятся на Z‑участки ДНК и меняют мотивы KLF/SP — потенциально это может приводить к изменению работы зависимых от этих регионов генов.

Полноэкранное изображение

Особый регуляторный элемент на 10‑й хромосоме, состоящий из нескольких энхансеров. Он сильно усиливает активность важных генов и играет роль в определении специфических признаков и функций клеток.

Графическое представление, которое показывает эволюционные связи и родственные отношения между геномами 100 человек. Близкие ветви означают большее генетическое сходство.

Увеличение размера головы.

На изображении выше показано популяционное распределение мутаций в супер‑энхансере chr10. Кольцевая диаграмма филогенетического дерева 100 геномов индивидуумов демонстрирует, что пять новых мутационных вариантов образуют кластеры, специфичные для определённых популяций.

Обнаруженные мутации — достаточно редкие, некоторые из них встречаются приблизительно у 15% людей, что указывает на отрицательный отбор, вытесняющий вредные мутации. Редкость этих вариантов и их пересечение с известными патогенными мутациями позволяют предположить, что этот участок — важный регулятор, потенциально связанный с развитием тяжёлых неврологических и нейродегенеративных заболеваний: умственной отсталости, болезни Альцгеймера и макроцефалии.

Как новые данные помогут в диагностике и лечении

Исследование подтверждает связь между супер‑энхансерами и Z‑ДНК, а также указывает на возможности применения этого открытия в биологии и медицине.

author
Марина Кошелева
Руководитель проектов Yandex Cloud в сфере образования, науки и культуры

«Это исследование имеет прямое значение для борьбы с онкологическими заболеваниями. Мы показали, что Z‑ДНК особенно часто встречается в супер‑энхансерах, регулирующих онкогенные гены, выявили мутации, нарушающие связывание факторов транскрипции, и определили участки, которые могут стать мишенями для новых противоопухолевых препаратов и ранней диагностики».

Карта Z‑участков в супер‑энхансерах превращает фундаментальные знания в практические возможности. Теперь исследователи и врачи смогут точечно искать мутации и определять участки генома, требующие особого внимания.

author
Юлия Макусь
Научный сотрудник ИОФ РАН, первый автор исследования

«В своей работе мы систематически проанализировали локализацию предсказанных участков Z‑ДНК в супер‑энхансерах различных клеточных линий и их связь с генетическими вариантами. Для анализа использовали опубликованные данные, полученные с помощью модели Z‑DNABERT. В открытом доступе мы разместили все скрипты, инструкции и подробные результаты пересечений. Это позволяет коллегам легко искать интересующие Z‑участки в собственных данных, исследовать паттерны мутаций в разных популяциях, использовать эти регионы как потенциальные биомаркеры или мишени для CRISPR‑экспериментов. Полученные данные также помогут планировать работы в области 3D‑геномики и синтетической биологии».

Это открывает реальные диагностические и терапевтические возможности.

Z‑участки ДНК — новые биомаркеры заболеваний

Высокое содержание Z‑участков в супер‑энхансерах связано с их активностью: наличие левозакрученной спирали может указывать на активное состояние важного регуляторного участка. Z‑ДНК‑ассоциированные супер‑энхансеры могут стать индикатором активности ключевых генов и помочь в диагностике сложных заболеваний — например, рака или аутоиммунных расстройств.

Точное выявление патогенных мутаций

Зная координаты Z‑участков, легче связать их с редкими мутациями из клинических баз данных. В «горячей точке» на десятой хромосоме выявлены новые мутации, совпадающие с уже известными патогенными изменениями. Таким образом, Z‑ДНК‑ассоциированный супер‑энхансер становится удобной мишенью для генетических тестов — врачи будут знать, какие участки генома проверять в первую очередь.

Потенциал для новых подходов в геномной терапии

Следующие этапы исследований могут приблизить адресную терапию. Учёные планируют проверить, как изменение формы ДНК влияет на работу генов. Если удастся подтвердить связь Z‑ДНК и активности генов, можно будет точечно изменять форму ДНК в проблемных участках генома.

Это позволит управлять активностью генов, не изменяя их последовательность нуклеотидов.

Новый подход к диагностике рака

Регулярное появление Z‑ДНК в супер‑энхансерах, управляющих ключевыми сигнальными путями клетки, которые связаны с развитием рака, может указывать на активацию онкогенных процессов.

Регулярный мониторинг этих участков поможет выявить ранние стадии превращения нормальных клеток в опухолевые ещё до появления видимых изменений в тканях.

Как ИИ и Yandex Cloud ускорили анализ геномных данных

Для обнаружения этой связи команда исследователей использовала вычислительные ресурсы нашей платформы.

author
Герман Ашниев
Научный сотрудник ИОФ РАН

LLM, обученная распознавать и предсказывать участки ДНК, способные принимать необычную левозакрученную форму. Модель использует глубокое обучение и основана на архитектуре BERT.

Отдельные меньшие участки внутри больших супер‑энхансеров, каждый из которых дополнительно повышает или тонко настраивает активность определённых генов.

Небольшие участки ДНК, которые усиливают работу генов, но не так мощно и глобально, как супер‑энхансеры. Обычно регулируют менее критичные или повседневные функции клеток.

Пермутационные тесты — статистический метод, при котором данные случайно перемешивают много раз, чтобы проверить, являются ли наблюдаемые результаты случайными или действительно значимыми.

Специальные участки хромосом, обеспечивающие правильное разделение генетического материала во время деления клеток.

Концевых участков хромосом, обеспечивающих их стабильность.

Когда мутации изменяют специфические участки ДНК (мотивы), к которым обычно присоединяются белки семейства KLF/SP. В результате такие белки теряют способность связываться с ДНК и правильно регулировать активность генов.

Для работы с таблицами данных.

Для численных расчётов и анализа массивов данных.

Для построения графиков и визуализации.

Набор инструментов для работы с геномными координатами и анализа данных генома. Используется для поиска пересечений, объединения и сравнения участков ДНК.

«Команда Yandex Cloud предоставила мощную и гибкую облачную „лабораторию“: десятки виртуальных машин для параллельных пермутационных тестов и масштабируемое хранилище терабайтов данных позволили сократить месяцы локальной работы до нескольких недель. Сегодня искусственный интеллект и модели глубокого обучения стали незаменимым инструментом биоинформатики. В нашем исследовании мы использовали опубликованные предсказания нейросетевой модели Z‑DNABERT для выявления участков ДНК, способных образовывать Z‑ДНК. Без ИИ‑методов анализ миллионов последовательностей и массивов данных такого объёма был бы крайне затруднителен».

Сначала исследователи получили координаты всех потенциальных Z‑участков во всём геноме человека. Данные взяли из открытых источников, используя прогнозы нейросети Z‑DNABERT. Затем учёные сопоставили эти координаты с каталогами известных регуляторных элементов: супер‑энхансеров, энхансеров внутри них и типичных энхансеров.

Для контроля выбрали случайные участки генома такой же длины. Чтобы убедиться в неслучайности накопления Z‑ДНК, для каждой из 22 хромосом провели более 1000 тестов с перестановками: случайные координаты генерировались с учётом длины и содержания GC‑пар, избегая центромер и теломер. Также проанализировали генетические варианты из проекта «1000 геномов»: изучили геномы 100 человек, чтобы проверить совпадение мутаций с Z‑участками ДНК.

Эти расчёты были нужны, чтобы проверить, связаны ли Z‑участки с накоплением опасных мутаций в геноме и могут ли такие мутации нарушать регуляцию важных генов. Полученные результаты подтвердили эту гипотезу.

Обработка такого объёма информации означала работу с миллиардами строк данных и терабайтами файлов — непосильная задача для одного компьютера. Поэтому все вычисления выполнялись в облаке.

Команда использовала платформу Yandex Cloud: десятки виртуальных машин были запущены параллельно, а нагрузка была распределена, что ускорило анализ.

В облаке работали популярные инструменты анализа геномных данных:

  • библиотеки Python: pandas, numpy, matplotlib;
  • пакет BEDtools,
  • собственные скрипты команды.

Благодаря этому данные обрабатывались быстро и эффективно. Для удобного хранения и доступа к промежуточным результатам использовалось масштабируемое объектное хранилище данных Yandex Object Storage.

Результатом стал первый детальный атлас Z‑ДНК в супер‑энхансерах, дополненный статистически подтверждённым описанием накопления этих участков и каталогом значимых мутаций.

Анализ в единой облачной инфраструктуре позволил получить результаты за несколько недель.

Что дальше: проверка результатов в лаборатории

Следующий этап работы — лабораторная проверка полученных биоинформатических результатов. Сейчас учёные приступили к экспериментам на культурах человеческих клеток, где планируют с помощью современных молекулярных методов избирательно воздействовать на Z‑ДНК‑ассоциированные участки внутри супер‑энхансеров. После таких вмешательств команда будет изучать, как меняется активность ключевых генов и структура хроматина, используя технологии эпигеномного и пространственного анализа.

Если удастся подтвердить, что именно Z‑ДНК играет роль «переключателя» в регуляции работы генов, это откроет новые возможности для создания диагностических тестов и терапевтических подходов для заболеваний, связанных с нарушением регуляции генов, — от нейродегенеративных расстройств до рака.

Центр технологий для общества Yandex Cloud реализует социально значимые проекты в области образования и науки, здравоохранения, экологии и культуры. Если у вас есть похожие проекты, заполните заявку.

author
Алексей Орлов
Старший научный сотрудник ИОФ РАН, кандидат физико‑математических наук
Как были обнаружены скрытые «переключатели» в геноме человека
Войдите, чтобы сохранить пост