Ученые сравнили 13 компьютерных методов для анализа ДНК

Максим Наговицын17.04.20262913

Трехмерная структура ДНК может рассказать о болезнях больше, чем сама генетическая последовательность.

Ученые сравнили 13 компьютерных методов для анализа ДНК
ДНК в ядре не лежит ниткой: она сворачивается в петли и домены, и от этого зависит, какие гены могут «общаться» друг с другом. Источник иллюстрации: нейросеть

Что бы вы там себе ни думали, ДНК — это не просто длинная нитка с генетическим кодом. Внутри каждой клетки она хитроумно складывается в причудливую трехмерную фигуру. Так что и инструменты для ее изучения нужны непростые: они должны разбираться не только в буквах генетического текста, но и в том, как этот текст уложен в пространстве.

Исследователи из Западного резервного университета Кейза сравнили компьютерные программы, которые анализируют, как ДНК сворачивается и взаимодействует сама с собой внутри отдельных клеток. Их работу опубликовали в журнале Nature Communications. Благодаря этому ученые смогут лучше расшифровывать инструкцию по сборке нашего тела в разных обстоятельствах. Например, понять, что ломается при развитии болезней или как клетки меняют свои обязанности, когда мы растем.

Профессор Фулай Джин из отдела генетики и геномных наук объясняет это на бытовом примере. Он говорит так:

Трехмерная структура ДНК влияет на то, как гены общаются друг с другом. Это как планировка дома: она определяет, как люди будут по нему перемещаться. Без понимания этой структуры мы не разберемся, как возникают болезни и как их лечить.

Главная заминка была в том, что старые программы часто выдавали противоречивые результаты. Похоже на ситуацию, когда несколько переводчиков никак не сойдутся в том, как перевести фразу с чужого языка. Вместе с Джином работали профессор Джинг Ли и доцент Ян Ли.

Ученые проверили 13 программ на 10 наборах данных — брали образцы мышей и людей. Выяснилось, что разные инструменты лучше подходят для разных типов данных. А еще они обнаружили: если изменить способ предварительной подготовки данных, результат может стать намного точнее. Искусственный интеллект особенно хорошо справляется с неидеальными и сложными наборами данных.

Джин говорит:

Мы по сути помогаем ученым найти или построить лучший микроскоп, чтобы увидеть, как работает ДНК внутри отдельных клеток.

Это может привести к более глубокому пониманию генетических заболеваний и, возможно, к новым подходам в лечении.

Разные программы для анализа single-cell Hi‑C давали похожие на перевод с разных языков расхождения; новый подход сравнивает методы и ведет к одному согласованному «маршруту» анализа. Источник иллюстрации: нейросеть
Разные программы для анализа single-cell Hi‑C давали похожие на перевод с разных языков расхождения; новый подход сравнивает методы и ведет к одному согласованному «маршруту» анализа. Источник иллюстрации: нейросеть

С помощью улучшенных программ ученые смогут отслеживать несколько вещей.

  • Какие гены включаются или выключаются в больных клетках.
  • Почему одно лечение помогает одному пациенту, а другому — нет.
  • Как клетки меняют свое поведение на ранних стадиях развития эмбриона.

Команда создала программный пакет, который другие исследователи могут использовать как навигатор. Программа сама перебирает разные методы и рекомендует лучший для конкретной задачи. Не нужно гадать, какой инструмент подойдет — софт протестирует варианты и выдаст оптимальный.

Эти методы уже выложили в открытый доступ на GitHub — это платформа, где разработчики хранят и делятся своими кодами. Джин подчеркивает: такая доступность может ускорить открытия в самых разных областях биомедицины. И резюмирует:

Это серьезный шаг к тому, чтобы навести порядок в огромных массивах генетических данных и понять, как на самом деле работает наш генетический чертеж.

Стоимость и доступность

Сами по себе вычислительные методы бесплатны, потому что исследователи выложили код в открытый доступ. Но вот чтобы получить исходные данные для анализа — те самые карты сворачивания ДНК из отдельных клеток — нужны дорогие реактивы и секвенаторы. Один такой эксперимент (например, single-cell Hi-C) может стоить от нескольких сотен до тысяч долларов за образец. Плюс нужно мощное железо для расчетов, которое есть далеко не в каждой лаборатории. Так что технология доступна скорее крупным центрам, а не рядовым врачам.

Что было раньше

Прорывом новую разработку не назвать, скорее — аккуратный, но очень нужный шажок. До этого исследования разные группы применяли свои любимые алгоритмы, и результаты часто не воспроизводились. Были попытки сравнить два-три инструмента, но никто не брался тестировать 13 программ на десяти больших наборах данных. Работа заполняет важную лакуну: теперь понятно, какой метод для чего годится, а какой — нет.

Этика и возможный вред

С этикой тут полный порядок. Исследователи работали с уже существующими обезличенными наборами данных от мышей и людей. Никаких новых опытов над людьми или животными не проводили. Вред может быть только косвенный — если на основе неверных рекомендаций кто-то сделает ложные выводы о механизмах болезней. Но авторы как раз и написали программу-навигатор, чтобы снизить риск ошибок.

Точнее зная 3D‑укладку и активность генов, проще связывать болезнь, ответ на терапию и перестройку клеток на ранних стадиях развития. Источник иллюстрации: нейросеть
Точнее зная 3D‑укладку и активность генов, проще связывать болезнь, ответ на терапию и перестройку клеток на ранних стадиях развития. Источник иллюстрации: нейросеть

Прямо сейчас любой желающий с ноутбуком и базовыми навыками программирования на Python или R может скачать пакет с GitHub и запустить его на своих данных. Но чтобы самому получить исходные генетические данные из своей клетки — такого не будет еще долго. Для рядового человека технология обернется не раньше чем через 5–10 лет, когда понимание трехмерной укладки ДНК перетечет в конкретные анализы и лекарства.

Сравнение с аналогами

Есть несколько других попыток систематизировать методы 3D-анализа ДНК, например, пакеты «HiCExplorer» или „distiller“. Но они либо заточены под конкретный тип данных, либо не умеют советовать лучший инструмент автоматически. Главное отличие данной работы — ученые не просто сравнили, а сделали рекомендательную систему. Аналогов системе, которая сама бы тестировала 13 алгоритмов и подсказывала оптимальный, на рынке пока нет.

Критика работы

Исследование проверяло инструменты на уже «чистых» данных, которые кто-то предварительно обработал. Но в реальной жизни данные бывают настолько грязными и зашумленными, что никакая умная программа не спасет, если на входе мусор. Авторы упоминают, что подготовка данных важна, но не дают четкого алгоритма: как именно готовить эти данные, чтобы ваш случай попал в ту категорию, для которой ИИ работает хорошо. Получается, их программа-навигатор может выдать красивую рекомендацию, но если исходные файлы плохие, результат все равно будет сомнительным. Это как навигатор, который прокладывает маршрут по карте с ошибками.

Ранее ученые выяснили, как ДНК встраивается в клеточные мембраны.

Подписаться: Телеграм | Дзен | Вконтакте


Здоровье


Лента новостей

Пресс-релизы