Ученые сравнили 13 компьютерных методов для анализа ДНК
Трехмерная структура ДНК может рассказать о болезнях больше, чем сама генетическая последовательность.

Что бы вы там себе ни думали, ДНК — это не просто длинная нитка с генетическим кодом. Внутри каждой клетки она хитроумно складывается в причудливую трехмерную фигуру. Так что и инструменты для ее изучения нужны непростые: они должны разбираться не только в буквах генетического текста, но и в том, как этот текст уложен в пространстве.
Исследователи из Западного резервного университета Кейза сравнили компьютерные программы, которые анализируют, как ДНК сворачивается и взаимодействует сама с собой внутри отдельных клеток. Их работу опубликовали в журнале Nature Communications. Благодаря этому ученые смогут лучше расшифровывать инструкцию по сборке нашего тела в разных обстоятельствах. Например, понять, что ломается при развитии болезней или как клетки меняют свои обязанности, когда мы растем.
Профессор Фулай Джин из отдела генетики и геномных наук объясняет это на бытовом примере. Он говорит так:
Трехмерная структура ДНК влияет на то, как гены общаются друг с другом. Это как планировка дома: она определяет, как люди будут по нему перемещаться. Без понимания этой структуры мы не разберемся, как возникают болезни и как их лечить.
Главная заминка была в том, что старые программы часто выдавали противоречивые результаты. Похоже на ситуацию, когда несколько переводчиков никак не сойдутся в том, как перевести фразу с чужого языка. Вместе с Джином работали профессор Джинг Ли и доцент Ян Ли.
Ученые проверили 13 программ на 10 наборах данных — брали образцы мышей и людей. Выяснилось, что разные инструменты лучше подходят для разных типов данных. А еще они обнаружили: если изменить способ предварительной подготовки данных, результат может стать намного точнее. Искусственный интеллект особенно хорошо справляется с неидеальными и сложными наборами данных.
Джин говорит:
Мы по сути помогаем ученым найти или построить лучший микроскоп, чтобы увидеть, как работает ДНК внутри отдельных клеток.
Это может привести к более глубокому пониманию генетических заболеваний и, возможно, к новым подходам в лечении.

С помощью улучшенных программ ученые смогут отслеживать несколько вещей.
- Какие гены включаются или выключаются в больных клетках.
- Почему одно лечение помогает одному пациенту, а другому — нет.
- Как клетки меняют свое поведение на ранних стадиях развития эмбриона.
Команда создала программный пакет, который другие исследователи могут использовать как навигатор. Программа сама перебирает разные методы и рекомендует лучший для конкретной задачи. Не нужно гадать, какой инструмент подойдет — софт протестирует варианты и выдаст оптимальный.
Эти методы уже выложили в открытый доступ на GitHub — это платформа, где разработчики хранят и делятся своими кодами. Джин подчеркивает: такая доступность может ускорить открытия в самых разных областях биомедицины. И резюмирует:
Это серьезный шаг к тому, чтобы навести порядок в огромных массивах генетических данных и понять, как на самом деле работает наш генетический чертеж.
Стоимость и доступность
Сами по себе вычислительные методы бесплатны, потому что исследователи выложили код в открытый доступ. Но вот чтобы получить исходные данные для анализа — те самые карты сворачивания ДНК из отдельных клеток — нужны дорогие реактивы и секвенаторы. Один такой эксперимент (например, single-cell Hi-C) может стоить от нескольких сотен до тысяч долларов за образец. Плюс нужно мощное железо для расчетов, которое есть далеко не в каждой лаборатории. Так что технология доступна скорее крупным центрам, а не рядовым врачам.
Что было раньше
Прорывом новую разработку не назвать, скорее — аккуратный, но очень нужный шажок. До этого исследования разные группы применяли свои любимые алгоритмы, и результаты часто не воспроизводились. Были попытки сравнить два-три инструмента, но никто не брался тестировать 13 программ на десяти больших наборах данных. Работа заполняет важную лакуну: теперь понятно, какой метод для чего годится, а какой — нет.
Этика и возможный вред
С этикой тут полный порядок. Исследователи работали с уже существующими обезличенными наборами данных от мышей и людей. Никаких новых опытов над людьми или животными не проводили. Вред может быть только косвенный — если на основе неверных рекомендаций

Прямо сейчас любой желающий с ноутбуком и базовыми навыками программирования на Python или R может скачать пакет с GitHub и запустить его на своих данных. Но чтобы самому получить исходные генетические данные из своей клетки — такого не будет еще долго. Для рядового человека технология обернется не раньше чем через 5–10 лет, когда понимание трехмерной укладки ДНК перетечет в конкретные анализы и лекарства.
Сравнение с аналогами
Есть несколько других попыток систематизировать методы 3D-анализа ДНК, например, пакеты «HiCExplorer» или „distiller“. Но они либо заточены под конкретный тип данных, либо не умеют советовать лучший инструмент автоматически. Главное отличие данной работы — ученые не просто сравнили, а сделали рекомендательную систему. Аналогов системе, которая сама бы тестировала 13 алгоритмов и подсказывала оптимальный, на рынке пока нет.
Критика работы
Исследование проверяло инструменты на уже «чистых» данных, которые
Ранее ученые выяснили, как ДНК встраивается в клеточные мембраны.



















