Геном как роман: нейросети стали лучшими читателями ДНК
Что общего у стихов Пушкина и ДНК пшеницы? И то, и другое можно анализировать при помощи языковых моделей ИИ.

Ученые обнаружили, что искусственный интеллект, обученный на огромных массивах генетических данных, может расшифровывать язык ДНК растений почти так же, как нейросети понимают человеческую речь. Это открывает новые возможности для селекции, защиты биоразнообразия и борьбы с голодом.
Результаты опубликованы в издании Tropical Plants.
Раньше анализ генома растений упирался в две проблемы: слишком сложные данные и нехватку размеченных образцов. Обычные алгоритмы справлялись плохо, а крупные языковые модели (LLM), которые совершили прорыв в лингвистике, почти не применялись в ботанике. Главная сложность — геном говорит на своем языке, и его структура сильно отличается от человеческой речи. Но теперь исследователи из Университета Хайнаня показали, как можно научить ИИ читать эти «тексты».
Команда Мэйлин Цзоу, Хайвэя Чая и Чжицяна Ся использовала три типа нейросетей:
- DNABERT — анализирует последовательности, как переводчик разбирает предложения;
- DNAGPT — предсказывает функции генов, словно дописывая фразу;
- ENBED — ищет связи между участками ДНК.
Модели обучали на миллионах геномных последовательностей, а затем «доучивали» на конкретных примерах. Так ИИ научился распознавать промоторы, энхансеры и даже предсказывать, в каких тканях активен тот или иной ген. Уже появились специализированные алгоритмы вроде AgroNT и FloraBERT, которые работают точнее универсальных.
Проблема в том, что большинство моделей тренировали на данных животных или микробов, а растения — особенно тропические — изучены хуже. Авторы предлагают исправить это, создав ИИ, обученный исключительно на растительных геномах, и добавить данные по белкам и метаболизму.
Что это дает
- Ускоренная селекция — можно быстрее выводить сорта, устойчивые к засухе или болезням.
- Защита редких видов — ИИ поможет расшифровать геномы исчезающих растений.
- Точное земледелие — предсказание, как культура отреагирует на изменения климата.
Критика: пока что модели требуют огромных вычислительных мощностей, а их прогнозы нужно проверять в лабораториях. Но потенциал огромен — это как научить компьютер читать книгу жизни на языке, который мы только начинаем понимать.
Этот подход меняет правила игры. Если раньше расшифровка генома напоминала чтение древнего свитка без словаря, то теперь у нас появляется автоматизированный переводчик. В сельском хозяйстве это сократит сроки выведения новых сортов с 10–15 лет до нескольких сезонов. Для биоразнообразия — шанс спасти виды, которые исчезают быстрее, чем успевают их изучить. А главное, такие модели могут найти скрытые закономерности, которые человек просто не в состоянии увидеть вручную.
Основной риск — «черный ящик»: ИИ выдает результат, но не объясняет, как он его получил. Если модель ошибется при предсказании свойств ГМ-культуры, последствия проявятся только в поле. Нужны жесткие протоколы проверки.
Ранее ученые научили ИИ переводить язык жизни растений.