Данных мало? Добавьте расчетов: новый прорыв в материаловедении

Максим Наговицын05.07.20251764

Данных в материаловедении всегда не хватает, но теперь ученые нашли способ обойти это ограничение.

Данных мало? Добавьте расчетов: новый прорыв в материаловедении
Источник: нейросеть

В исследованиях, где все решают данные, главный ресурс — сами данные. Но если в таких продвинутых областях, как обработка естественного языка, компьютерное зрение или биология, данных хоть отбавляй, то в материаловедении их катастрофически не хватает. Чтобы решить эту проблему, ученые начали использовать компьютерное моделирование — например, квантово-химические расчеты и молекулярную динамику. Так появились огромные базы данных по свойствам материалов.

Результаты опубликованы в издании npj Computational Materials.

Для неорганических материалов уже есть несколько крупных проектов: Materials Project, AFLOW, OQMD, GNoME и OMat24. А вот с полимерами ситуация сложнее — тут данных меньше, и их сложнее получить. Но группа исследователей из ISM разработала RadonPy — платформу, которая полностью автоматизирует расчеты свойств полимеров. Они объединили усилия с двумя национальными институтами, восемью университетами и 37 компаниями, чтобы создать одну из самых больших в мире баз данных по полимерам. А вместе с MCC они запустили лабораторию, которая занимается автоматизацией квантовой химии и строит базу данных по совместимости полимеров с растворителями.

Проблема в том, что расчетные данные — это не реальные эксперименты. Но здесь на помощь приходит трансферное обучение: модель сначала обучают на огромном массиве расчетных данных, а потом дорабатывают на небольшом количестве реальных экспериментов. Такой подход уже доказал свою эффективность — модели работают лучше, чем если бы их обучали только на экспериментах. Как если бы пилот сначала тренировался на симуляторе, а потом пересел на настоящий самолет.

В этом исследовании ученые показали, что в материаловедении действуют законы масштабирования  (scaling laws) — чем больше расчетных данных, тем точнее предсказания. Раньше эту закономерность подтвердили в компьютерном зрении, а теперь и здесь.

Формула простая: ошибка предсказания = Dn<sup>-α</sup> + C, где:

  • n — объем данных,
  • α — скорость улучшения точности,
  • C — предел, которого нельзя преодолеть, просто добавляя данные.

Чем выше α и ниже C, тем лучше база данных.

Оказалось, что модели, обученные на RadonPy и базе данных по совместимости полимеров, отлично масштабируются для разных экспериментов. Часть данных предоставили коллеги из NIMS  (разработчики базы PoLyInfo).

Зачем это нужно

  • Можно оценить, сколько данных потребуется для нужной точности.
  • Если точность перестает расти, можно остановиться и не тратить ресурсы впустую.
  • Можно планировать эксперименты, зная, где выгоднее провести расчеты, а где — реальные тесты.

Что дальше

Главная задача — создать такие базы данных, которые можно масштабировать и использовать для разных задач. В перспективе это откроет новые возможности для предсказания свойств материалов даже там, где экспериментов почти нет.

Это исследование — шаг к индустриализации материаловедения. Если раньше разработка нового материала требовала тысяч экспериментов, то теперь можно:

  • Сократить затраты — часть данных заменят расчеты.
  • Ускорить R&D — предсказывать свойства материалов быстрее.
  • Снизить риск ошибок — модели, обученные на больших данных, надежнее.

Особенно выиграют химическая и фармацевтическая отрасли, где подбор полимеров и растворителей — долгий и дорогой процесс.

Главный вопрос — насколько универсальны эти законы масштабирования. В исследовании проверяли только конкретные базы данных (RadonPy, полимеры + растворители). Но материалы бывают очень разными: металлы, керамика, композиты — везде свои закономерности. Если законы масштабирования окажутся менее стабильными для других классов материалов, ценность метода снизится.

Ранее российские ученые открыли новый способ передачи данных в квантовых компьютерах.

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT

Поиск на сайте

Лента новостей

Пресс-релизы