Данных мало? Добавьте расчетов: новый прорыв в материаловедении
Данных в материаловедении всегда не хватает, но теперь ученые нашли способ обойти это ограничение.

В исследованиях, где все решают данные, главный ресурс — сами данные. Но если в таких продвинутых областях, как обработка естественного языка, компьютерное зрение или биология, данных хоть отбавляй, то в материаловедении их катастрофически не хватает. Чтобы решить эту проблему, ученые начали использовать компьютерное моделирование — например, квантово-химические расчеты и молекулярную динамику. Так появились огромные базы данных по свойствам материалов.
Результаты опубликованы в издании npj Computational Materials.
Для неорганических материалов уже есть несколько крупных проектов: Materials Project, AFLOW, OQMD, GNoME и OMat24. А вот с полимерами ситуация сложнее — тут данных меньше, и их сложнее получить. Но группа исследователей из ISM разработала RadonPy — платформу, которая полностью автоматизирует расчеты свойств полимеров. Они объединили усилия с двумя национальными институтами, восемью университетами и 37 компаниями, чтобы создать одну из самых больших в мире баз данных по полимерам. А вместе с MCC они запустили лабораторию, которая занимается автоматизацией квантовой химии и строит базу данных по совместимости полимеров с растворителями.
Проблема в том, что расчетные данные — это не реальные эксперименты. Но здесь на помощь приходит трансферное обучение: модель сначала обучают на огромном массиве расчетных данных, а потом дорабатывают на небольшом количестве реальных экспериментов. Такой подход уже доказал свою эффективность — модели работают лучше, чем если бы их обучали только на экспериментах. Как если бы пилот сначала тренировался на симуляторе, а потом пересел на настоящий самолет.
В этом исследовании ученые показали, что в материаловедении действуют законы масштабирования (scaling laws) — чем больше расчетных данных, тем точнее предсказания. Раньше эту закономерность подтвердили в компьютерном зрении, а теперь и здесь.
Формула простая: ошибка предсказания = Dn<sup>-α</sup> + C, где:
- n — объем данных,
- α — скорость улучшения точности,
- C — предел, которого нельзя преодолеть, просто добавляя данные.
Чем выше α и ниже C, тем лучше база данных.
Оказалось, что модели, обученные на RadonPy и базе данных по совместимости полимеров, отлично масштабируются для разных экспериментов. Часть данных предоставили коллеги из NIMS (разработчики базы PoLyInfo).
Зачем это нужно
- Можно оценить, сколько данных потребуется для нужной точности.
- Если точность перестает расти, можно остановиться и не тратить ресурсы впустую.
- Можно планировать эксперименты, зная, где выгоднее провести расчеты, а где — реальные тесты.
Что дальше
Главная задача — создать такие базы данных, которые можно масштабировать и использовать для разных задач. В перспективе это откроет новые возможности для предсказания свойств материалов даже там, где экспериментов почти нет.
Это исследование — шаг к индустриализации материаловедения. Если раньше разработка нового материала требовала тысяч экспериментов, то теперь можно:
- Сократить затраты — часть данных заменят расчеты.
- Ускорить R&D — предсказывать свойства материалов быстрее.
- Снизить риск ошибок — модели, обученные на больших данных, надежнее.
Особенно выиграют химическая и фармацевтическая отрасли, где подбор полимеров и растворителей — долгий и дорогой процесс.
Главный вопрос — насколько универсальны эти законы масштабирования. В исследовании проверяли только конкретные базы данных (RadonPy, полимеры + растворители). Но материалы бывают очень разными: металлы, керамика, композиты — везде свои закономерности. Если законы масштабирования окажутся менее стабильными для других классов материалов, ценность метода снизится.
Ранее российские ученые открыли новый способ передачи данных в квантовых компьютерах.