Дата публикации
27.06.2024
Авторы
Вероника Ганеева Марат Хамадеев
Поделиться

Языковые модели для химических задач оказались уязвимы к изменениям в представлении молекул


Чтобы предсказать исход химической реакции, можно попытаться описать её как взаимодействие множества нейтральных атомов, ионов и электронов, которое имеет квантовый характер. Однако в квантовой механике точно решается лишь задача двух тел (водородоподобные атомы или рассеяние частиц). А уже для предсказания, например, свойств атома гелия требуется применять приближенные или численные методы. Важно, что с ростом числа частиц сложность расчётов сильно возрастает, поэтому традиционные методы квантовой химии очень требовательны к вычислительным ресурсам. 

Ответом на эти вызовы может стать применение различных подходов машинного обучения, которые пытаются дать ответ, генерализируя химические законы на основе обширных датасетов. Так, мы уже рассказывали, как для этих целей используют графовые нейронные сети. В узлах графов при этом располагаются атомы, а их рёбра соответствуют химическим связям.

Другой подход к этой проблеме основан на использовании трансформерной архитектуры, которая разработана специально для обработки длинных текстовых последовательностей. Для этого молекула представляется в виде последовательности символов с помощью языка SMILES. Это позволяет скармливать языковым моделям огромные массивы данных о молекулах и их свойствах, а затем пытаться решать различные задачи: генерация новых соединений, предсказание физико-химических свойств, описание реакций и тому подобное.


Построение SMILES-представления муравьиной кислоты. Источник: Мария Кадукова / biomolecula.ru

Следующий шаг в развитии этой парадигмы — это создание кросс-доменных языковых моделей, которые учатся связывать химические данные со словами, которые их описывают. Для их проверки исследователи разрабатывают различные бенчмарки и тесты, которые позволяют оценить способность моделей хранить в себе корректные химические знания. Один из таких тестов разработала команда исследователей во главе с Еленой Тутубалиной, которая руководит группой «Прикладное NLP» в AIRI. 

Авторы ставили перед моделями ряд задач языкового описания молекул и их свойств, которое, по сути, можно назвать переводом SMILES-текста на человеческий язык. Они оценивали понимание моделями химии на двух популярных в этой области примерах моделей: MolT5 и Text+Chem T5, каждая из которых имела две версии. 

В ходе экспериментов исследователи выяснили, что эти модели до сих пор остаются уязвимыми к небольшим изменениям в символьном представлении молекул, хотя получившаяся запись остаётся корректной записью той же молекулы с точки зрения химии. Им удалось доказать, что такие правки вызывают снижение качества и точности выдачи, но степень этого снижения, похоже, в большинстве случаев диктуется обработкой языка, а не лежащим в ее основе пониманием химии. Проведённое исследование поможет лучше понимать слабые места не только у кросс-доменных моделей в области химии, но и у языковых кросс-доменных моделей в целом. 

Работа была представлена на конференции ICLR 2024, статья опубликована в её сборнике. Исходный код доступен на GitHub.



Присоединяйтесь к AIRI в соцсетях