Дата публикации
28.08.2025
Авторы
Мария Синдеева Марат Хамадеев
Поделиться

AlphaFold2 научили лучше учитывать одиночные мутации белков


Белки играют важную роль в живых организмах, выполняя множество ключевых функций и обеспечивая сам процесс жизнедеятельности. То, как будет действовать белок и какими свойствами он будет обладать, зависит не только от его аминокислотного состава, но и от того, в какую структур свернётся белок в результате процедуры фолдинга.

Вычисление структуры свёрнутого белка из первых принципов практически невозможно. Вместе с тем, в биохимии известна догма Анфинсена, которая утверждает, что трёхмерная структура белка в его стандартной физиологической среде полностью определяется только его аминокислотной последовательностью. Это не абсолютное правило, которое, тем не менее, работает для большинства белков. Оно открывает дорогу к применению машинного обучения для предсказания структуры белков, а также для их дизайна, то есть подбора белков с нужными свойствами и функциями.

Одним из самых впечатляющих достижений в этом направлении стало создание модели AlphaFold2, чьи авторы были отмечены Нобелевской премией по химии за 2024 год. Она оказалась полезной не только для предсказания трёхмерной структуры, но и для решения ряда других задач дизайна белков: создания новых белков без опоры на существующие, итеративной оптимизации аминокислотной последовательности, оценки перспективности кандидатов и так далее.

Однако при оценке влияния мутаций на стабильность белка AlphaFold2 демонстрирует невысокую точность, что связано с многократным переиспользованием моделью данных о шаблонной структуре белка немутировавшего (wildtype) белка. В результате мутировавшие структуры, которые предсказывает модель, слабо отличаются оригинальных, что не позволяет в полной мере уловить эффекты одиночных мутаций.

Этот факт побудил команду исследователей из AIRI усовершенствовать пайплайн AlphaFold2, что привело к созданию фреймворка AFToolkit. В его основе лежит несколько изменений, главным из которых стало ограничение на переиспользование входного шаблона. Важно, что модификация касается только инференса AlphaFold2, а потому не требует переобучения модели. Использование эмбеддингов AlphaFold2 вместе с простыми адаптерами позволило добиться лучших метрик на различных задачах, связанных с мутациями: прогнозирование изменения стабильности белков, изменение энергии связывания белковых комплексов и других.


Схема AFToolkit. На каждой итерации переиспользования фреймворк накладывает маску на информацию о структуре исходного белка. Для решения задач, связанных с эффектами мутаций, применяется маскирование боковых цепей.

Статья с описанием фреймворка была опубликована в журнале Briefings in Bioinformatics. Код для запуска, обучения, а также собственные обученные модели авторы собрали в своем репозитории.

Присоединяйтесь к AIRI в соцсетях