en

Об институте
Публикации
Блог
Мероприятия
Карьера

en

Источник

EMNLP

Дата публикации

12.11.2024

Авторы

Вероника Ганеева Андрей Саховский Кузьма Храбров Андрей Савченко Артур Кадурин Елена Тутубалина

Поделиться

Lost in Translation: Chemical Language Models and the Misunderstanding of Molecule Structures

Аннотация

The recent integration of chemistry with natural language processing (NLP) has advanced drug discovery. Molecule representation in language models (LMs) is crucial in enhancing chemical understanding. We propose Augmented Molecular Retrieval (AMORE), a flexible zero-shot framework for assessment of Chemistry LMs of different natures: trained solely on molecules for chemical tasks and on a combined corpus of natural language texts and string-based structures. The framework relies on molecule augmentations that preserve an underlying chemical, such as kekulization and cycle replacements. We evaluate encoder-only and generative LMs by calculating a metric based on the similarity score between distributed representations of molecules and their augmentations. Our experiments on ChEBI-20 and QM9 benchmarks show that these models exhibit significantly lower scores than graph-based molecular models trained without language modeling objectives. Additionally, our results on the molecule captioning task for cross-domain models, MolT5 and Text+Chem T5, demonstrate that the lower the representation-based evaluation metrics, the lower the classical text generation metrics like ROUGE and METEOR.

Читать в источнике Cкачать pdf

Похожие публикации

Journal of Chemical Information and Modeling

Chemical Space Exploration and Reinforcement Learning for Discovery of Novel Benzimidazole Hybrid Antibiotics

Карина Уразманова, Анастасия Орлова, Антон Бер, Владимир Виноградов, Андрей Дмитренко

Читать источник

Team Anotheroption at SemEval-2025 Task 8: Bridging the Gap Between Open-Source and Proprietary LLMs in Table QA.

Nikolas Evkarpidi, Елена Тутубалина

Читать источник

ATGen: A Framework for Active Text Generation

Аким Цвигун, Даниил Васильев, Иван Цвигун, Иван Лысенко, Талгат Бектлеуов, Александр Медведев, Ульяна Виноградова, Никита Северин, Михаил Мозиков, Андрей Савченко, Ростислав Григорьев, Рамиль Кулеев, Федор Жданов, Артем Шелманов, Илья Макаров

Читать источник

CLEAR: Character Unlearning in Textual and Visual Modalities

Алексей Донцов, Дмитрий Корж, Алексей Жаворонкин, Борис Михеев, Денис Бобков, Айбек Аланов, Олег Рогов, Иван Оселедец, Елена Тутубалина

Читать источник

Bridging the Gap with RedSQL: A Russian Text-to-SQL Benchmark for Domain-Specific Applications

Ирина Бродская, Елена Тутубалина, Олег Сомов

Читать источник

ShortPathQA: A Dataset for Controllable Fusion of Large Language Models with Knowledge Graphs

Михаил Сальников, Андрей Саховский, Ирина Никишина, Аида Усманова, Angelie Kraft, Cedric Möller, Debayan Banerjee, Junbo Huang, Longquan Jiang, Rana Abdullah, Xi Yan, Елена Тутубалина, Ricardo Usbeck, Александр Панченко

Читать источник

The benefits of query-based KGQA systems for complex and temporal questions in LLM era

Артем Алексеев, Михаил Чайчук, Мирон Бутко, Александр Панченко, Елена Тутубалина, Олег Сомов

Читать источник

Научно-исследовательский институт AIRI

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Об институте
Публикации
Блог
Мероприятия
Карьера

event@airi.net

Для приглашений на мероприятия

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ

people@airi.net

По вопросам, связанным с HR

© 2025, AIRI

Присоединяйтесь к AIRI в соцсетях

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

Об институте
Публикации
Блог
Мероприятия
Карьера

Связаться

Присоединяйтесь к AIRI в соцсетях

Вы можете задать нам вопрос или предложить совместный проект в области ИИ

Имя Почта Обращение Я не робот Отправляя форму, я даю согласие на обработку моих персональных данных

Сообщение отправлено.

Спасибо!

Что-то пошло не так. Попробуйте снова

partner@airi.net

По вопросам научного
сотрудничества и партнерства

pr@airi.net

Для журналистов и СМИ