Источник
NAACL
Дата публикации
29.04.2025
Авторы
Елисей Рыков
Ксения Петрушина
Ксения Титова
Антон Разжигаев
Александр Панченко
Василий Коновалов
Поделиться
Through the Looking Glass: Common Sense Consistency Evaluation of Weird Images
Аннотация
Measuring how real images look is a complextask in artificial intelligence research. For example,an image of a boy with a vacuum cleanerin a desert violates common sense. We introducea novel method, which we call Throughthe Looking Glass (TLG), to assess image commonsense consistency using Large Vision-Language Models (LVLMs) and Transformerbasedencoder. By leveraging LVLMs to extractatomic facts from these images, we obtaina mix of accurate facts. We proceed byfine-tuning a compact attention-pooling classifierover encoded atomic facts. Our TLG hasachieved a new state-of-the-art performanceon the WHOOPS! and WEIRD datasets whileleveraging a compact fine-tuning component.
Похожие публикации
Вы можете задать нам вопрос или предложить совместный проект в области ИИ
partner@airi.net
По вопросам научного
сотрудничества и партнерства
сотрудничества и партнерства
pr@airi.net
Для журналистов и СМИ