Интерактивная сегментация объектов на изображениях — то есть определение их границ — играет важную роль в целом ряде областей, начиная с обработки медицинских снимков и заканчивая созданием спецэффектов. Современные методы интерактивной сегментации направлены на максимальную автоматизацию этой задачи, поэтому к их созданию привлекают самые разнообразные архитектуры машинного обучения.
Для корректной оценки таких методов разработчикам нужно собирать информацию о взаимодействии с ними реальных людей. Обычно оно заключается в том, что человек с помощью кликов мыши или тапов по экрану указывает объект интереса, а алгоритм старается правильно его выделить. В случае ошибки от пользователя требуется указать на область, которую алгоритм выделил неверно. Для того, чтобы понять, насколько хорошо работают методы, нужны реалистичные модели того, как люди кликают на объекты, но существующих стратегий моделирования такого поведения не так уж и много.
Исследователи AIRI во главе с руководителем группы «ИИ для роботов» Владиславом Шахуро провели масштабное исследование, чтобы узнать, как люди на самом деле взаимодействуют с методами интерактивной сегментации, когда хотят выбрать объект. Для этого они объединили несколько классических датасетов для оценки этих методов и собрали для них в общей сложности 475 000 пользовательских кликов и тапов через специальный веб-интерфейс. Датасет получил название RClicks.
На следующем этапе авторы обучили модель кликабельности (clickability model), которая для каждой точки входного изображения предсказывает вероятность того, что пользователь туда кликнет. Для этого они строили специальные карты на основе нормализованных и обработанных данных из RClicks.
Новая модель открыла дорогу к тестированию существующих методов интерактивной сегментации (RITM, SimpleClick, SAM и других) с помощью подхода, который ближе к человеческому поведению, чем используемый обычно — кликать в центр наибольшей области ошибки. Оказалось, что традиционная (базовая) стратегия недооценивает реальное время аннотирования. Кроме того, оно значительно различается у разных групп пользователей. Выяснилось также, что не существует метода сегментации, который был бы одновременно эффективным и устойчивым на всех датасетах.
Примеры усредненных по кликам масок (черно-белые изображения), полученных на сложных картинках разными методами: RITM, SimpleClick, SAM, SAM-HQ, соответственно. Зелёные точки обозначают реальные клики.
Бенчмарк и модель, созданные авторами, позволят другим исследователям выделять самые сложные примеры из выборки, оценивать более реалистичное время разметки новых датасетов, а также выбирать наиболее оптимальный метод аннотирования в каждом конкретном случае при наличии небольшой размеченной подвыборки датасета.
Статья с деталями опубликована в сборнике трудов конференции NeurIPS 2024, код и данные доступны на GitHub.