Многие задачи обработки естественного языка субъективны и содержат присущую им двусмысленность. К их числу относится определение токсичности текста, который отправляют друг другу пользователи интернета. Проблема здесь в том, что токсичность определяется разными способами, которые могут противоречить друг другу и различаться в зависимости от демографической группы, к которой относится отправитель или получатель текста. В ряде случаев доля неоднозначных текстов может достигать 90 процентов, что делает методы машинной классификации низкоэффективными.
Чтобы повысить точность нейросети, фильтрующей тексты, можно попытаться предугадывать их неоднозначность во время предсказания самой нейросети. В этом случае можно отказаться от классификации для части примеров, отправив их на ручную проверку человеком. Такой подход называется выборочной классификацией.
Специалисты выделяют два источника ошибок: примеры вне распределения обучающих данных и сложные примеры. В первом случае хорошо работают методы оценивания эпистемической неопределенности, которая возникает из-за недостатка данных, во втором — методы оценивания алеаторной неопределенности, которая возникает из-за шума и неоднозначности в данных. Хороший современный подход должен уметь грамотно комбинировать оба типа оценки. Разработка такого подхода было целью группы исследователей из нескольких российских институтов под руководством Александра Панченко и Артёма Шелманова.
Два типа ошибок, возникающие в задачах классификации
Ученые предложили гибридный метод оценивания неопределенности для задачи выборочной классификации текстов для данных с неоднозначными примерами, основанный на ранжировании. Вместо складывания абсолютных значений оценок неопределенности или порогового выбора между доминирующим типом ошибок, которые применяли их предшественники, они предложили преобразовывать множество примеров с текстами к сортированному списку в порядке возрастания их неопределенностей. Такое преобразование не влияет на работу привычных методов, поскольку ранг монотонно зависит от неопределенности, но позволяет более корректно их смешивать.
К новизне работы можно отнести также и сам подход к смешиванию, который получил название гибридного метода (Hybrid Uncertainty Quantification, HUQ). Теперь алгоритм выделяет три разных случая. Если пример находится внутри обучающего распределения, используется метод алеаторной оценки неопределенности с ранжированием только по нему. Если же эта неопределенность достаточно высока, оценка ранжируется по всему датасету. Наконец, для оставшейся части примеров, положения которых точно неизвестно, алгоритм использует линейную комбинацию рангов двух методов с некоторым коэффициентом, который можно подобрать на валидации.
Авторы решили провести эксперименты на наиболее сложных задачах: определение токсичности (датасеты Paradetox, ToxiGen, Jigsaw, Twitter, ImplicitHate), анализ тональности (датасеты SST-5, Amazon) и многоклассовая классификация текстов (датасет 20 News Groups). Используя их, они обучали две популярные трансформерные модели ELECTRA и BERT решать задачу классификации и пытались определить то, в каких примерах они ошибаются.
В качестве методов оценки эпистемической неопределенности ученые использовали три современных метода (Mahalanobis Distance (MD), Robust Density Estimation (RDE) и Deep Deterministic Uncertainty (DDU)), а для оценки алеаторной неопределенности — два метода, основанных на вероятности предсказания модели (entropy и Softmax Response (SR)). Качество оценки давала метрика RC-AUC.
Предварительный эксперимент на синтетическом датасете Two Moons, в котором в роли примеров выступают две группы точек на плоскости, позволил наглядно визуализировать эффективность нового метода. На рисунке ниже видно, что HUQ, который комбинирую оба метода, в точности определяет обе области неопределенности, и преодолевает недостатки каждого из методов, примененных индивидуально.
На самой левой картинке цветом выделены два класса. Для остальных картинок более желтый цвет означает высокую неопределенность модели для примеров из данной области
На следующем этапе исследователи сравнили метод HUQ с различными современными методами, включая глубокий ансамбль (deep ensemble) — популярный и точный, но вычислительно тяжелый метод. Тесты показали, что HUQ как правило лучший или второй лучший метод после глубокого ансамбля. Однако, в отличие от него, HUQ работает значительно быстрее, а на датасетах SST5, 20 News Groups и Paradetox HUQ даже превосходит ансамбль.
Подробности работы можно найти в статье, опубликованной в сборнике трудов конференции ACL 2023.