Интерфейс мозг-компьютер (ИМК) или нейрокомпьюетрный интерфейс – это система для обмена информацией между мозгом человека и электронным устройством. Такие системы используются в том числе и для декодирования речи, когда ученые пытаются заменить утративший работоспособность артикуляционный аппарат на электронное устройство, управляемое сигналами из речевых центров коры головного мозга. Именно этот процесс порой сравнивают с чтением мыслей, однако, на деле все не так просто.
Исследования по тематике нейроинтерфейсов которые бы «читали» мысли и помогали в реабилитации людям с сенсорными, моторными и когнитивными нарушениями, начались еще в прошлом столетии. Эта технология до сих пор сталкивается с «замкнутым кругом»: для достижения приемлемого качества расшифровки паттернов активности мозга необходимо большое количество внутрикортикальных (проникающих в тонкий слой коры головного мозга) электродов, находящихся в непосредственном контакте с нервной тканью головного мозга и регистрирующих активность отдельных нейронов. Однако имплантация таких электродов может оказаться небезопасной для пациента, а сами электроды имеют тенденцию обрастать соединительной тканью и перестают регистрировать активность нейронов. Решением данной проблемы оказывается использование малоинвазивных электродов, не проникающих в кору, а расположенных на ее поверхности. К сожалению, это резко сокращает объем информации, содержащейся в сигналах таких электродных систем. Именно поэтому научно-исследовательские группы делают упор на разработку эффективной модели искусственного интеллекта, которая заполняла бы «пробелы», возникающие при использовании малоинвазивных методов. В случае успеха, построенные по такому принципу нейроинтерфейсы станут практичными и удобными в эксплуатации с минимальными рисками для пациента.
Алексей Осадчий из научно-исследовательского института AIRI вместе с коллегами из центра биоэлектрических интерфейсов ВШЭ и их клинические партнеры из МГМСУ им. Евдокимова провели свое исследование возможности декодирования речи из активности мозга, регистрируемой при помощи малого числа минимально инвазивных электродов, имплантация которых также возможна и в амбулаторном режиме под местной анестезией.
В исследовании приняли участие два пациента с эпилепсией, перенесших плановую имплантацию сЭЭГ (стереоэлектроэнцефалографических) и ЭКоГ (электрокортикографических) электродов для нужд предоперационного картирования, которое проводится врачами перед операциями на мозг. Основная задача картирования – составить предварительную индивидуальную карту функционально значимых зон, отвечающих за ключевые (речевые, моторные) функции и обнаружить зону наступления приступа. По медицинским показаниям первому пациенту было имплантировано 5 стержней сЭЭГ с 6 контактами в каждом с целью локализовать зону начала эпилептического припадка. Второму пациенту были имплантированы 9 полосок ЭКоГ по 8 контактов, которые суммарно охватывали лобную и височную доли. Для декодирования использовались сигналы, регистрируемые электродами одного стержня (6 контактов), проходящего через одну из речевых зон или одной полоски (8 контактов), расположенной над зоной представительства языковой мышцы в моторной которе.
Далее пациентов попросили прочитать последовательность из 6 предложений (в среднем по 3-4 слова в каждом) в удобном для пациентов темпе. Предложения появлялись в случайном порядке на экране компьютера. Было принято решение задействовать не разговорные фразы, используемые человеком в быту, а особые словесные конструкции с разной лингвистической структурой: предложения с прямым и обратным порядком слов, предложения со словами, которые начинаются на одну и ту же букву. Например, «Шура широко шагает в широких штанах» или «бабушка боится барабанов». Такой набор речевых конструкций позволил разнообразить задачу для пациентов, требовал несколько больше артикуляционных усилий и вызывал легкую эмоциональную реакцию.
Для декодирования речи была обучена ранее разработанная коллективом и показавшая свою эффективность при минимуме параметров интерпретируемая нейронная сеть (сеть, структуру которой может логически объяснить человек) (Petrosyan и др. 2021). На выходе она дает дискретную классификацию отдельных слов, а анализ весовых коэффициентов позволяет понять, какие компоненты активности мозга оказались потенциально значимы для декодирования речи, и выделить целевые популяции нейронов вместе со спектральными характеристиками их активности. Сопоставление пространственных и спектральных свойств ключевых популяций позволяет провести цензурирование полученного решения и исключить факт использования артефактной активности (например, активности мышц) в качестве информативного признака.
Декодер строился по двухэтапной процедуре. Сначала создавалась интерпретируемая архитектура для декодирования из нейронной активности мел-спектральных профилей речевого акустического сигнала. Веса этой компактной сети фиксировались. Затем сеть применялась к данным нейронной активности и вычислялся эмбеддинг на основе активности нейронов предпоследнего слоя. Вектора эмбеддинга использовались в качестве входных данных для дискретного классификатора, построенного в соответствии с одним из вариантов архитектуры ResNet, которая затем обучалась различать паттерны нейронной активности, соответствующие каждому из 26-ти слов и состоянию покоя.
Разделение задач оценки отдельного временного среза спектрограммы из предшествующего окна данных и дискретной классификации слов на основе полученной оценки спектрограммы позволяет избежать искусственного завышения рабочих характеристик декодера, когда для решения задачи используется контекстная информация, характерная конкретному набору данных. Ту же цель потенциальной транслируемости разработанной методики при создании реальных речевых нейроинтерфейсов преследует и используемое в данной работе декодирование слов из непосредственно предшествующей словам нейронной активности, то есть из «прошлого». Это гарантирует неиспользование ответов слуховой коры на прослушивание порождаемой самими испытуемыми речи.
Средняя точность декодирования 27 классов (26 слов и состояние покоя) составила 58% из 6 каналов данных первого пациента и 72% при использовании 8 каналов данных второго пациента. Компактная архитектура не требовала предварительной проектировки информативных признаков, быстро обучалась и работала с непрерывным потоком данных, а структура первых слоев, выполнявших функцию извлечения признаков, соответствовала физиологии регистрируемых сигналов, что и обеспечило последующую успешную интерпретацию полученного решающего правила.
Исследование впервые демонстрирует возможность создания речевого протеза с небольшим количеством инвазивных электродов, основанного на компактном нейросетевом декодере, который, в свою очередь, был обучен на небольшом количестве данных. Кроме того, подобный декодер не требует ручного конструирования информативных признаков.
«В идеале, система декодирования речи будет не только обучаться сама, но и учить человека воображать речь правильно, чтобы в результате такой человеко-машинной синергии достичь максимальную точность воспроизводства желаемого сообщения», – Алексей Осадчий, руководитель группы «Нейроинтерфейсы» AIRI.