Далеко ли зашли роботы в распознавании человеческих эмоций
За последние 50 лет технология компьютерного зрения эволюционировала от решения простых задач по распознаванию букв до создания дополненной реальности. Одно из самых активно развивающихся ее практических применений — это создание антропоморфных роботов, способных к считыванию эмоционального состояния собеседника. Специально для N + 1 организаторы конференции Яндекса «Data&Science: Мир глазами роботов» поговорили с одним из ее участников — Анатолием Бобе, главой отдела машинного обучения в компании Neurobotics, которая работает над созданием алгоритма по распознаванию эмоций «ЭмоДетект».
Еще в середине XIX века французский ученый Дюшен де Булонь изучал эмоции, стимулируя электрическим разрядом лицевые мышцы человека и наблюдая за их сокращениями. Датой начала основных исследований в области их автоматического распознавания можно считать 1872 год, когда Чарльз Дарвин написал книгу «The Expression of Emotion in Man and Animals», в которой он сделал очень неочевидное уточнение: проявление эмоций у людей разного происхождения, разных рас и разного этноса примерно одинаково. Дарвин объявил, что эмоция — это универсальная характеристика, а значит, мы можем строить системы по распознаванию эмоций любого человека.
В середине ХХ века стараниями психолога Рэя Бердвистела появилась наука кинесика, и одним из главных ее специалистов стал знаменитый психолог Пол Экман. В 1978 году он предложил Систему кодирования лицевых движений (англ. FACS, Facial Action Coding System), которая по-прежнему остается библией разработчиков, занимающихся алгоритмами распознавания эмоций. Пол Экман разработал универсальные критерии для описания состояния лица человека, выделив около 90 двигательных единиц лица и головы, а также ввел набор из шести базовых эмоций, которые складываются из их комбинаций: радость, удивление, печаль, гнев, отвращение и страх (иногда в этот список добавляют также эмоцию презрения).
В середине 90-х годов, когда появились достаточные вычислительные мощности и машины созрели для обработки изображений, разработчики ринулись создавать первые системы. В начале использовались алгоритмы оптического потока, которые отслеживали во времени движение различных областей лица. Чуть позже, в 2000-х, начали развиваться нейросети, появились датасеты с разметкой двигательных единиц, проводились хакатоны и большие международные конкурсы по распознаванию эмоций.
В середине 10-х годов разработчики разделились. Кто-то придерживался классических методов и продолжал рассчитывать отдельные двигательные единицы по Экману на основе геометрических признаков, а кто-то, вооружившись только что появившимся глубоким обучением, занялся обучением сверточных сетей и генеративных моделей.
Задача классификации эмоций по изображению сводится к тому, чтобы определить, что такое базовые эмоции, и обучить машину по базе данных лиц. Компания Neurobotics использует два подхода к решению этой задачи: классическую обработку изображений и сверточную нейросеть.
Для тренировки нейросети был использован тип обучения с учителем. Модель обучалась на смешанных данных: часть была взята из стандартного открытого датасета Cohn-Kanade, который содержит около 800 последовательностей изображений, каждое из которых размечено определенной эмоцией. Для сверточной нейросети такого количества недостаточно, поэтому команда Neurobotics собирала свой датасет. Они сажали людей перед камерой и просили изобразить шесть эмоций согласно правилам из мануала Экмана. Так они добавили к датасету еще три тысячи изображений. На последующих этапах работы алгоритм тестировался уже на расширенной базе данных AffectNet, которая содержит сотни тысяч изображений и хорошо подходит для задач глубокого обучения.
Преимущества нейросети в том, что, обладая хорошей обобщающей способностью, она работает в универсальной ситуации и выдает результат даже в плохих условиях съемки. Это может хорошо работать в «развлекательных» приложениях, но не подойдет для более глубокого анализа психоэмоционального состояния. Просто разделив данные на семь классов, невозможно обосновать, на основе какого признака рассчитываются те или иные эмоции. Поэтому для работы с заказчиками-психологами Neurobotics используют классическую обработку изображений: она считает признаки непосредственно по правилам Экмана и при хороших условиях съемки ошибается реже, чем нейросеть.
В классической обработке для каждой эмоции рассчитываются информативные признаки и определяются контрольные точки на лице. Затем признаки нормируются и строится классификатор. У каждой эмоции может быть много индивидуальных вариаций, и строго определить, что эти эмоции являются независимым базисом, нельзя. Формально можно определить только двигательные единицы, которые человек способен воспроизвести на своем лице, напрягая определенные мышцы. Например, поднятие бровей, открытие рта или поднятие верхней губы. Пол Экман детально описал, как выглядит на лице каждая из 90 таких единиц и как выглядят разные степени их выраженности: где появляются морщины, если человек поднимает брови, где они углубляются и насколько.
Такой метод требует наличия опорного, «нейтрального» изображения лица, с которым сравниваются разные эмоции, поэтому при составлении своего датасета команда Neurobotics добавляла к шести эмоциям Экмана нейтральное выражение лица для каждого добровольца. Для построения карты признаков рассчитываются значения 20 двигательных единиц. Признаки строятся по локальным дескрипторам, которые описывают окрестности контрольных точек и геометрические расстояния между ними.
Для разных признаков подходят разные методы их расчета. Например, морщины удобно считать с помощью фильтров. Маленькие морщины в уголках рта считаются по степени разброса яркости пикселей: применяется сглаживающий фильтр Гаусса, и полученное изображение сравнивается с исходным. Если морщины были, при сглаживании они пропадут и разность изображений будет больше. Если морщин не было, гладкая кожа при сглаживании останется гладкой. Для морщин, которые имеют достаточно сильную выраженность и известную ориентацию (например, морщины на лбу или на крыльях носа), хорошо подходит фильтр Габора. Этот фильтр представляет собой двумерную синусоиду, сглаженную гауссовым окном, и хорошо «реагирует» на свойственные крупным морщинам перепады яркости в определенном направлении.
Такие признаки, как наклон бровей и линия рта, хорошо определяются при использовании локальных бинарных шаблонов. Этот метод описывает окрестность заданной точки изображения на основе анализа свойств соседних точек: какие из них ярче либо темнее и каким образом они распределены в пространстве изображения.
После расчета всех признаков проводится их нормировка и классификация на эмоции. Самым простым способом было бы определить каждую эмоцию по набору определенных двигательных единиц в таблице Экмана. Но в реальности всегда присутствуют погрешности, поэтому строгий логический классификатор работал плохо. Лучше всего сработала взвешенная сумма признаков с адаптивными весовыми коэффициентами, индивидуально рассчитанными для каждого из признаков на основе статистики его роявления в тех или иных эмоциях.
При таком подходе, однако, всегда возникает путаница между эмоциями удивления и страхом, и между нейтральным выражением и грустью. Это происходит из-за того, что один и тот же набор двигательных единиц может свидетельствовать о разных эмоциях. Например, морщины на лбу, которые свидетельствуют о том, что человек поднял брови, могут быть признаком как страха, так и удивления, и если классификатор уже выбрал высокое значение для страха, то к нему автоматически подтягивается высокое значение для удивления.
Для решения этой проблемы команда Neurobotics объединила взвешенную сумму признаков с классификатором на машинном обучении. Нейросеть, построенная на значениях признаков, выдавала строго одну наиболее вероятную эмоцию, а классификатор на сумме признаков «сглаживал» ее решение, добавляя вероятности присутствия параллельных с основной «вторичных» эмоций лица. Наконец, на выходе системы стоял контролирующий алгоритм на основе строгой логики, который «обнулял» вероятности тех эмоций, которые явно противоречили доминирующей, в случае, если таковые оказывались ненулевыми. С помощью такого подхода удалось добиться результатов классификации с точностью порядка 73 процента при классификации на семь классов.
В маркетинге подобные технологии используют для оценки реакции потребителя на товар, услугу, просмотренное видео (компании Visage Technologies, Affectiva), в робототехнике — для создания все более интерактивных антропоморфных роботов, которые уже не только распознают речь собеседника, но и считывают его эмоциональное состояние. Самый известный из таких продуктов — робот Pepper от японской компании Aldebaran Robotics. Он распознает четыре базовых эмоции (спокойствие, злость, радость и печаль) на основе анализа как выражения лица, так и голоса, особенностей речи и телодвижений собеседника. Для успешной работы системы распознавания робот оборудован RGB- и 3D-камерами, датчиками звука, ультразвуковыми и лазерными сенсорами.
Среди других известных и уважаемых в научном сообществе производителей стоит упомянуть датскую компанию Emotient и голландскую Noldus, которые продают программное обеспечение для анализа эмоций на профессиональном уровне, с использованием 3D-модели лица и всех доступных для расчета экмановских двигательных единиц. Их разработки используются, помимо маркетинга, в медицине, нейрокомпьютерных интерфейсах, интерактивных устройствах виртуальной реальности, а также в исследованиях по нейрофизиологии.
Другие возможные применения технологии детекции эмоций — это поведенческая диагностика или задача распознавания лжи в криминалистике. В таких областях уже могут использоваться более экзотические признаки, такие как пульс, жестикуляция, направление взгляда, расширение зрачка или даже тепловые карты, которые отслеживают прилив крови к лицу. Такие методы позволяют более точно детектировать малейшие поведенческие изменения, но они сокращают распознаваемые эмоции максимум к трем: нейтральная, положительная и отрицательная.
Беседовала Ася Шепунова,
Яндекс
Во Франции нашли и расшифровали 57 прежде неизвестных писем Марии Стюарт
Борьба Марии Стюарт, королевы Шотландии и Франции, за английский престол закончилась для нее на эшафоте 8 февраля 1587 года. На гибель Марию Стюарт обрекли несколько писем, которые были зашифрованы слишком простым кодом. Только что архив переписки Марии пополнился: участники проекта DECRYPT обнаружили во Франции больше пятидесяти писем королевы и расшифровали их. Шестнадцатый век, эпоха становления абсолютной монархии и новой европейской политики, наполненный придворными интригами, неофициальной дипломатией и шпионажем, стал также и временем бурного развития искусства криптографии. Переписка монархов, послов, их агентов, попав не в те руки, могла привести к войне или революции — поэтому содержание писем начинают скрывать от лишних глаз с помощью шифров. Самым распространенным — и простым — методом тогда был моноалфавитный симметричный замещающий шифр, где каждой букве соответствует один символ, а для шифровки и расшифровки используется один и тот же ключ в виде таблицы соответствия букв и символов. Взламывать его научились еще арабские математики в X веке: для этого нужно подсчитать частоту встречаемости символов и затем сопоставить ее частотой букв в других текстах на предполагаемом языке послания. В русском языке, например, самая частая буква — «о», на нее приходится 10,98 процента знаков в любом тексте. Если в зашифрованном тексте какой-то символ встречается с такой частотой, то он наверняка замещает именно «о». В частности, именно так американцы Бетти и Дональд Гардены в 1969 году прочли зашифрованные письма серийного убийцы Зодиака, которые публиковали газеты. Но для XVI века такой шифр был уже слишком простым. Появились более изощренные методы, например, омофонический шифр, в котором одну и ту же букву могли обозначать разные символы, или использование номенклатур, то есть таблиц специальных символов для некоторых слов, имен, топонимов и месяцев. Появились шифры с нулевыми знаками, которые игнорировались при расшифровке, а также знаки, которые отменяли предыдущий или, напротив, повторяли его. Ключи шифрования могли меняться по ходу текста. Да и сам текст мог быть на экзотическом языке, чтобы затруднить его идентификацию при помощи частотного анализа. Комбинирование этих приемов делало взлом шифра крайне сложной задачей. Многие документы того периода так и остались не расшифрованными ни современниками, ни последующими исследователями — и только появление методов компьютерного анализа позволило, наконец, их прочесть. Неопознанный архив Слишком простой шифр сыграл фатальную роль в судьбе Марии Стюарт. Главной уликой в суде, который приговорил ее к смерти, стало письмо Марии лидеру заговорщиков Энтони Бабингтону. Документ перехватили агенты секретаря Елизаветы I Фрэнсиса Уолсингема и прочли — он был зашифрован примитивным моноалфавитным шифром с очень небольшой номенклатурой. Неосторожность Марии, вероятно, была вынужденной. Ее молодой корреспондент — Бабингтону не было и 25 лет — скорее всего, просто не владел более сложными способами шифрования. Вообще среди писем Марии Стюарт встречаются примеры использования значительно более сложных шифров. Всего в Английском национальном архиве хранится больше сотни зашифрованных писем шотландской королевы. Многие из них связаны с заговорами по свержению Елизаветы I и коронованию Марии как королевы Англии. Теперь эпистолярный архив Марии Стюарт сильно пополнился — сразу на 57 новых документов — благодаря усилиям трех членов группы DECRYPT: компьютерщику Джорджу Ласри (George Lasry), историку Норберту Бирманну (Norbert Biermann) и физику Сатоши Томокийо (Satoshi Tomokiyo). Изучая оцифрованный архив Национальной библиотеки Франции в поисках зашифрованных рукописей, они обнаружили документы, которые были атрибутированы как итальянские письма первой половины XVI века. Изучив эти документы, исследователи поняли, что они не имеют никакого отношения к Италии, а первая попытка расшифровки — когда язык послания еще не был определен — дала им имя, которое все расставило по местам. Это было имя Фрэнсиса Уолсингема, который занимался для Елизаветы в первую очередь вопросами различной секретности, и, в конечном счете, успехи которого погубили Марию Стюарт. Но эти письма были зашифрованы гораздо более сложным кодом, чем попавшие в руки Уолсингема письма Баббингтону: в нем было много омофонических знаков и сложная номенклатура. Поскольку исчерпывающий поиск, при котором перебираются все возможные варианты расшифровки, занимает слишком много времени и вычислительных ресурсов, группа применяла метод поиска восхождением к вершине (hill climbing) — один из способов решения оптимизационных задач (например, разных типов задачи коммивояжера). Этот алгоритм начинает работу с того, что генерирует произвольное решение, а затем пошагово его улучшает, меняя параметры. Перед началом расшифровки исследователи составили таблицы вероятности для пятибуквенных сочетаний, таких как -ision, -ement, -etles, -ourle. После этого была рассчитана вероятность сочетания этих комбинаций с наиболее часто встречающимися буквами в письмах. Затем был сгенерирован случайный ключ, призванный выявить омофоны, чтобы разметить их в тексте. После незначительной модификации ключа алгоритм заново размечал текст, и, в случае улучшения результата, принимался новый ключ, в противном случае он отвергался. Алгоритм применялся до тех пор, пока не выявлялся оптимальный пик для всего текста. Этот метод позволил выявить омофоны, в то время как знаки номенклатуры — знаки, обозначающие сразу целые слова, — подбирались вручную. Письма были написаны на французском, но шифр отличался от принятого во французской дипломатии того периода и был сложнее. В частности, в шифрах французских послов в Венеции, Риме, Испании не использовались диакритические знаки, которые есть в письмах Марии Стюарт. Ласри и его коллеги пока не нашли ответа, был ли этот шифр разработан самой королевой или кем-то из ее окружения — или был усложненным вариантом французского дипломатического шифра. Исследователи проверили корректность расшифровки путем сравнения найденных писем с уже известными документами из коллекции бумаг Уолсингема в британских архивах. Ласри и его коллеги полагают, что, возможно, в дальнейшем удастся обнаружить и другие документы, связанные с судьбой Марии Стюарт, которые зашифрованы так же. Что в письмах Из 57 найденных писем Марии Стюарт 54 адресованы французскому послу при английском дворе Мишелю де Кастельно, два — посланнику французского короля Генриха III, Бертрану де Салиньяку де ла Моте-Фенлону. Еще одно письмо написано секретарем Марии Жаком Но и адресовано Жану Арно, секретарю де Кастельно. Хотя историки знали о секретной переписке Марии Стюарт с Мишелем де Кастельно, письма считались утраченными. Нынешняя находка показывает, что переписка с де Кастельно началась не позже мая 1578 года и продолжалась как минимум до середины 1584 года — весь этот период Мария находилась в Англии под стражей, но могла общаться с внешним миром с помощью писем, которые она передавала через доверенных лиц. Французский король тогда казался наиболее реальным союзником пленной шотландской королевы, а его посол Мишель де Кастельно — наиболее очевидным контрагентом по переписке. Расшифровка писем позволила датировать их и установить, что в основном они относятся к периоду 1580-1583 годов — особенно к июлю 1583-го — то есть связаны с заговором Трокмортона. Это позволило узнать новые детали заговора и уточнить степень вовлеченности в него французского двора. Кроме того, в это же время происходило еще одно событие, которое могло значительно повлиять на судьбу Марии — растянувшееся на три года сватовство брата французского короля, герцога Анжу и Алансона, к Елизавете. Показательно, что Мария активно защищает в письмах идею этого брака и даже предлагает свое посредничество при переговорах. Одновременно она предостерегает Кастельно, что англичане не ведут переговоры честно и их целью является не брак, а стремление столкнуть интересы Франции и Испании в Нидерландах, где Анжу был провозглашен «Протектором свободы». Одновременно Мария предлагает свое посредничество между Анжу и испанским королем Филиппом II с целью предотвратить возможный конфликт. В нескольких письмах Мария высказывает крайне неприязненное отношение к графу Лестеру, фавориту Елизаветы, которого она обвиняет в самых разнообразных заговорах, в том числе и против английской королевы. В частности Мария пишет о проекте брака между Лестером и Арабеллой Стюарт, правнучкой Маргариты Тюдор, то есть потенциальной претенденткой на английский престол. Можно предположить, что подразумевалась возможность организованной «утечки информации» с целью внесения раскола в окружение Елизаветы, тем более, что в этих письмах регулярно упоминается следивший за Марией секретарь Елизаветы Фрэнсис Уолсингем. В нескольких письмах, относящихся к концу 1582-го, Мария просит де Кастельно повлиять на французский двор, чтобы тот поддержал сына Марии, Якова VI (в будущем ставшим монархом Англии и Шотландии), когда его в августе 1582 года захватил Уильям Ратвен, а ко власти в Шотландии пришли радикальные протестанты. Также Мария сообщает в письмах о визитах представителей Елизаветы, которые вели переговоры о возможных условиях ее освобождения и даже восстановления на шотландском троне (совместно с сыном). Одновременно она пишет о беспредметности этих переговоров, в которых представители английской королевы не имеют полномочий предлагать что-либо конкретное. Кроме того, Мария призывает де Кастельно активизировать шпионскую активность и переманивать на свою сторону придворных Елизаветы, а также в большем объеме награждать агентов, одновременно предостерегая, что среди потенциальных сочувствующих могут быть (как, впрочем, и получилось) агенты Уолсингема. Подводя итог, можно сказать, что расшифровка недавно обнаруженных в Национальной библиотеке Франции, а также семи уже известных, но не расшифрованных писем Марии к Кастельно, которые находились в британских архивах, показывает: алгоритмический взлом омофонических шифров может пролить еще немало света на тайную дипломатию раннего Нового времени.