Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института разработала систему, которая позволяет по теням и цветовым пятнам на полу определять количество объектов за углом и траекторию их движения. При этом сами объекты в поле зрение камеры не попадают. Видео о работе системы опубликовано на странице лаборатории в YouTube.
Современные системы машинного зрения могут собирать полную информацию только о тех объектах, которые находятся в зоне их прямого видения. По этой причине системы автопилота для автомобилей, например, не могут адекватно реагировать на неожиданные ситуации. Например, если опытный водитель по косвенным признакам может определить наличие другого автомобиля за углом, то автопилоту это пока недоступно.
Исследователи из Массачусетского технологического института решили разработать алгоритм, который, используя машинное зрение, позволит улавливать косвенные признаки присутствия других объектов, анализировать их и использовать при составлении картины окружающего пространства.
Представленный прототип системы работает с обычной зеркальной камерой. Алгоритм, подробности о котором пока не раскрываются, способен улавливать малейшие, незаметные человеческому глазу, изменения в освещенности и цветовом спектре по изображению пола рядом с углом стены.
Во время испытаний несколько человек одновременно перемещались в комнате и на улице. За углом была установлена камера, которая снимала участок пола или дороги, примыкающий к углу. Участники испытаний в зону прямого видения камеры не попадали. Алгоритму требовалось некоторое время для анализа изображений, причем он учитывал изменения, происходившие со временем.
В результате алгоритм оказался способен не просто определять количество движущихся объектов за углом, но и рассчитывать примерные траектории их движения. В некоторых случаях алгоритм сумел даже составить двумерную траекторию перемещения объекта. При этом новая система эффективно работает практически при любом освещении.
В начале августа текущего года исследователи из Вашингтонского университета опубликовали результаты исследования, по итогам которого пришли к выводу, что стикеры, наклеенные на дорожные знаки специальным образом, могут запутывать автопилот автомобилей. Такое запутывание автопилота может вызывать его неадекватную реакцию вплоть до экстренного торможения.
Ученые обнаружили, что автоматическое распознавание дорожных знаков автопилотом можно запутать, если на знак нанести несколько наклеек. Так, во время эксперимента исследователи добавили на знак «STOP» (остановка перед продолжением движения) четыре небольших прямоугольных стикера: два белых и два черных. Автопилот распознал знак как ограничение скорости 45 миль в час.
Затем исследователи использовали разноцветные наклейки, из которых сверху и снизу надписи STOP на дорожном знаке они выложили слова LOVE и HATE (любовь и ненависть). Измененный таким образом знак автопилот также распознал как ограничение скорости 45 миль в час.
Василий Сычёв
Неинвазивный декодер восстановил текст из корковых семантических представлений
Американские исследователи разработали неинвазивный декодер, который по активности мозга может реконструировать непрерывный текст — будь то история, которую человек слушает, или воображаемый рассказ, или даже суть видеоролика, в котором нет слов. Декодер обучали на данных фМРТ трех человек, которые 16 часов слушали истории. Модель не всегда могла предсказать точные слова по записям фМРТ, но передавала смысл историй. Результаты опубликованы в Nature Neuroscience. Чтобы записать нейронную активность, необходимую для декодирования речи, нужно установить электроды прямо на мозг. Этот способ используют в исследованиях с парализованными людьми, которые не могут говорить, но инвазивность такой процедуры ограничивает ее применение. Декодеры, использующие неинвазивные записи активности мозга, способны расшифровывать отдельные слова или короткие фразы, но неизвестно, могут ли эти декодеры работать с непрерывным естественным языком. Александр Хаc (Alexander Huth) из Техасского университета в Остине и его коллеги разработали декодер, который восстанавливает непрерывный текст из записей активности мозга, полученных неинвазивным способом — с помощью функциональной магнитно-резонансной томографии. Серьезным ограничением было то, что сигнал фМРТ не успевает за нейронной активностью. Функциональная магнитно-резонансная томография измеряет изменения кровотока, вызванные нейронной активностью в той или иной части мозга. Чтобы сигнал фМРТ увеличился или снизился, требуется около 10 секунд. За это время англоговорящий человек может услышать или произнести более 20 слов. Выходит, что слов для декодирования больше, чем изображений фМРТ. Ученые решили это проблему так: научили декодер угадывать последовательность слов, оценивая, насколько вероятно каждое возможное слово могло вызвать конкретную записанную реакцию мозга, — и так выбирать лучшего кандидата, то есть самое вероятное слово. Модель кодирования обучалась на сигналах фМРТ трех человек, записанных на протяжении 16 часов, пока люди слушали разные истории. Этого хватило, чтобы модель научилась предсказывать, какую реакцию мозга вызывают те или иные семантические признаки. Затем ученые предлагали испытуемым послушать истории, которые те еще не слышали, и записывали реакцию мозга. По этим записям декодер должен был реконструировать эти истории. Языковая модель — нейросеть GPT-1 — выдавала варианты слов, а модель кодирования оценивала вероятность того, что именно это слово могло продолжать историю. Декодер точно воспроизводил часть слов и фраз и улавливал суть многих других. Сгенерированные последовательности слов захватывали общий смысл новых историй. Сюжет, предсказанный декодером, напоминал сюжет реальной истории сильнее, чем если бы это было случайным совпадением (p < 0,05). Данные исследователи записывали с трех корковых сетей — классической языковой сети, сети теменно-височно-затылочной ассоциативной коры, и сети префронтальной коры. Сигналы каждой сети декодировались по-отдельности в каждом полушарии. Примечательно, пишут авторы, что большинство временных точек удавалось декодировать только по сигналам из ассоциативной (80–86 процентов) и префронтальной (46–77 процентов) сетей. И только 28–59 процентов временных точек были декодированы из речевой сети. Ученые пришли к выводу, что одни и те же слова могут быть закодированы в разных регионах мозга, и в будущем может быть достаточно записей активности отдельных областей. Еще авторы обнаружили, что по данным фМРТ декодер может предсказать смысл короткой истории, которую участник вообразил и рассказал про себя, или суть просмотренного видеоролика без слов. Однако декодирование воображаемой речи было не таким успешным, как декодирование услышанных историй, потому что модель кодирования обучали на реакциях мозга на воспринимаемую речь. Дополнительно участникам предложили послушать одновременно две истории, но обращать внимание только на одну, а вторую игнорировать. Расшифровка декодера была больше похожа на ту историю, к которой участники прислушивались. Декодер плохо расшифровывал сигналы мозга человека, на котором его не обучали. То есть нельзя обучить декодер на одном человеке и затем использовать его для «чтения мыслей» других людей. Точность декодирования, как выяснили авторы, зависела от объема данных, на которых обучали декодер. Кроме того, немного увеличить точность помогло увеличение отношения сигнала фМРТ к шуму. А еще декодер хуже справлялся со словами с определенными семантическими свойствами, независимо от шума. Более конкретные слова — night, door, restaurant, school и подобные — декодировались лучше, а слова вроде find, say, kind, get — хуже. Кроме того, что большинство существующих декодеров требует имплантации электродов в мозг, эти декодеры нередко опираются на данные речевых моторных зон, которые активны, когда субъект говорит или пытается говорить. В отличие от них, эта модель работает с сигналами областей мозга, которые кодируют семантические представления. Эти области активны даже когда человек слышит чужую речь или просто думает о том, что хочет сказать. Однако восстановить отдельные слова такой декодер часто не может. Подобным образом несколько лет назад исследователи научили нейросеть воссоздавать изображения по записям фМРТ. Хотя изображения получились абстрактными, в них можно было узнать закодированные картинки.