Инженеры из Великобритании, Южной Кореи и Японии создали браслет, способный распознавать жесты пальцами и использовать их в качестве интерфейса ввода. Отличие этого прототипа от аналогов заключается в том, что он распознает жесты по движению тыльной стороны кисти, что позволяет использовать такой способ с камерой в умных часах, даже если с ее ракурса не видно пальцев. Статья о системе была представлена на конференции UIST 2019.
В серийных умных часах установлены небольшие сенсорные экраны и, как правило, одна-две кнопки управления. Из-за этого они в основном подходят для быстрого просмотра уведомлений или простых действий, к примеру, переключению песен. Однако более сложные задачи, такие как набор текста, на умных часах сильно затруднены. В качестве решения этой проблемы инженеры предлагают использовать альтернативные интерфейсы ввода-вывода. Например, несколько групп разработчиков (1,2) экспериментировали с часами, оснащенными проектором и датчиками, что позволяет использовать поверхность руки в качестве большого сенсорного экрана.
Кроме того, некоторые серийные умные часы оснащены камерой, которую можно было бы использовать для распознавания жестов руки. Однако на практике такое распознавание затруднено тем, что камера расположена близко к поверхности руки и на изображениях с нее зачастую не видны пальцы. Разработчики под руководством Хидэки Коике (Hideki Koike) из Токийского технологического института предложили сразу обучать систему распознавать жесты пальцами по изображению тыльной стороны ладони, на которой в этот момент видны изменения формы кисти, а не сами пальцы.
Созданный инженерами прототип состоит из браслета и закрепленного на них датчика Leap Motion, в котором установлено две инфракрасных камеры и три светодиода для подсветки. Датчик установлен таким образом, что его плоскость сканирования перпендикулярна руке. В качестве алгоритма для распознавания жестов исследователи выбрали двухпоточную сверточную нейросеть, в которой на одну подсеть подается исходное изображение, а на вторую подается обработанное, составленное из нескольких предыдущих кадров с увеличенной в десять раз яркостью.
Разработчики обучили алгоритм распознавать десять цифр из американского жестового языка, а также нажатия пятью пальцами. При распознавании цифр точность алгоритма составила 88 процентов для полного кадра, в который попадали пальцы, и 65 процентов для обрезанного кадра, в котором была видна только внешняя сторона кисти. При распознавании нажатий точность работы алгоритма составила 67,5 и 45 процентов, соответственно.
Недавно другие разработчики создали браслет с наклеиваемыми на внешнюю сторону кисти пьезоэлектрическими датчиками. Он распознает жесты благодаря испусканию ультразвуковых колебаний и анализу их изменений при движении руки.
Григорий Копиев
Microsoft подтвердила, что уже некоторое время использует алгоритм в Bing
Компания OpenAI представила генеративную языковую модель GPT-4. Новая версия модели получила более высокие результаты в бенчмарках, причем не только на английском языке. Также алгоритм научился принимать не только текст, но и изображения (но генерирует он по-прежнему лишь текстовые ответы). Наконец, GPT-4 лучше определяет опасные и дискриминирующие запросы, например, просьбу написать инструкцию по сборке бомбы. OpenAI открыла ограниченный доступ к GPT-4 подписчикам ChatGPT Plus, а также открыла прием заявок на доступ к API, но в обоих случаях речь идет о версии модели без поддержки изображений. Описание GPT-4 опубликовано на сайте OpenAI, а также доступно в виде научной статьи.