13:50 03.08.19 2.5 IT

Машинное обучение поможет освоить воображаемую клавиатуру

Николай Воронцов

Корейские инженеры разработали и протестировали эффективность воображаемой клавиатуры для тачскринов — пользователи, участвовавшие в исследовании, не получали никаких ограничений по работе с клавиатурой и располагали руки в любом месте сенсорной панели, пользуясь воображаемыми клавишами в QWERTY-раскладке. Точность распознавания алгоритмом текста, набираемого на невидимой клавиатуре, превысила 95 процентов, а скорость набора текста превышала 45 слов в минуту, говорится в препринте на arXiv.org.

Множество современных устройств лишено аппаратных клавиатур — в планшетах, смартфонах и различных терминалах в подавляющем большинстве случаев используются тачскрины. Однако такой подход нередко приводит к снижению скорости набора текста — при использовании аппаратных клавиатур человек чувствует нажатие клавиш, благодаря чему может печатать быстро, пользуясь слепым методом. Экранные клавиатуры не могут дать подобной обратной связи (максимум — вибрация для индикации регистрации нажатия), поэтому у пользователей значительно падает скорость набора текста и снижается количество используемых для печати пальцев. В качестве альтернатив посимвольному набору предлагаются различные жестовые методы ввода (например, Swype) однако и они допускают ошибки, в том числе потому что сильно полагаются на предсказание набираемого текста. Кроме того, это не решает проблему слепого набора — пользователь по-прежнему должен смотреть на клавиатуру.

У Хван Ким (Ue-Hwan Kim) и его коллеги из Корейского института передовых технологий (KAIST) предложили использовать для слепой печати на сенсорных поверхностях воображаемую невидимую клавиатуру, которая не ограничена фиксированным расположением клавиш. Инженеры разработали алгоритм декодера, который с помощью глубокого обучения и долгой краткосрочной памяти, реализованной управляемыми рекуррентными блоками, из последовательностей нажатия распознает символы, набираемые человеком. Декодер помнит в качестве контекста некоторый объем предыдущих данных, набранных пользователем, что улучшает точность распознавания ввода.

Сначала исследователям нужно было набрать начальный набор данных для тренировки алгоритма, поэтому они пригласили 43 добровольца (11 женщин и 32 мужчины возрастом от 22 до 32 лет) для набора текста на стенде, который состоял из двух экранов — один использовался для отображения текста, а второй (сенсорный) выполнял роль клавиатуры, на нем отображались только две кнопки: «Удалить» (чтобы начать набирать фрагмент текста заново) и «Продолжить» (чтобы перейти к следующему фрагменту). Больше экран с тачскрином ничего не отображал, инженеры предложили добровольцам просто набирать текст, как на обычной экранной клавиатуре. После разминочных 20 предложений участникам дали для набора текста 150–160 предложений (без редко используемых символов, только латиница, пробелы, точка, апостроф и запятая). В итоге авторы собрали 7245 фраз, которым соответствовали 196194 нажатий на воображаемые клавиши. При этом собранные облака точек в среднем действительно соответствовали стандартной QWERTY-раскладке, что подтвердило предположение авторов о том, что пользователи действительно могут вслепую набирать текст даже без тактильной обратной связи.

Собранные данные разделили на три части: тренировочная, тестовая и контрольная. Для тренировки алгоритма использовались данные, полученные после набора текста двумя добровольцами, а в качестве контроля — одним участником. Остальной массив данных использовался для тренировки алгоритма. Контрольный датасет был нужен для предотвращения переобучения — когда точность распознавания декодера начала снижаться, процесс обучения прекратили. Максимальная точность работы декодера при этом достигла 95,84 процента.

Для тестирования метода авторы набрали новую группу из 13 добровольцев (8 женщин, 5 мужчин), уверенно владеющих слепой печатью. Инженеры проинструктировали участников печатать как можно быстрее и точнее, и давали им для набора как привычную аппаратную клавиатуру, так и невидимую клавиатуру на тачскрине (в случайном порядке для каждого испытуемого). Для разогрева им предложили набрать 10 фраз, а затем дали для набора по 20 фраз из ранее собранного большого датасета. В результате для аппаратной клавиатуры скорость набора составила 51,35 слов в минуту, а для воображаемой клавиатуры — 45,57 слов в минуту. Кроме того, в эксперименте точность работы декодера оказалась немного выше, чем при проверке на контрольном наборе данных, и составила 96,12 процента.

После завершения эксперимента пользователей также попросили субъективно оценить работу на воображаемой клавиатуре. Участникам эксперимента понравилось, что набор текста не потребовал какого-либо переучивания, также они отметили, что печатать в любом удобном положении рук на панели удобно. Из недостатков добровольцы указали невозможность нажать клавишу ногтем, а также риск запутаться в близко расположенных символах.

Авторы отдельно отмечают, что ограничение скорости набора на невидимой клавиатуре может быть также обусловлено выбором слишком медленного тачскрина для эксперимента — некоторые добровольцы пожаловались на пропущенные нажатия. Исследователи считают, что в будущем технологию можно будет улучшить. Также авторы уверены, что их разработка хорошо подойдет для виртуальной реальности.

Для виртуальной реальности существуют и другие решения, в том числе задействующие привычную аппаратную клавиатуру. Logitech, например, разработала систему интеграции физической клавиатуры в виртуальную реальность на базе шлема виртуальной реальности HTC Vive. Для этого на клавиатуре закрепляется специальный контроллер, позволяющий точно отслеживать положение клавиатуры относительно шлема, а в виртуальной реальности отображается модель клавиатуры и руки пользователя.

Николай Воронцов

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

11.04.25 3.1 IT

Глубина, я не твой

На что способен Deep Research и как он повлияет на науку

Марат Хамадеев Научный писатель AIRI, физик-теоретик

Мнение редакции может не совпадать с мнением автора

Марат Хамадеев

Компания Open AI заявила, что Deep Research будет полезен финансистам, ученым, инженерам, политикам — то есть всем, кому необходимы глубокие аналитические обзоры. До этого пользователи могли попросить ChatGPT или другого чат-бота составить отчет со ссылками на источники, но в ответ получали в лучшем случае поверхностный обзор ссылок первой страницы поисковой выдачи. В чем же ключевое отличие Deep Research, и почему он появился только сейчас?