Google прекращает разработку проекта дополненной реальности Tango, вместо этого компания сосредоточится на развитии платформы ARCore. Официально поддержка Project Tango закончится в марте 2018 года, сообщается в твиттере проекта.
Технология дополненной реальности Tango долгое время разрабатывалась как экспериментальный проект, однако осенью 2016 года официально была выпущена пользовательская версия.После этого сразу несколько компаний поддержали технологию: в прошлом году Lenovo выпустила первый серийный Tango-смартфон, затем Qualcomm заявила, что процессор Snapdragon 820, использующийся во многих флагманских моделях смартфонов, получит программную поддержку Tango, а Asus включила поддержку технологии дополненной реальности Tango в свой новый смартфон Zenfone AR.
Tango позволяет мобильным устройствам точно отслеживать перемещение в пространстве, строить трехмерную карту окружающего мира в режиме реального времени, а также привязывать к этой карте различные виртуальные объекты. Для работы AR-технология требует установки дополнительных датчиков, а также использования Tango-совместимого процессора, поэтому подавляющее большинство серийно выпускаемых мобильных устройств не поддерживает технологию.
Позднее в Google решили обойтись без дополнительных датчиков и объявили о запуске AR-платформы ARCore, которая может работать с обычными смартфонами (аналогичная платформа ARKit есть у Apple). Теперь представители Google официально заявили о том, что поддержка Tango будет завершена в марте 2018 года, вместо этого компания сосредоточится на разработке ARCore.
На текущий момент технологию Tango поддерживают несколько десятков приложений, среди которых есть как игры, так и специфические инструменты, такие как конструктор велосипеда, примерка 3D-моделей мебели в реальном окружении или AR-линейка. Некоторые из приложений, использующих технологию Tango, уже доступны для загрузки в Google Play.
Ранее в Google отказались от разработки проекта модульного смартфона Ara, несмотря на приближавшиеся сроки презентации версии для разработчиков. Официально представители Google не прокомментировали новость, поэтому о причинах прекращения работ над проектом достоверно ничего неизвестно.
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23. Системы распознавания речи на основе мимики человека имеют большой потенциал практического применения. Они могут использоваться не только людьми с нарушениями речи, но и в тех случаях, когда говорить вслух становится невозможно, например, из-за сильного окружающего шума или в социально неприемлемых ситуациях. Многие существующие технологии распознавания речи по мимике используют в качестве входных данных видеоизображение. Однако для этого необходимо, чтобы перед лицом пользователя постоянно находилась видеокамера, что может быть не всегда удобно и безопасно. Кроме того, в этом случае эффективность распознавания зависит от условий освещения. Инженеры из Корнельского университета под руководством Чэня Чжана (Cheng Zhang) решили применить вместо видеокамер эхолокацию. Они создали технологию EchoSpeech, которая позволяет бесконтактным образом с помощью ультразвуковых волн отслеживать небольшие движения губ и кожи лица во время шепота. Разработанный прототип устройства представляет собой обычные очки, в нижней части оправы которых с одной стороны расположена пара звуковых динамиков, которые излучают непрерывные частотно-модулированные ультразвуковые сигналы. Отраженные от различных участков кожи лица и губ сигналы затем попадают на установленную с противоположной стороны очков пару микрофонов. Для того чтобы сигналы от каждого из двух динамиков можно было различить, частоты излучаемых сигналов отличаются. Множество отраженных звуковых сигналов образуют профиль эха — последовательность изменяющихся во времени кадров, которая содержит информацию о расстоянии до окружающих поверхностей, от которых отражается звук. Из этих данных отфильтровываются шумы и паразитные сигналы от фоновых объектов окружения, находящихся на удалении, чтобы выделить информацию, относящаяся только к лицу пользователя. После этого данные подаются на вход остаточной сверточной нейросети ResNet-18, предназначенной для классификации изображений, а затем в полносвязный декодер, на выходе которого получают набор меток, соответствующий словам из набора команд, использованных в процессе обучения. Для демонстрации возможностей создатели технологии выбрали 32 слова, соответствующие наиболее распространенным командам управления приложениями на смартфоне, а также слова, обозначающие десять цифр. В процессе тренировки пользователи должны были повторять появляющиеся на экране слова и последовательности цифр как сидя за столом, так и в процессе ходьбы, для того, чтобы создать условия, приближенные к реальному мобильному использованию устройства. Обученную на данных одних пользователей модель использовали в процессе обучения других. Это позволило снизить время, необходимое на настройку алгоритма под конкретного человека. Разработчики протестировали устройство в нескольких реальных сценариях. Например, они использовали прототип EchoSpeech в качестве дополнительного устройства ввода при взаимодействии с программами на смартфоне и планшете, а также для управления музыкальным плеером, запуская и переключая треки, меняя уровень громкости с помощью шепота. Уровень ошибок при распознавании отдельных слов составлял в среднем около 4,5 процентов в командах и 6,1 процента в непрерывных последовательностях из 3-6 цифр. Эти показатели сравнимы со значениями неверно понятых слов в общении между людьми. Помимо проводной версии устройства, которую для удобства использовали в большинстве тестов, была также создана беспроводная версия устройства, передающая данные на смартфон через модуль Bluetooth с низким энергопотреблением. EchoSpeech позволяет распознавать речь по движениям губ, однако ученые уже разрабатывают технологию нейроинтерфейса, которая позволит синтезировать речь непосредственно по данным активности головного мозга.