Британский изобретатель Джеймс Брутон (James Bruton) создал подобие MIDI-гитары, в которой ноты закодированы в штрихкодах, а звучать она начинает при их считывании сканером. Видео с описанием инструмента и примером игры на нем авторы опубликовал на своем YouTube-канале.
Обычные музыкальные инструменты, такие как фортепиано, гитара или скрипка, извлекают звук из колебаний струн. Во второй половине XX века начали развиваться электронные музыкальные инструменты, которые используют для генерации звука электронные схемы, а не механические колебания. Для унификации различных вариантов электронной генерации звука был предложен стандарт MIDI, который позволяет единообразно кодировать в цифровом виде такие параметры звука, как частота, громкость, тембр, темп, тональность и другие звуковые параметры.
Изобретатель Джеймс Брутон сделал собственный MIDI-инструмент, выполненный подобно гитаре. Основа гитары сделана из полученных методом экструзии алюминиевых деталей, на которые прикреплены пластмассовые и напечатанные на 3D-принтере компоненты, которые удерживают всю конструкцию вместе. У гитары четыре «грифа», на которых расположены ряды штрихкодов. Игра на ней заключается в последовательном считывании нужного кода при помощи обычного кассового сканера.
Также на инструменте имеются специальные приспособления для создания дополнительной музыкальной выразительности. На «верхней деке» гитары, где у акустической разновидности расположены резонаторное отверстие и крепление струн, находятся джойстик и поворотный регулятор. Первый позволяет переключаться между октавами и выбирать нужный MIDI-канал, с помощью которого будет генерироваться звук, а вращая второй можно плавно менять частоту звука — подобно рычагу на электрогитаре.
В корпус гитары встроен мини-компьютер на базе Arduino, а через USB к нему подключен сканер штрихкодов: компьютер создает сигнал в MIDI-формате и передает его на внешний синтезатор, который его уже воспроизводит.
В штрихкодах закодированы коды ASCII-символов, то есть целые числа от 0 до 127 (в изначальном семибитном варианте). Компьютер превращает их в соответствующие MIDI-ноты, которых тоже 128. Гитара играет одну ноту на постоянной громкости, пока не будет просканирована следующая, которая начинает звучать вместо предыдущей.
Также на одном из «грифов» расположена панель с пятью кнопками. Одна из них останавливает передачу сигнала, вторая позволяет звучать одновременно нескольким нотам, а три остальные позволяют быстро сыграть одну из нот с трех нижних грифов. Изначально они запрограммированы на извлечение нот ми, ля и ре, соответствующим трем нижним струнам акустической гитары в стандартном строе, однако их можно быстро перенастроить на другие ноты.
В будущем Брутон собирается реализовать управление дополнительными устройствами через эту же гитару. В частности, с ее помощью он планирует задавать движения созданному им ранее роботу, которого он использует на концертах. Также с помощью считывания штрихкодов можно будет выбирать освещение на сцене и многое другое.
Ранее энтузиасты использовали тортилью вместо виниловой пластинки, а также собрали многозвучные инструменты из компьютерных частей: так сделали орган из 49 дисководов и флопотрон из 64 дисководов и 8 жестких дисков.
Тимур Кешелава
Они распознают слова с 95-процентной точностью с помощью нейросети
Американские инженеры разработали очки, способные распознавать речь по движению губ пользователя. Для этого в оправу очков встроены два миниатюрных эхолокатора, которые получают информацию о малейших движениях губ и кожи лица, а алгоритм машинного обучения предсказывает произнесенные слова и команды почти с человеческой точностью. Доклад по результатам работы представлен на конференции CHI’23. Системы распознавания речи на основе мимики человека имеют большой потенциал практического применения. Они могут использоваться не только людьми с нарушениями речи, но и в тех случаях, когда говорить вслух становится невозможно, например, из-за сильного окружающего шума или в социально неприемлемых ситуациях. Многие существующие технологии распознавания речи по мимике используют в качестве входных данных видеоизображение. Однако для этого необходимо, чтобы перед лицом пользователя постоянно находилась видеокамера, что может быть не всегда удобно и безопасно. Кроме того, в этом случае эффективность распознавания зависит от условий освещения. Инженеры из Корнельского университета под руководством Чэня Чжана (Cheng Zhang) решили применить вместо видеокамер эхолокацию. Они создали технологию EchoSpeech, которая позволяет бесконтактным образом с помощью ультразвуковых волн отслеживать небольшие движения губ и кожи лица во время шепота. Разработанный прототип устройства представляет собой обычные очки, в нижней части оправы которых с одной стороны расположена пара звуковых динамиков, которые излучают непрерывные частотно-модулированные ультразвуковые сигналы. Отраженные от различных участков кожи лица и губ сигналы затем попадают на установленную с противоположной стороны очков пару микрофонов. Для того чтобы сигналы от каждого из двух динамиков можно было различить, частоты излучаемых сигналов отличаются. Множество отраженных звуковых сигналов образуют профиль эха — последовательность изменяющихся во времени кадров, которая содержит информацию о расстоянии до окружающих поверхностей, от которых отражается звук. Из этих данных отфильтровываются шумы и паразитные сигналы от фоновых объектов окружения, находящихся на удалении, чтобы выделить информацию, относящаяся только к лицу пользователя. После этого данные подаются на вход остаточной сверточной нейросети ResNet-18, предназначенной для классификации изображений, а затем в полносвязный декодер, на выходе которого получают набор меток, соответствующий словам из набора команд, использованных в процессе обучения. Для демонстрации возможностей создатели технологии выбрали 32 слова, соответствующие наиболее распространенным командам управления приложениями на смартфоне, а также слова, обозначающие десять цифр. В процессе тренировки пользователи должны были повторять появляющиеся на экране слова и последовательности цифр как сидя за столом, так и в процессе ходьбы, для того, чтобы создать условия, приближенные к реальному мобильному использованию устройства. Обученную на данных одних пользователей модель использовали в процессе обучения других. Это позволило снизить время, необходимое на настройку алгоритма под конкретного человека. Разработчики протестировали устройство в нескольких реальных сценариях. Например, они использовали прототип EchoSpeech в качестве дополнительного устройства ввода при взаимодействии с программами на смартфоне и планшете, а также для управления музыкальным плеером, запуская и переключая треки, меняя уровень громкости с помощью шепота. Уровень ошибок при распознавании отдельных слов составлял в среднем около 4,5 процентов в командах и 6,1 процента в непрерывных последовательностях из 3-6 цифр. Эти показатели сравнимы со значениями неверно понятых слов в общении между людьми. Помимо проводной версии устройства, которую для удобства использовали в большинстве тестов, была также создана беспроводная версия устройства, передающая данные на смартфон через модуль Bluetooth с низким энергопотреблением. EchoSpeech позволяет распознавать речь по движениям губ, однако ученые уже разрабатывают технологию нейроинтерфейса, которая позволит синтезировать речь непосредственно по данным активности головного мозга.