Американские инженеры создали прототип умной колонки, которая может отслеживать частоту сердечных сокращений. Она издает неслышимые человеческим ухом ультразвуковые сигналы и по отраженному сигналу регистрирует едва заметные смещения кожи, возникающие во время сердечных сокращений. Эксперименты с добровольцами показали, что коэффициент корреляции с данными, полученными с помощью ЭКГ, составляет 0,929. Статья опубликована в журнале Communications Biology.
Для обнаружения патологий сердца используются разные методы и метрики. Одна из них — это интервал RR, то есть временной интервал между двумя последовательными сердечными сокращениями. Измерение интервалов RR позволяет обнаружить у пациента аритмию, а также изучать вариабельность сердечного ритма у здоровых пациентов. Как правило, для этого используют электрокардиограф, но они в основном встречаются в больницах, хотя существуют также малопопулярные домашние ЭКГ-аппараты. В последние годы в нескольких моделях умных часов также появилась функция записи электрокардиограммы, но она доступна не во всех странах и в любом случае требует отдельного измерения, а не работает в фоне, как измерение пульса с помощью оптического датчика.
Есть и прототипы бесконтактных измерителей сердечного ритма, работающих на миллиметровых радиоволн: они работают подобно радарам и по отраженному сигналу восстанавливают смещения тела, возникающие во время сердечных сокращений или вдохов (если измеряется частота дыхания). Аньжань Ван (Anran Wang) с коллегами из Вашингтонского университета разработали аналогичный по принципу работы бесконтактный метод слежения за сердечным ритмом, но основанный на более удобном виде сигналов — ультразвуке. Они выбрали акустические колебания для того, чтобы метод можно было использовать с умными колонками, которые в последние годы набрали большую популярность, особенно в США.
Основная проблема, с которой столкнулись разработчики, заключалась в том, как отделить на записях звука небольшие смещения кожи из-за сердцебиения от дыхания и шумов. Они решили это при помощи стандартного оборудования умных колонок — массива из нескольких микрофонов. Совмещая сигналы от них, алгоритм пытается вычленить в сигнале пики от сердцебиения, отсекая шумы и остальные звуки.
В популярных умных колонках используются прориетарные алгоритмы, которые не предоставляют разработчикам доступ к массиву микрофонов, поэтому авторы использовали плату, которая по расположению и чувствительности микрофонов аналогична Amazon Echo Dot, но выдает сырые данные. Также они оснастили свою умную колонку микрофоном и 3D-печатным корпусом.
В колонке используется схема радара с непрерывным излучением, при которой динамик последовательно воспроизводит сигналы с линейно повышающейся с 18 до 22 килогерц частотой. Параллельно с этим массив микрофонов записывает отражения сигнала от предметов в комнате, в том числе от человека. Алгоритм объединяет данные с разных микрофонов, причем для данных с каждого микрофона установлен свой вес, который заранее подбирается при помощи метода градиентного спуска. После фильтрации сигнала алгоритм разбивает его на сегменты, соответствующие сердечным сокращениям, и рассчитывает их частоту вместе с интервалами RR.
Инженеры проверили работу самодельной умной колонки на двух группах добровольцев: 26 людях без известных проблем с сердцем и 24 пациентах больницы, госпитализированных с различными сердечными патологиями (их авторы разделили на группы с регулярным и нерегулярным сердечным ритмом). Добровольцы сидели недалеко от колонки на расстоянии около полуметра (расстояние варьировалось), под прямым или немного отличающимся углом, а в одном из подходов испытуемым также включали джаз. Для контроля добровольцы также надевали датчик для измерения электрокардиограммы.
Испытания показали, что умная колонка рассчитывает интервал RR с медианным отклонением 28 миллисекунд для здоровых людей и 30 миллисекунд для больных. Коэффициент корреляции с графиком сердечных сокращений составил 0,929 для здоровых и 0,901 для больных.
Авторы отмечают, что производители умных колонок в будущем могли бы внедрить такой метод отслеживания сердечных сокращений в свои устройства, чтобы упросить людям отслеживание сердечного ритма.
Удобные и применимые дома способы отслеживания сердечных сокращений могут помочь и ученым для получения статистики в реальных условиях. Например, в прошлом году исследователи обнаружили связь времени отхода ко сну с сердцебиением: оказалось, что если человек засыпает позже обычного времени, то во сне и на следующий день его сердцебиение будет учащенным.
Григорий Копиев
Она обучалась на библейских текстах
Компания Meta* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе. Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них. Команда инженеров из компании Meta под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями. Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов. Для обучения использовали нейросеть архитектуры wav2vec 2.0. Сначала ее предобучили, чтобы она могла превращать аудиозаписи в векторные представления. Дело в том, что нейросети работают не с сырыми записями, а с векторами — наборами чисел. Поэтому нужен механизм для превращения аудиозаписей в вектора из чисел, причем похожие аудиозаписи должны быть представлены геометрически близкими векторами. Для получения векторных представлений можно использовать любые аудиозаписи, главное чтобы их было много. Поэтому ученые объединили второй религиозный датасет с другими большими аудиодатасетами, в том числе Multilingual Librispech, CommonVoice, VoxLingua-107, BABEL и VoxPopuli. Всего в выборку попала 491 тысяча часов аудиозаписей без текстов. После предобучения получилась готовая модель MMS. Затем авторы натренировали MMS превращать речь в текст, дообучив ее на первом религиозном датасете с аудиозаписями и текстами. В разных частях света распространены разные типы языков, поэтому авторы определили точность модели для языков с разных континентов. Она научилась распознавать речь на 1107 языках со средней точностью по континенту 97 процентов. Авторы также проверили качество распознавания речи на нерелигиозных аудиозаписях. MMS сравнили с лучшими моделями для распознавания речи Whisper от OpenAI и USM от Google на датасете FLEURS. MMS ошибалась в два раза меньше, чем Whisper и на 6 процентов меньше, чем USM. В задаче определения языка MMS оценивали на датасетах FLEURS, VoxLingua-107, BABEL и VoxPopuli, в которые входит до 107 языков. К предобученной модели приделали простой линейный слой-классификатор, который натренировали определять язык на аудиозаписи. Модель показала такое же качество, как и конкурентные модели. При увеличении числа распознаваемых языков до 4000 с помощью дообучения на религиозных датасетах, качество модели падает совсем немного, с 94 до 93 и с 84 до 80 процентов на разных датасетах. Также авторы оценили, насколько хорошо MMS генерирует речь на 1107 языках, которые она умеет превращать в текст. Для этого модель обучили на архитектуре VITS — на момент создания MMS эта нейросеть показывала лучшие результаты по генерации звучащей речи на трех языках: английском, португальском и французском. Авторы масштабировали ее до 1107 языков, но в отличие от других задач, обучали нейросеть для каждого языка по отдельности. Качество модели оценили на языках по континентам. Средняя точность генерации речи по континенту составила 98 процентов. Лучше всего модель говорит на европейских и южноамериканских языках, хуже всего — на африканских. Наконец, ученые проверили, не повлиял ли характер религиозных датасетов на качество модели. Для этого нейросеть обучили отдельно на религиозных текстах и на повседневной речи из датасета FLEURS. Затем каждая модель должна была преобразовать звучащую повседневную речь из датасета FLEURS в текст. Хотя в обучающей выборке MMS было много религиозных терминов, в текстах она использовала их ненамного (менее чем на процент) чаще, чем модель, обучения на нерелигиозном датасете. На графике показана частота религиозных терминов в обучающей выборке и при превращении речи в текст. Разница между двумя моделями почти не заметна, хотя и немного отличается для некоторых языков. Качество модели оценивали в трех экспериментах, но задач по пониманию и генерации звучащей речи существует гораздо больше. В работе не указано, насколько хорошо большая мультиязычная модель проявила бы себя в более сложных задачах, таких как перевод, определение темы высказывания или поиск ключевых слов. Хотя MMS работает с большим числом языков, чем конкурентные модели, она пока не понимает все 7000 языков мира. Ученые планируют добавить в модель более редкие языки с малым количеством носителей. Они считают, что это может помочь спасти исчезающие языки от вымирания. Кроме того, в данных недостаточно представлены диалекты разных языков. В даркнете тоже говорят на своем языке, вернее на сленге. Обычные языковые модели плохо его понимают. Южнокорейские ученые обучили нейросеть DarkBERT читать тексты из даркнета и выполнять по ним задачи, связанные с кибербезопасностью. *Деятельность компании Meta запрещена в России.