Участники студии Botnik с помощью алгоритмов предиктивного ввода текста, обученных на серии книг о Гарри Поттере, написали главу новой книги под названием «Гарри Поттер и портрет того, что выглядело, как большая куча пепла». Получившийся текст длиной в три с половиной страницы выложен на сайте студии.
Алгоритмы предиктивного ввода позволяют пользователям не печатать слова полностью, а дополняют их на основе уже введенных букв и словаря. Более сложные версии умеют не только понимать, какое слово вводит пользователь, но и предугадывать следующие слова на основе контекста: предыдущих слов, структуры предложения и других факторов. Для этого алгоритмы тренируют на похожих текстах. Например, клавиатуры смартфонов предлагают пользователю проанализировать историю его сообщений для большей персонализации подсказок.
Разработчик из творческого сообщества Botnik Джейми Брю (Jamie Brew) разработал в 2016 году программу предиктивного ввода pt-voicebox, исходный код которой опубликован на GitHub. Участники студии решили использовать ее для написания новой главы книги о Гарри Поттере. Для этого они разбили тексты всех семи книг серии на два типа: фрагменты с повествованием и диалогами. На основе этих данных они создали две версии клавиатуры для каждого типа фрагментов (версия для повествования и диалогов).
В процессе написания главы алгоритм анализировал введенные слова, и, анализируя распределения слов в предыдущем введенном тексте и исходных данных (текстах семи книг), он предлагал на выбор несколько наиболее вероятных по его мнению следующих слов. Во время анализа алгоритм учитывает общую частоту употребления слов в источнике, частоту слов, стоящих сразу или через несколько слов после введенного слова и другие факторы.
Разработчики выбирали наиболее подходящие слова и таким образом вместе с алгоритмом «написали» главу книги «Гарри Поттер и портрет того, что выглядело, как большая куча пепла» под названием «Красавчик» (The Handsome One). В целом ее содержание получилось довольно нелогичным, но в качестве действующих лиц в ней выступали персонажи исходной серии книг, а некоторые фрагменты напоминают по стилю оригинал.
В прошлом году канадские программисты разработали систему на основе нейросети, которая позволяет находить ответы на вопросы в незнакомом тексте. Ее протестировали на первой книге о Гарри Поттере, и доля правильных ответов оказалась выше 70 процентов. Например, нейросеть смогла правильно ответить на вопрос, на какой факультет направила Поттера Распределяющая шляпа.
Григорий Копиев
Также алгоритм может быть полезен при стихийных бедствиях
Ученые разработали датчик, способный распознавать диарею по звукам дефекации, и представили его на 183-м заседании Акустического общества Америки. Предполагается, что устройство поможет предсказывать вспышки инфекционных заболеваний. Диарея может иметь вполне безобидное происхождение: например, быть побочным эффектом лекарства или реакцией организма на что-то несвежее. Однако нередко диарея сопровождает инфекционные заболевания, многие из которых до сих пор представляют серьезную опасность — например, холеру, уносящую около 150000 жизней в год. С этой точки зрения мониторинг звуков диареи может быть полезен для того, чтобы предсказать вспышку инфекции и остановить ее стремительное распространение. Группа ученых из Технологического института Джорджии под руководством инженера-исследователя Майи Гатлин (Maia Gatlin) разработала прототип устройства для мониторинга диареи. Датчик использует микрофон и алгоритм машинного обучения, работающий на встроенном микропроцессоре и умеющий анализировать звуки, которые издают посетители туалетов. Авторы изделия рассказывают о работе алгоритма в общих чертах, не сообщая об архитектуре нейросети, размере и составе датасета для обучения. Известно, что первоначально исследователи обучили алгоритм на звуках, которые удалось собрать из онлайн-источников. Каждый из этих образцов устройство преобразовывало в спектрограмму. Сперва алгоритм научили распознавать, какие характерные особенности спектрограммы сопровождают те или иные виды выделений. Для обучения использовались различные звуки естественных отправлений человека: как нормальные, вроде мочеиспускания, метеоризма и обычной, здоровой дефекации, так и патологические. Так, для диареи характерны определенные движения кишечника, рыхлые и водянистые, и сопровождаются они определенными звуками. Затем алгоритму дали послушать другие образцы звуков, и он смог распознать тип события с точностью до 98,1 процента. Авторы датчика предполагают, что устройство может быть полезно в различных сферах: например, для отслеживания состояния кишечника у пациентов в хосписах или тех, кто страдает от болезни Крона. Также детектор будет полезен в зонах стихийных бедствий — там, где загрязнение воды приводит к распространению болезнетворных микроорганизмов. Кроме того, не исключено, что в будущем эту технологию можно будет применять в экосистеме умного дома. Исследования того, что происходит в туалете и после него, помогают предсказать вспышки многих инфекционных заболеваний, не только холеры. Подробно о том, какую информацию можно получить, исследуя стоки, N+1 рассказывал в материале «Смытые данные».