Компания Google запустила бета-версию Dataset Search — поискового сервиса, который позволяет находить наборы данных — датасеты — по всей сети. Сервис, во многом напоминающий Google Scholar, также предоставляет полное описание баз данных и сильно облегчает процесс их использования.
Открытые сервисы, предоставляющие данные, важны для многих целей: научных исследований, машинного обучения или систематизации информации. Один из крупных подобных сервисов, к примеру, — сайт Kaggle; кроме того, свои датасеты обычно предоставляют научно-исследовательские лаборатории и крупные организации, такие как Facebook.
Для того, чтобы найти релевантный датасет, однако, приходится пользоваться обычными поисковыми системами, что может быть не очень удобно. Google решила облегчить эту задачу, разработав Dataset Search — специализированный сервис для поиска датасетов по всей сети. Он напоминает Google Scholar — сервис компании для поиска научных статей.
Особенность сервиса в том, что для каждого датасета доступна полная информация: дата создания базы, ее размер, краткое описание, ссылка на источник, а также количество научных статей, в которых датасет был использован. Разработчики сервиса стремились к стандартизированному описанию данных, предложенных командой schema.org.
Помимо технических датасетов Dataset Search также позволяет искать и данные по социальным наукам. Пока что сервис работает в бета-режиме, опробовать его можно по ссылке.
Разнообразие и объемы использованных для обучения компьютерных алгоритмов данных могут сильно повлиять на результат их работы. Недавно это хорошо продемонстрировали ученые из MIT: они научили нейросеть расшифровывать пятна Роршаха, а для обучения использовали цитаты из темы Reddit, посвященной разговорам о смерти. В результате нейросеть стала выдавать ответы, напоминающие мысли психопата.
Елизавета Ивтушок
Модель разработали в Японии
Даидзю Уэда (Daiju Ueda) с коллегами по Метропольному университету Осаки разработал модель на основе алгоритмов глубокого машинного обучения, которая эффективно выявляет жировую инфильтрацию (стеатоз) печени по рентгенограммам органов грудной клетки. В работе использовали данные 4414 пациентов двух японских клиник, которым выполнили по 6599 снимков грудной клетки и эластограмм печени с определением контролируемого параметра затухания (CAP, количественный показатель степени стеатоза). Пациентов одной из клиник случайным образом распределили в соотношении 8:1:1 в датасеты для обучения, настройки и внутреннего тестирования модели, а участники из второй клиники вошли в датасет внешнего тестирования. Результаты опубликованы в журнале Radiology: Cardiothoracic Imaging.