Как компьютеры видят мир и зачем это нужно
Компьютерное (машинное) зрение можно найти в медицине, сельском хозяйстве, транспорте, индустрии развлечений и много где еще. Эта технология по-прежнему несовершенна, но искусственный интеллект уже сейчас помогает решать задачи, с которыми не справляется человек. Рассказываем, как устроено компьютерное зрение и насколько велики его возможности.
Мы регулярно прибегаем к помощи алгоритмов — например, когда смотрим прогноз погоды, ищем билеты или просто хотим отдохнуть. Это такая же часть нашей жизни, как одежда и обувь, автомобили и смартфоны. Тем не менее искусственный интеллект, так глубоко проникший во все сферы нашей жизни, до сих пор может вызывать недоверие и страх. Этим текстом мы открываем проект «ИИ спешит на помощь», в котором расскажем, на что способны современные технологии с использованием ИИ, где они приносят наибольшую пользу и почему не стоит бояться восстания машин. Материал подготовлен совместно с федеральным проектом «Искусственный интеллект» нацпроекта «Цифровая экономика».
Первая статья про машинное зрение, «Глаза и уши компьютера» Оливера Селфриджа, была опубликована в 1955 году. Тогда же появились ЭВМ-2 — первые машины, основанные не на электронных лампах, а на полупроводниковых диодах и транзисторах. Это был качественный скачок в технологиях: размеры ЭВМ уменьшились, а их производительность, наоборот, выросла. Немногим ранее появились и первые работы, посвященные искусственному интеллекту, — например, в 1949 году вышла книга физиолога и нейропсихолога Дональда Хебба «Организация поведения», где он описал принципы обучения нейронов.
Машинное зрение — это применение компьютерного зрения в промышленности. Компьютерное и машинное зрение не одно и то же, однако эти термины близки друг к другу. Для простоты далее в тексте мы используем их в одном значении — компьютерного зрения.
К 1958 году искусственный интеллект и машинное зрение пересеклись в одной точке: американский ученый Фрэнк Розенблатт разработал математическую модель восприятия информации мозгом — перцептрон. Два года спустя ее реализовали на машине «Марк-1». Перцептрон стал одной из первых нейросетей, а «Марк-1» — одним из первых нейрокомпьютеров. В 1960–1970-х годах появились первые системы обработки изображений, а американский инженер Лоуренс Робертс сформулировал концепцию машинного построения трехмерных образов объектов. То, что сейчас умеет делать iPhone, всего 60 лет назад существовало лишь как идея на бумаге.
Искусственный интеллект совершенствуется параллельно с прогрессом в сфере обработки данных: чем мощнее процессоры и чем больше данных они могут обработать, тем точнее и быстрее можно получать результат. Поэтому активное развитие машинного зрения началось только в 1990-х годах — тогда были созданы прототипы беспилотного транспорта, зародились системы распознавания лиц, а во всех индустриях наметился интерес к распознаванию изображений. Сейчас технологии компьютерного зрения применяются повсюду — этому способствовало увеличение количества и качества нейросетей, рост вычислительных мощностей компьютеров, а также скорости и пропускной способности цифровых сетей.
Компьютерное зрение тесно связано с искусственным интеллектом и машинным обучением. По сути это возможность машины «видеть» окружающий мир. Само собой, компьютеры видят не так, как человек, но они умеют распознавать визуальную информацию и реагировать на нее. Зрение — не единственный способ получения информации из внешнего мира, но один из самых полных и достоверных.
Простейший пример компьютерного зрения можно найти в смартфоне: когда вы запускаете камеру, машинное зрение позволяет гаджету разобраться, на что вы наводите объектив. Если это человек, смартфон понимает, что необходимо сфокусироваться на лице и, например, включить бьютификатор, а если пейзаж — понизить или повысить экспозицию в зависимости от освещенности. Многие смартфоны умеют и более детально определять сцену, но в основе всех решений лежат похожие алгоритмы: разработчики на большом объеме изображений обучили искусственный интеллект находить совпадения и включать нужный режим.
В последнее время компьютерное зрение используется почти повсеместно: онлайн-торговля, сельское хозяйство, автомобили, медицина, системы безопасности, индустрия развлечений. Системы компьютерного зрения можно встретить, например, в любом современном VR-шлеме. Они распознают движения контроллеров или даже рук, вплоть до движения пальцев. Ранее подобные системы встречались в игровых консолях: у компании Xbox — в камере Kinect с распознаванием движений, а у Sony — в Playstation Camera и контроллерах PS Move, с помощью которых можно было управлять игровым персонажем с помощью движений в реальном мире.
В бизнесе компьютерное зрение можно встретить еще чаще.
Вне зависимости от области применения задачи, которые выполняет компьютерное зрение, можно разделить на несколько категорий: считывание информации, распознавание зрительных образов, анализ и обработка изображений и визуализация.
Одна из самых важных составляющих компьютерного зрения — это обработка изображений. Как правило, это задачи по работе с двухмерными картинками, с которыми регулярно имеет дело любой, у кого есть смартфон: вращение, обрезка, изменение яркости и контрастности изображения и тому подобные. Но компьютер может сделать это в автоматическом режиме.
Сюда же можно отнести и распознавание образов. Машинное зрение помогает определить количество объектов, отсортировать их по размеру, цвету или другим параметрам, а также обнаружить конкретный объект на изображении и проследить за его движением на видео. Такие алгоритмы работают в системах видеонаблюдения и помогают монтажерам в создании видеороликов.
Отдельный тип задач — это распознавание человека. Несмотря на постоянное совершенствование алгоритмов, до сих пор может случиться так, что компьютер примет за человека ростовую куклу или отбрасываемую чем-то тень. В таких случаях на помощь приходят не просто камеры, а дополнительные устройства, такие как тепловизоры, лазерные сканеры объема и другие. Особенно это важно в автомобильных системах вождения без человека, так как алгоритму необходимо за минимальное время определить, кто находится перед ним: человек, машина или какой-либо другой объект.
Помимо этого, к компьютерному зрению относится обработка трехмерных сцен. Компьютер анализирует проекцию сцены в виде плоского изображения (то же самое и с видео — обрабатывается поток изображений), но может оперировать сразу несколькими картинками. Многие относят к компьютерному зрению не только обработку, но и создание изображений — эти задачи очень тесно связаны. Прежде чем нейросеть сможет создать реалистичное изображение человека, которого никогда не существовало, необходимо обработать огромное количество изображений людей с помощью машинного зрения. Так нейросеть обучится выявлять черты, отдельные части и характерные особенности лиц, а также распознавать одежду и другие элементы, которые делают синтетическое изображение неотличимым от реального.
Но если обучать компьютер на миллионе изображений кошек, а затем продемонстрировать ему фотографию собаки, то нейросеть не скажет ничего, кроме того, что перед ней не кошка. И уж точно не сможет сгенерировать изображение человека.
Ошибки в распознавании — до сих пор одна из наиболее частых проблем машинного зрения. Впрочем, со временем они могут исчезнуть: наборы данных для анализа постоянно увеличиваются, подходы к работе нейросетей улучшаются, а вычислительная мощность и скорость передачи данных растут. Нового рывка в ИИ и компьютерном зрении стоит ожидать вместе с повсеместным внедрением 5G.
Проблемы существуют и с интеграцией компьютерного зрения. Системы разрабатываются отдельно под каждую область. Это занимает много времени и стоит немалых денег. Поэтому бизнес, который инвестирует в ИИ, получает результаты лишь спустя несколько лет. Многим сложно решиться на такой шаг — это отложенная выгода, а в условиях кризисов хочется планировать на более короткие дистанции.
Кроме того, бурное развитие технологий создает новые дилеммы. Можно ли использовать нейросети, если они, как показывает практика, не лишены предвзятости? Впрочем, разработчики находят способы с этим бороться.
До сих пор непонятно, кого считать автором изображения, нарисованного Midjourney. Вряд ли разработчика нейросети: он создал кисть, но не создавал рисунок. Если нейросеть, то как передавать авторские права на изображение, если художник не может подписать договор? А если пользователя, то можно ли считать искусством результат текстового запроса, на основе которого нейросеть создала изображение, используя собственную базу данных? Таких вопросов много, но ответы есть далеко не на все.
Тем не менее ученые и законотворцы пытаются сформулировать правила, по которым могут работать нейросети. Недавно в России был принят кодекс этики в сфере искусственного интеллекта — теперь мы входим в топ-40 государств, которые приняли этические нормы в отношении ИИ на национальном уровне. Кроме того, с 2021 года действует закон о «цифровых песочницах», позволяющий проводить тесты и эксперименты в некоторых областях, даже когда на уровне законодательства это никак не регламентировано.
Компьютерное зрение — это будущее, о котором мы даже не мечтали. И оно будет развиваться, причем по экспоненте, как это всегда бывает с технологиями. Со временем уменьшится и скорость внедрения B2B-решений, и для обычных пользователей появится гораздо больше инструментов. Уже сейчас компьютерное зрение по некоторым параметрам превосходит возможности человеческого глаза, и этот разрыв будет увеличиваться.
Рано или поздно компьютеры научатся обрабатывать картинку целиком, а не по элементам. Уменьшится и стоимость таких решений. В течение ближайших 5–10 лет на дорогах общего пользования могут появиться полностью беспилотные автомобили — это будет качественный рывок в индустрии, который спровоцирует взрывной рост конкуренции.
В рамках экспериментального правового режима Яндексу разрешили испытывать автономное такси в московском районе Ясенево и в Иннополисе, а Сбер организовал беспилотный пассажирский сервис на территории СберУниверситета на электромобилях ФЛИП, сконструированных исключительно для автономного передвижения.
Кроме того, уже сейчас мы видим, насколько популярно создание изображений с помощью нейросетей. В будущем таких проектов станет еще больше. Кроме того, уже сейчас можно создавать не только статичные картинки, но и видео. Это может кардинально поменять креативную индустрию, высвободить ресурсы и сэкономить бюджет.
Наконец, самое главное — это развитие законодательной базы, причем на международном уровне. Появление ИИ и машинного зрения в законах сыграет ключевую роль в развитии и интеграции технологий в реальный мир. Это может быть похоже на техническую революцию: большинство рутинных задач, которые сейчас решает человек, можно будет передать компьютеру. Разумеется, искусственный интеллект уже меняет рынок труда, и прогресс не остановить. Но как только будут установлены правила игры, всем участникам станет гораздо проще и интереснее в нее играть.
Станьте создателем роботов, которые будут помогать людям
Говорят, уже в ближайшем будущем рутинные процессы во всех сферах мы передадим роботам. А что, если вместе с задачами робот бы перенимал часть характера своего создателя? Каким бы был робот-HR или логист? Пройди тест, который мы сделали вместе с ребятами из «Гринатома», и узнай, каким будет твой робот.