«Сбербанк» анонсировал на конференции AI Journey самый мощный в России суперкомпьютер. Он получил имя Christofari в честь первого клиента сберегательных касс России Николая Кристофари. Устройство создано на базе высокопроизводительных узлов NVIDIA DGX-2 и рассчитано в первую очередь для обучения нейросетей, говорится в сообщении организации.
Суперкомпьютеры — это крупные вычислительные центры, оборудованные сотнями и тысячами процессоров. Они используются во многих отраслях науки и технологии. В частности, суперкомпьютеры при университетах и институтах могут заниматься масштабными задачами численного моделирования для нужд физики, астрономии, биологии или климатологии. Исторически первые машины подобного класса занимались в основном оборонными вычислениями, связанными с атомным и термоядерным оружием.
В зависимости от задачи производительность одного и того же вычислителя может отличаться. Стандартом в области суперкомпьютеров является решение крупной плотной системы линейных уравнений Ax = b, где A — это плотная (то есть с небольшим количеством нулей) матрица коэффициентов размером n × n, b — вектор-столбец свободных членов, x — вектор-столбец неизвестных. Подобные задачи часто возникают в инженерных приложениях. На основе скорости их решения формируется наиболее авторитетный список суперкомпьютеров TOP500.
Анонсированный «Сбербанком» суперкомпьютер, согласно опубликованным данным тестирования, обладает максимальной производительностью в задаче решения линейных уравнений в 6,7 петафлопс, то есть 6,7 квадриллионов операций с плавающей запятой в секунду. Такой показатель должен позволить Christofari дебютировать на 29-ой строчке TOP500, при том, что самый мощный присутствующий сегодня там российский суперкомпьютер МГУ «Ломоносов» находится на 93-ей строчке.
Christofari состоит из объединенных в систему 75 узлов NVIDIA DGX-2, каждый из которых, в свою очередь, включает 16 полностью связанных графических процессоров NVIDIA Tesla V100. Модули DGX-2 сами по себе являются полноценными компонентами для решения задач масштабного машинного обучения и других видов высокопроизводительных вычислений. Всего в Christofari, таким образом, используется 1200 графических процессоров.
Производительность одного модуля DGX-2 в задаче машинного обучения составляет около 2 петафлопс. Следовательно, полноценная интеграция 75 копий в идеале должна дать Christofari производительность на уровне 150 петафлопс. Это намного больше, чем в случае решения линейных уравнений. Столь высокий показатель должен позволить обучать системы искусственного интеллекта на больших объемах данных за разумное время, что востребовано в некоторых видах бизнеса.
В сообщении «Сбербанка» говорится, что мощности нового суперкомпьютера хватит для решения задач обработки естественного языка, компьютерного зрения, автоматизированного принятия решений, оценки и управления рисками, выявления мошенничества, предиктивной аналитики, создания голосовых помощников и чат-ботов. С 12 декабря этого года система станет доступна для клиентов. Коммерческие структуры будут иметь возможность проводить нужные им вычисления за плату, а в случае сниженной нагрузки мощности будут предоставляться для научных или исследовательских задач по сниженной стоимости или бесплатно.
Об использовании продуктов NVIDIA и искусственного интеллекта в здравоохранении мы говорили с вице-президентом компании Кимберли Пауэлл. В прошлом году в США запустили самый мощный суперкомпьютер в мире. Также собственный суперкомпьютер появился у российского коллайдера NICA.
Теперь она может определять киберугрозы
Исследователи из Южной Кореи обучили языковую модель DarkBERT на текстах из даркнета. Люди общаются в даркнете иначе, чем в обычном интернете, в том числе используют свой сленг. Модель изучила этот язык, и теперь ее можно применять в задачах кибербезопасности. Препринт доступен на arXiv.org. Языковые модели сегодня применяют для изучения разных текстов. Это нейросети, которые обучились на большом количестве данных и хорошо выполняют задачи, связанные с пониманием речи. Популярные языковые модели основаны на архитектуре Transformer, которую придумали инженеры из Google — такие модели умеют фокусировать внимание на важных частях предложения. Языковые модели лучше всего понимают то, что похоже на примеры из обучающей выборки. Обычно они учатся на больших объемах текстов из интернета, поэтому понимают много чего: литературный язык, сообщения из социальных сетей, научно-популярные статьи. Но есть тексты, которые не попадают в обучающую выборку, в том числе тексты из даркнета. У них есть свои лингвистические особенности: словарный запас, распределение частей речи и даже синтаксис. Обычные языковые модели это не учитывают, потому что во время обучения не видели таких текстов. Выход есть — обучить языковую модель на материалах из даркнета. Даркнет — это часть интернета, которую не найти в обычных поисковиках вроде Яндекса или Гугла. Туда нельзя попасть через обычный браузер. Есть разные сервисы для входа в даркнет, авторы исследования использовали Tor. Люди в даркнете общаются анонимно, и их сложно отследить. Поэтому даркнет стал платформой для всякого незаконного, от утечек данных до торговли запрещенными веществами. Специалисты по кибербезопасности постоянно ищут способы мониторить и изучать тексты в даркнете. Группа ученых из Южной Кореи под руководством Сун Вон Шина (Seungwon Shin) из Корейского института передовых технологий собрала корпус текстов из даркнета и обучила на нем языковую модель DarkBERT. Сначала авторы составили списки сайтов с помощью инструмента поиска по даркнету. Затем они скачали 6 миллионов веб-страниц и превратили их в тексты. Для обучения использовали модель RoBERTa, основанную на архитектуре Transformer. После обучения на текстах даркнета получилась готовая модель DarkBERT. Ее качество сравнивали со стандартными моделями RoBERTa и BERT, которые обучались на обычных текстах. Тестировали модели на разных сценариях киберугроз. Например, иногда злоумышленники похищают конфиденциальные данные с сайтов и вымогают у их владельцев деньги. Если деньги не поступают, злоумышленники публикуют украденные данные. Нейросети получали текст сайта и решали задачу бинарной классификации: определить, размещают ли на нем утекшие данные. DarkBERT справился с этой задачей намного лучше (точность 84 процента у DarkBERT против 70 процентов у BERT и 44 процента у RoBERTa). Еще один пласт нелегальной активности в даркнете — это продажа запрещенных веществ. Авторы проверили, насколько хорошо разные модели понимают сообщения с форумов даркнета: нейросети выделяли ключевые слова в сообщениях о запрещенных веществах. Такие ключевые слова могут пригодиться сотрудникам правоохранительных органов, чтобы быстро искать сообщения о продаже веществ и определять продавцов. Эту задачу тестировали на DarkBERT и на похожей модели BERT, дообученной на тематическом сабреддите. Здесь DarkBERT снова обошел конкурента (точность определения топ-10 ключевых слов 60 процентов у DarkBERT против 40 процентов у BERT). В целом результаты показывают, что предобученная на текстах из даркнета нейросеть DarkBERT справляется с задачами кибербезопасности лучше, чем другие модели. Ее можно использовать, чтобы мониторить нелегальную активность в даркнете, вычислять преступников и предотвращать утечки данных. Но у DarkBERT есть свои ограничения. Во-первых, она умеет работать только с англоязычными текстами. Во-вторых, обучающую выборку из даркнета собирать сложно, потому что сайты непросто найти и превратить в тексты. А чем больше подходящих текстов, тем выше эффективность модели. Другие языковые модели тоже продолжают развиваться. Например, инженеры из Яндекса натренировали нейросеть на русскоязычных текстах и встроили ее в Алису.