Программисты из MIT представили систему, которая позволяет защитить данные о посещении сайтов и действиях пользователя на них. Система шифрует данные при посещении сайта и временно расшифровывает их во время отображения элемента сайта на экране для минимизации риска утечки информации из кэша или файла подкачки, а также использует несколько других механизмов. Для удобства оптимизации сайтов под эту систему разработчики создали специальную программу, сообщается в докладе, представленном на симпозиуме NDSS 2018.
Почти во всех современных браузерах есть приватный режим. Предполагается, что после выхода из него браузер удаляет всю информацию о том, какие страницы посещал пользователь и что именно он на них делал. Однако, из-за некоторых особенностей работы операционных систем, часть этой информации может все же остаться на компьютере, например, в файле подкачки или в кэше DNS. Как правило, разработчики программного обеспечения для защиты данных в интернете концентрируются на защите передачи данных между сервером и клиентом, но не защите данных от подобных утечек на самом компьютере пользователя.
Исследователи в области компьютерной безопасности под руководством Николая Зельдовича (Nickolai Zeldovich) из Массачусетского технологического института разработали систему Veil, которая минимизирует риски утечки данных на компьютере после использования приватного режима браузера. Для работы системы владелец сайта должен добавить в него специальный компилятор, который превращает обычную страницу в совместимую с системой. В частности, он шифрует URL и часть контента ключом пользователя.
Компилятор загружает совместимую версию страницы на специальные «ослепляющие» сервера. При обращении к ним пользователь открывает почти пустую страницу с адресной строкой и строкой для ввода пользовательского ключа шифрования. После ввода адреса сервер передает браузеру данные страницы, причем, при каждом обращении сервер посылает немного измененную версию страницы, которая выглядит одинаково для пользователя, но синтаксически отличается. За счет этого в случае утечки данных злоумышленникам сложно понять, какую страницу открывал пользователь.
Помимо этого система устроена таким образом, что она расшифровывает контент только на время, в которое он отображается на экране. Также она периодически обращается к данным страницы в памяти и не дает операционной системе выгружать их в файл подкачки, данные из которого могут не удалиться при выходе из приватного режима.
Для особо приватных сайтов разработчики предусмотрели специальный режим, при котором браузер пользователя получает не исходный код страницы, а изображения элементов, отрисованные на стороне сервера. В таком режиме браузер лишь посылает на сервер расположение элемента, на который кликнул пользователь, после чего получает новое изображение.
Разработчики считают одним из главных преимуществ такого подхода отсутствие необходимости в дополнительных действиях со стороны пользователя — ему не нужно устанавливать специальные программы или расширения для используемого браузера. В то же время, на разработчиков ложится дополнительная обязанность в виде поддержки дополнительных серверов.
В прошлом году исследователи в области информационной безопасности выяснили, что некоторые системы интернет-аналитики, установленные на популярных сайтах могут записывать конфиденциальную информацию. При этом часть из них затем передает данные владельцам сайтов по незащищенному протоколу, даже если сам сайт использует шифрование.
Григорий Копиев
Она поможет написать письмо, план тренировки или сочинит историю
Яндекс обучил большую русскоязычную языковую модель YandexGPT и внедрил ее в своего виртуального помощника Алису. Сейчас нейросеть тестируют пользователи продуктов Яндекса, новость об этом вышла на сайте компании. Языковая модель — это нейросеть, которая умеет генерировать тексты, по очереди предсказывая каждое слово в предложении. Языковая модель YandexGPT основана на архитектуре Transformer, которую создали исследователи из Google в 2017 году. Когда в такую нейросеть загружают текст, она умеет выделять в нем важные слова и фокусировать на них внимание. Главный навык модели — хорошо понимать и запоминать тексты, и генерировать новые. Когда нейросеть осваивает этот навык, она одновременно естественным образом учится выполнять самые разные задачи, связанные с анализом текстов. Большие языковые модели основаны на архитектуре Transformer и обучены на огромном количестве данных, обычно из интернета. Они умеют создавать текст, почти не отличимый от человеческой речи. Первой успешной моделью такого типа стала нейросеть GPT от компании OpenAI. В 2022 вышла улучшенная версия модели ChatGPT. Ее не просто натренировали на большом количестве данных, но и дообучили с помощью обучения с подкреплением. Люди-эксперты работали с нейросетью в режиме диалога, показывая ей как правильно отвечать на вопросы. В надежде повторить успех ChatGPT, многие компании обучают свои языковые модели-аналоги (например, Bard от Google или Poe от Quora). Яндекс первым внедрил такую модель в виртуального помощника. 17 мая Яндекс выпустил большую языковую модель YandexGPT в открытый доступ. С ней можно пообщаться через Алису в приложении Яндекс, браузере, умной колонке или телевизоре. Чтобы активировать YandexGPT, нужно сказать: «Алиса, давай придумаем!» Языковая модель пока находится в режиме тестирования, но уже умеет выполнять разные задачи пользователей: выбрать подарок, составить план тренировки или написать деловое письмо. Модель умеет составлять грамотные содержательные тексты, но может ошибаться в фактах. Посмотрите, как пользователи общаются с YandexGPT: Нейросеть обучали на суперкомпьютерах Яндекса в два этапа. Сначала разработчики отобрали для обучения много книг, статей и страниц сайтов с помощью поисковых инструментов Яндекса — по утверждению компании, в выборку попадали только содержательные и хорошо написанные тексты. На втором этапе модель дообучили, чтобы она лучше вела диалог. Для этого Яндекс воспользовался методом, который придумали исследователи из OpenAI. Эксперты-разметчики составили сотни тысяч пар вопрос-ответ и показывали их YandexGPT на втором этапе обучения. Но у YandexGPT есть свои ограничения. Например, нейросеть пока не умеет запоминать контекст и учитывать предыдущие реплики. Однако YandexGPT постоянно дообучается на новых данных от пользователей и может развить этот навык в будущем. Cравнить качество ответов YandexGPT с другими языковыми моделями пока невозможно, Яндекс не раскрыл эти данные. Также неизвестна точная архитектура модели и параметры ее обучения. Тем временем другая языковая модель GPT-4 научилась работать не только с текстом, но и с картинками.