Как большие данные и машинное обучение меняют (или не меняют) подход к рискам
Большие данные и машинное обучение постоянно присутствуют в новостях. Мы постоянно слышим о том, что эти технологии несут революционные изменения в нашу жизнь. Однако в некоторых областях революция все время откладывается. Страховые компании (если верить недавнему отчету IDSA) относятся именно к скептикам. Они не стремятся сломя голову имплементировать в свои процессы большие данные и машинное обучение. Но процесс этот все равно идет. Совместно с партнером этого материала, компанией «Ингосстрах» и ее экспертами, мы выясняли, в каких областях страхования большие данные уже используются, в каких могут использоваться и какие препятствия стоят на этом пути.
Страхование как идея насчитывает очень много лет — то, что в человеческой жизни присутствует риск, влияющий на финансовые ситуации, понимали уже в Древнем Вавилоне. В законах Хаммурапи (1750-е годы до нашей эры) говорится):
«Если кто-нибудь будет иметь на себе процентный долг, а Рамман затопит его поле, или наводнение унесет жатву, или вследствие засухи в поле не вырастет хлеба, то он не обязан возвращать в этом году хлеб заимодавцу и смывает свой документ; он не обязан отдавать и проценты за этот год».
Перевод Бориса Тураева
В Древнем Риме (I тысячелетие до нашей эры) возникла концепция бодмерея — займа, получаемого моряком, собирающимся в путешествие. Так как торговые экспедиции были опасны, в случае потери судна и груза заимодатель не мог требовать возврата долга. Но если экспедиция была успешной, то процент с такого займа был выше, чем с обычного. Похожие законы были и у средневековых торговых гильдий.
В XVII веке Эдмунд Галлей, тот самый первооткрыватель кометы Галлея и многих законов физики, заложил основы актуарных расчетов в страховании жизни. В частности, он составил первую таблицу смертности, обнаружив любопытный факт: средняя продолжительность жизни в его время составляла 26 лет, в то время как медианная — 8 лет (то есть вероятность не дожить до 8 и вероятность прожить больше 8 лет была примерно одинаковой).
Полноценное страхование жизни и имущества возникло в начале XVIII века, хотя в некоторых местах даже раньше — например, в Лондоне дома начали страховать спустя несколько лет после Большого пожара 1666 года. В южной части Европы страны задумались о страховании после землетрясения 1755 года, почти полностью уничтожившего Лиссабон.
Наконец, позиции страхования как важной составляющей современной жизни окончательно утвердились в ходе военных конфликтов как в Европе, так и в колониях в конце XVIII — начале XIX века. Вскоре в Германии, не без участия Отто фон Бисмарка, появилась социальная система страхования жизни, здоровья, пенсии (подробнее про историю страхования можно прочитать в этой заметке от Swiss Re, посвященной 150-летию компании).
В XX веке страхование стало полноценной индустрией во многом благодаря развитию математических методов, стоявших за созданием подходящих математических моделей. Основной инструментарий, применяемый в страховании, это математическая статистика и теория вероятностей.
Например, тот факт, что в таблице Галлея оказались две настолько разные величины, казался его современникам парадоксом, пока не появилась математическая статистика с ее понятием медианы — это значение с условием, что ровно половина элементов выборки больше его и ровно половина — меньше.
Обобщением понятия «медиана» является понятие «процентиль». Процентиль x представляет собой значение, для которого доля x в выборке меньше этого значения, а доля 1 − x — больше.
Если совсем грубо, то работа страховой компании устроена следующим образом. Компания берется страховать клиента. Она получает от него некоторый набор информации — обычно это не очень длинная анкета.
Сведения из анкеты дополняются внутренней информацией компании — данными, собранными самой компанией, либо полученными иными способами (скажем, при проверке каких-то справок или документов), предусмотренными законом. Дальше на основании собранной информации и математических моделей вычисляется размер тарифа и сумма премии по договору с учетом оценки степени риска.
Если речь идет о страховании автомобиля, то, например, «Ингосстраху» для оформления полиса достаточно совсем простой информации: марка машины, пробег, возраст водителя и так далее. На основании этих данных и вычисляется непосредственная стоимость страховки в рублях.
Однако сейчас страховые компании для большей персонализации условий страховки предлагают клиентам воспользоваться возможностями телематики. Это совокупность технологий, которая позволяет отслеживать движение автомобиля. И если логистическим компаниям телематика нужна для оптимизации и автоматизации работы автопарка, то страховым - помогает следить за поведением автомобилиста на дороге.
«Ингосстрах» предлагает своим клиентам телематику как дополнительную опцию к договору каско. На автомобиль устанавливают устройство, отслеживающее такие показатели вождения, как пробег, ускорение, торможение, перестроение. Стиль вождения напрямую влияет на стоимость страховки.
Следить за оценкой и динамикой своего вождения можно через приложение IngoDrive. Оно показывает клиенту трек вождения и баллы за вождение. Приложение также уведомляет клиента при ударе автомобиля, зажигании, разряде батареи или эвакуации.
Страхование автомобиля — это та область, где, как кажется, страхование наиболее близко подошло максимуму пользы от использования больших данных (если верить отчету AIOPA).
Первое направление, о котором идет речь, это анализ поведения водителя на дороге. Грубо говоря, идея такова: страховые компании собирают или покупают большие данные о том, как ведут себя водители. С помощью статистического анализа в данных о поведении находятся взаимосвязи, потенциально позволяющие узнать довольно много о водителе, автомобиле и типе вождения.
Например, американская компания LexisNexis предложила новую систему классификации для автомобилей. Дело в том, что сейчас в автомобилях используется много разных систем безопасности, а также разные типы круиз-контроля. Чтобы учитывать их наличие при расчете страховки, используется тот самый анализ больших данных, позволяющий перевести все это техническое многообразие на язык страховщиков.
На самом деле анализ того, как современная комплектация автомобилей влияет на стоимость страховки — часть более общего направления анализа новых рисков. Одним из перспективных направлений здесь является, например, поиск инструментов для численной оценки влияния, например, опасности хакерской атаки или природного катаклизма, вызванного изменением климата.
Еще одна, правда, пока потенциальная история — это возможность предсказания страховых случаев. Есть работы, обосновывающие возможность использования больших данных для получения прогнозов.
Правда, речь идет не про конкретных людей, а про статистику в целом. Грубо говоря, глядя на данные по пулу водителей, можно понять, что у кого-то из них скоро произойдет авария, но нельзя сказать у кого конкретно.
Большие данные могут помочь более эффективно оценивать риски.
Действительно, каждый клиент оставляет страховщику не слишком много сведений о себе. Используя инструменты больших данных, эту информацию можно эффективно дополнять, классифицируя клиентов в целом.
Еще одна задача, для решения которой, правда, потребуются нейросети и машинное обучение, — это организация автоматического документооборота, включающего предварительный анализ претензий на фрод. Такого рода разработки уже ведутся, и есть несколько стартапов, предлагающих свои услуги страховым компаниям (например, MarkLogic)
Еще одно направление, где нашли себе применение большие данные, — это страхование здоровья. В частности, в США сразу несколько стартапов пытаются перепридумать рынок страхования здоровья (в Америке этот рынок — предмет постоянного общественного спора, поэтому появление таких компаний именно там закономерно).
Например, стартап из Нью-Йорка Oscar Insurance собирает о своих пользователях информацию, потенциально позволяющую им в реальном времени контролировать свое состояние.
По мнение создателей компании, для страховщика выгоднее предотвратить какой-то страховой эпизод, чем потом выплачивать деньги или разбираться со страховой претензией.
Генеральный директор Oscar Insurance Марио Шлоссер приводит пример: его сотруднику удалось обнаружить, что один из их клиентов, страдающий диабетом, не разместил вовремя заказ на инсулин (заказы также мониторятся). Сотрудник компании напомнил клиенту об этом, и страховой случай был предотвращен.
Для индивидуального расчета тарифа ДМС корпоративным клиентам «Ингосстрах» использует скоринговую модель, основанную на линейной регрессии и частичном кластерном анализе данных. Это позволяет точно интерпретировать результаты и выделять важные факторы при построении модели.
Если говорить о тарифах для частных клиентов, то для улучшения скоринговой модели реализуется проект анализа данных из открытых источников на предмет антиселекции клиентов (выявление уже больных клиентов).
«Ингосстрах» также думает о разработке программы, которая помогала бы клиентам корректировать их образ жизни. В результате у клиентов появилась бы возможность сравнивать свои личные показатели со среднестатистическими данными и получать обратную связь с персонализированными советами по здоровью, составленными на оценке его подвижности, режима сна и так далее.
Еще один пример — компания Hippo, уже ставшая «единорогом» (это значит, что ее текущая капитализация превысила миллиард долларов). Основная идея здесь очень похожая, только компания собирает данные с разных домашних — включая «умные» — устройств.
В результате формируются паттерны, за которыми следят нейросети, генерирующие сообщения, если вдруг, например, вы не закрыли дверь гаража, хотя обычно в это время вы, выехав из дома на машине, эту дверь закрываете.
Интересно, что благодаря постоянному сбору данных Hippo обладает возможностью застраховать даже отдельные домашние устройства — например, умную колонку, телевизор или холодильник. Данные для страхования собираются с помощью интернета вещей.
Легко заметить, что большинство перечисленных случаев использования IT-технологий в страховании далеки от революционных.
В рамках подготовки доклада IDSA были проведены анонимные интервью с лидерами отрасли. В результате выяснилось, что страховщиков смущает ненадежность технологий, а также тот факт, что использование новых моделей работы с информацией — например, дополнение анкеты с помощью больших данных — требует серьезного переосмысления процессов.
Но, несмотря на консервативность отрасли, подвижки к модернизации есть, причем не только за рубежом, но и в России.
Так, например, в «Ингосстрахе» уже большое внимание уделяют работе с данными, то есть бизнес понимает всю важность этой работы и разрабатывает новые эффективные методики использования больших данных.
Однако пока выгода от имплементации новой технологии, к сожалению, не так очевидна, чтобы это переосмысление стало повсеместным трендом.
Андрей Коняев
Игра на знание биологической систематики
В 1735 году шведский ученый-натуралист Карл Линней опубликовал свою важнейшую работу — книгу «Система природы», которая стала основной для биологической систематики всего живого на Земле. Многократно переработанная и пересмотренная, система классификации растений, животных и других существ Линнея в том или ином виде сохраняется до сих пор. Царства, типы, классы, отряды, семейства, роды и виды — помните что-нибудь из этого? В нашей игре воскрешаем уроки школьной биологии: попробуйте верно расставить растения и животных по категориям.