Исследователи из Facebook представили Persona-Chat — базу данных, состоящую из более чем 160 тысяч отрывков диалогов реальных людей, которые беседовали от лица выдуманных персон. Разработчики также обучили на примере этих данных компьютерную модель: в будущем, как сообщается в препринте, опубликованном на arXiv, она может помочь персонифицировать чат-ботов и голосовых помощников.
Несмотря на то, что голосовые помощники и чат-боты с каждым годом становятся все совершеннее, поддержать беседу они все еще могут с трудом. Причиной тому — ограничения обучающей выборки: компьютер можно научить разговаривать и даже отвечать на вопросы, но для поддержания цельной беседы данных может быть недостаточно. Чат-бот, например, не обладает сформированной личностью и интересами — и поэтому не может ответить на сложные открытые вопросы вроде «что ты любишь делать в дождливый день?». Разумеется, есть вариант, в котором чат-бот или голосовой помощник отвечает на неизвестный ему вопрос абстрактной фразой вроде «я не знаю» или поисковым запросом — но беседой считать это нельзя. Кроме того, при общении такой собеседник удерживает в памяти только небольшой отрывок диалога и не может вернуться к информации, предоставленной ему несколько шагов назад.
Разработчики из Facebook AI Research под руководством Джейсона Вестона (Jason Weston) собрали базу данных из более чем тысячи «персон»: небольших (пять предложений не более 15 слов в каждом) описаний абстрактных личностей, придуманных реальными людьми. Например, описание такой «персоны» может выглядеть так:
«I am a vegetarian. I like swimming. My father used to work for Ford. My favorite band is Maroon5. I got a new job last month, which is about advertising design.»
«Я вегетарианец. Я люблю плавать. Мой отец работал в Ford. Моя любимая группа — Maroon5. Месяц назад я начал работать дизайнером в рекламном агентстве»
Всего в базе данных 1155 таких «персон». Кроме того, исследователи попросили другую группу людей оценить получившихся «персон» и переписать их на основе схожих, связанных характеристик: например, любовь к Maroon5 могла быть заменена в «персоне» на любовь к песне «She Will Be Loved», а утверждение о том, что отец «персоны» работал на Ford, могло превратиться в утверждение о том, что близкий родственник работал в автомобильной компании. Это необходимо для того, чтобы расширить известные о «персоне» факты для составления возможного диалога.
После этого двух людей, предоставивших «персоны», просили немного поговорить: каждому из них была назначена случайная «персона». В результате в базе данных диалогов оказалось 164356 высказываний, и на основе этой базы исследователи обучили несколько компьютерных моделей (генеративную Seq2Seq и ранжирующую Memory Networks). Полученные модели чат-ботов затем оценили, попросив поговорить с ними реальных людей: диалог мог строиться либо вокруг «персоны» компьютера, либо вокруг «персоны» человека, либо вокруг обоих участников диалога. Разработанные модели обошли алгоритм, обученный диалогам на цитатах из фильмов, по беглости, вовлеченности в диалог и полноте беседы.
Пример диалога человека (PERSON 1) и чат-бота, обученного на собранной базе данных
[PERSON 1:] I just got done playing soccer. What have you been up to?
[PERSON 2:] I do not have pets. I spend my free time writing. what about you?
[PERSON 1:] Just graduated from college. Looking for work.
[PERSON 2:] yes I graduated, in writing and poetry.
[PERSON 1:] Have you had anything published?
[PERSON 2:] I mainly write fiction novels.
[PERSON 1:] Do you like to watch sports?
[PERSON 2:] do you like kings of leon my favorite by them is use somebody
[PERSON 1:] Are you married? I will be married soon.
[PERSON 2:] haha, no time. I have got a novel to finish.
[PERSON 1:] What is your novel about?
[PERSON 2:] it is a love story. I really enjoy writing. do you write or read?
[PERSON 1:] Like to read. Spend most time watching football.
[PERSON 2:] yes I do I am and author for a living
[PERSON 1:] Я только что закончил играть в футбол. А ты что делал?
[PERSON 2:] У меня нет домашних животных. В свободное время я пишу. А ты?
[PERSON 1:] Только что закончил учиться. Ищу работу.
[PERSON 2:] Да, я закончил учиться, я изучал поэзию и прозу
[PERSON 1:] У тебя что-нибудь уже опубликовано?
[PERSON 2:] Я в основном пишу фантастику
[PERSON 1:] Тебе нравится смотреть спорт?
[PERSON 2:] Тебе нравятся Kings of Leon? Моя любимая их песня — «Use Somebody»
[PERSON 1:] Ты женат? У меня скоро свадьба
[PERSON 2:] Хаха, нет, у меня нет на это времени. Надо книгу дописать
[PERSON 1:] О чем твоя книга?
[PERSON 2:] О любви. Я очень люблю писать. А тебе больше нравится писать или читать?
[PERSON 1:] Я люблю читать, но вообще — чаще футбол смотрю
[PERSON 2:] Да, я зарабатываю на жизнь тем, что пишу
Разработчики отмечают, что собранная база данных может быть полезна для создания новых и усовершенствования старых моделей чат-ботов и голосовых помощников. База данных также выложена в открытый доступ.
Поддержание беседы на абстрактные темы — это скорее дополнение для голосовых помощников и чат-ботов. А их основной функцией кроме управления чем-либо и распознавания голосовых команд может быть даже оказание психологической поддержки: как Woebot, который при общении с пользователями использует методы когнитивно-поведенческой психотерапии.
Елизавета Ивтушок
Пять правил успешной IТ-стажировки
Как попасть на работу в сфере IT без опыта работы? Хороший способ попробовать свои силы, познакомиться с работодателем и зарекомендовать себя — пойти на стажировку. Редакция N + 1 на примере программы Росатома подготовила пять универсальных правил, которые помогут попасть на желаемую IT-стажировку и остаться работать в компании. Правило 1. Выбирайте не только профессию, но и компанию Важно не только выбрать дело по душе, но и подобрать себе подходящее место работы — в наши дни это чуть ли не важнее, чем сама профессия. Хотели бы вы строить карьеру именно с этим работодателем? Если после стажировки вы надеетесь получить трудоустройство, внимательно изучите, чем компания занимается и насколько это близко вам лично. Может прозвучать неожиданно, но в Росатоме — госкорпорации, занимающейся атомной промышленностью, — есть IT-направление. Сотрудники разрабатывают цифровые продукты разного масштаба: от создания программных роботов и цифровизации Северного морского пути до строительства новых электростанций. Попасть на работу в госкорпорацию легче, чем кажется! Особенно если вы студент или выпускник старших курсов технических или IT-специальностей. Поддержка. Формат программы уникален, участие бесплатное и дистанционное. Команде участников предстоит решить реальный кейс при постоянной поддержке куратора и наставничестве эксперта. Кстати, участие в Case Lab можно засчитать как производственную практику в университете. А лучшие студенты получат приглашение на оплачиваемую стажировку в штат Гринатома и другие проекты Росатома. Правило 2. Определитесь, какое направление для вас Ок, с компанией определились. Что дальше? Нужно выбрать направление. Чем четче вы сформулируете свои предпочтения в работе, тем проще будет найти подходящую стажировку. А кандидат с четкой расстановкой приоритетов, безусловно, лучше выглядит в глазах работодателя. В Росатоме открывается много проектов, поэтому список программ Case Lab постоянно обновляется. Вот самые популярные направления: Аналитика и системный подход В условиях импортозамещения самые популярные системы учета в России и СНГ — это продукты 1С, которые используют 1,5 миллиона компаний. С их помощью можно считать зарплату сотрудников, контролировать расчеты с подрядчиками и клиентами, вести документооборот, сводить бухгалтерский баланс, формировать отчеты и делать многое другое. На Case Lab от Гринатома команды участников на реальных примерах изучают, как устроены автоматизация деятельности предприятия, подсчет зарплат, контроль расчетов с подрядчиками и клиентами через систему 1C, и с нуля обучаются новой профессии: 1С-аналитик или 1С-разработчик. Похожий трек есть и по направлению SAP. Там участники работают с SAP BI — системой обработки информации для бизнес-анализа, с помощью которой проводят стратегический анализ данных и принимают стратегические решения в компании. Поддержка В любой технологической компании есть несколько линий поддержки. Чем они отличаются друг от друга? Близостью к пользователю или системе: от непосредственной работы с пользователем до технических вопросов эксплуатации и низкоуровневого взаимодействия с кодом системы. Участники программы Support изучают построение IТ-инфраструктуры и знакомятся со спецификой работы в сфере IT. По итогам марафона Росатом открывает набор на стажировки по разным направлениям: первая линия поддержки пользователей, поддержка видео-конференц-связи или корпоративной системы передачи данных, администрирование систем коммуникаций Microsoft, работа с серверным оборудованием или автоматизация IТ-инфраструктуры. Веб-разработка Если хочешь быть востребованным специалистом, лучше всего изучать JavaScript или Java. Программа подходит для всех, кто начинает делать первые шаги к карьере в IТ. Подготовка идет по двум направлениям: разработка и системная аналитика. Участники учатся создавать, настраивать и кастомизировать несложные сайты, а также пробуют на практике работу в Scrum-команде. Кстати, в Case Lab ребята пишут на JavaScript. Правило 3. Не пренебрегайте конкурсами, хакатонами и другими программами поддержки молодых специалистов Крупные IT-компании давно следуют принципу, что лучше обучить новичков под свой проект с нуля, чем заниматься «перепрошивкой» готового специалиста. Проявите себя — так больше шансов, что вас заметят. Так, для желающих попасть на оплачиваемую стажировку в Росатом после Case Lab учитываются баллы рейтинга, мотивация и умение работать в команде. Программа подготовки к IT-стажировкам по всем направлениям бесплатная и проходит в дистанционном формате. Участникам предлагают совместно решить кейс на основе реальной ситуации. В процессе обучения команду сопровождает куратор, который еженедельно дает обратную связь, а также эксперт, проверяющий выполненное задание. На еженедельных встречах с экспертом участники могут задать вопросы и обменяться опытом. Правило 4. Интегрируйтесь в компанию по максимуму Не забывайте напоминать о себе. Принимайте приглашения на все встречи и совместные мероприятия, не стесняйтесь общаться. В вас должны видеть не только профессионала, но и приятного человека, с которым хочется иметь дело. Стажировка Гринатома может быть рассчитана как на полную, так и на частичную занятость. Руководители помогают стажерам адаптироваться в атомной отрасли и постепенно ставят перед ними практические задачи. Все стажеры официально трудоустроены, а их работа оплачивается исходя из фактической занятости. Росатом заинтересован в том, чтобы после стажировки участники программы остались работать в IT-блоке разных предприятий атомной отрасли. Чтобы участники не чувствовали себя оторванными от коллег, каждую пятницу проводятся развлекательно-познавательные тренинги — онлайн-встречи, на которых сотрудники компании делятся опытом и советами, как успешно пройти стажировку или развить soft skills. Во время онлайн-митапов и квизов стажеры знакомятся между собой и погружаются в процессы компании. IT-вакансии для стажеров доступны как удаленно, так и в офисе в разных городах России. Большинство стажировок можно проходить удаленно, и в этом, на наш взгляд, огромный плюс. Также не забывайте принимать участие во всех активностях компании: в Гринатоме есть беговой клуб, сообщество волонтеров, языковые клубы и многое другое. Правило 5. Не забывайте, стажировка — это полноценная работа Если вы хотите остаться в компании, относитесь к стажировке так же, как к полноценной работе. У вас будет руководитель-наставник, но это уже не учеба. Чтобы стать постоянным сотрудником одной из компаний Росатома, нужно пройти программу стажировки и получить положительную обратную связь от руководителя и наставника. Если все требования будут учтены, вас переведут на позицию джуниора. 80% стажеров Росатома заключают постоянный контракт. Если вам интересна работа в IT-блоке атомной отрасли — подавайте заявку, набор на стажировки открыт круглый год. За подробностями следите в группе «IT-стажировки Росатома» во «ВКонтакте» и на сайте.