Нейросеть научилась писать твиты за Рамзана Кадырова

Пользователь соцсети «ВКонтакте» Mik Ketov создал нейронную сеть, которая генерирует твиты в стиле Рамзана Кадырова. Они публикуются в соответствующем канале в Twitter.

По словам автора, на создание нейросети его вдохновил проект DeepDrumpf. Это система машинного обучения, которая генерирует твиты на основе стенограмм дебатов кандидата в президенты США Дональда Трампа. Кадыров был выбран из российских политиков из-за большого количества выступлений и постов в социальных сетях, которые дают обширный материал для обучения нейросети.

Для создания системы генерации текста автор российской версии пользовался тем же алгоритмом char-rnn, что и создатели DeepDrumpf. Char-rnn это многослойная реккурентная нейросеть, созданная сотрудником Стенфордского университета Андрем Карпати. Упрощенно можно сказать, что сhar-rnn работает как генератор текста, в котором каждый последующий символ предсказывается на основании множества предыдущих — они подаются на вход нейросети. При этом то, как именно нейросеть интерпретирует входную информацию (и какой текст она в результате генерирует), зависит от того, на чем она обучалась. Как и с другими нейросетями, обучение на тренировочной выборке определяет весовые коэффициенты между нейронами, и именно это обеспечивает характерный «стиль» для генерируемого текста. Таким образом можно научить нейросеть создавать тексты с стиле Толстого, писать статьи похожие на статьи Википедии, генерировать код ядра Линукса и так далее. Подробнее об использовании рекуррентных сетей и char-rnn для генерации текстов можно прочитать здесь.

В данном случае в роли тренировочной выборки выступил массив текстов Кадырова, автоматически извлеченный из его настоящего блога. «Рамзан Ахматович не менее одиозен, чем Трамп и производит много увлекательного контента, но, кстати, — и это проблема, — весьма однообразного», — объясняет Mik Ketov. В силу этого нейросеть преимущественно упоминает Аллаха, отца и брата Кадырова, а также многочисленные мечети.

В нейросети, созданной Mik Ketov, можно варьировать количество скрытых слоев и количество предыдущих символов, которые подаются на вход нейросети (от 20 до 140). Как и в системе DeepDrumpf, в русскоязычной версии для твитов используется далеко не весь генерируемый нейросетью текст — значительную его часть приходится выкидывать с помощью ручного отбора. Дополнительной сложностью по сравнению с англоязычной версией является необходимость согласовывать род и падежи в предложениях (из-за ограниченной глубины символов нейросеть порой просто не видит начала предложения).

Ранее с помощью подобной же технологии сотрудники Яндекса создали генератор текстов в стиле группы «Гражданская оборона» и записали соответствующий альбом.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.