Специалисты из Массачусетского технологического университета создали алгоритм Code Phage, способный автоматически исправлять ошибки в исходном коде программ. Главной особенностью нового приложения стала способность к поиску подходящих заплаток в исполняемом коде программ-доноров, поэтому алгоритм может использовать донорские фрагменты, написанные на любом языке программирования. Исследование опубликовано в сборнике тезисов конференции 36th ACM SIGPLAN Conference on Programming Language Design and Implementation.
Новый алгоритм работает по следующему принципу: вначале он получает исходный код «целевой» программы и два набора данных, один из которых успешно исполняется, а другой вызывает ошибку. Алгоритм использует эти наборы данных, чтобы среди программ-доноров найти такую, в которых оба они обрабатываются без ошибки.
Далее в исполняемом коде программы донора алгоритм проходит по всем условным переходам, ища такой, чтобы после него два набора входящих данных оказались в разных ветвях. Идея здесь заключается в том, что с большой вероятностью данный переход как раз содержит необходимую проверку, которая позволяет избежать ошибки.
Далее алгоритм в найденном фрагменте исполняемого кода вновь запускает данные, создававшие ошибку, чтобы по результам исполнения построить символьное древо представлений как функцию входных данных. По этом древу алгоритм создает исходный код на нужном языке программирования.
На последнем шаге алгоритм вставляет новый исходный код в различные участки «целевой» программы, чтобы исправить имеющуюся ошибку, но не внести новых. Эта процедура выстроена таким образом, что после внесения заплатки в случае получения данных, способных вызвать ошибку, программа просто завершит свое исполнение. Таким образом, алгоритм не вносит никакого нового поведения, а просто локализует «опасный» участок кода и добавляет в этом месте обязательную проверку.
По результатам тестирования во всех случаях авторам удалось автоматически исправить ошибки, связанные с делением на ноль и переполнением целочисленного типа. В качестве целевых программ и доноров использовались приложения с открытым кодом.
Ученые отмечают, что им впервые удалось создать подобный алгоритм, который к тому же обладает несколькими принципиальными преимуществами. Из них, по мнению авторов, главное — это способность работать с исполняемым кодом доноров, что делает алгоритм независимым от языка программирования. Также новый подход способен эффективно решить проблему переноса имен переменных из донорского кода в целевой, что также делает метод универсальным.