В МТУСИ разработали метод машинного обучения для обнаружения фишинговых сайтов
Информационная безопасность веб-приложений — актуальная проблема. Фишинговые сайты, которые выглядят как настоящие, крадут личные данные пользователей: пароли, банковские сведения, адреса электронной почты.
Если сайт скомпрометирован, организация теряет деньги и доверие клиентов. Поисковые системы могут применить санкции и понизить сайт в выдаче.
Машинное обучение помогает бороться с фишингом. Алгоритмы анализируют свойства веб-страницы и определяют, является ли сайт фишинговым или легитимным.
Для эффективного обнаружения фишинговых сайтов на основе подмены адресов URL необходимо собрать разнообразные и сбалансированные данные. Однако такие данные часто сложно найти, что может привести к необъективным результатам исследования.
Магистрант МТУСИ Людмила Емец под руководством доцента кафедры «Информационная безопасность» Александра Большакова работает над решением проблемы.
Она провела исследование, чтобы выбрать атрибуты и метод классификации мошеннических сайтов для обнаружения фишинговых ресурсов в интернете.
Одним из методов исследования стало машинное обучение на языке Python с использованием библиотеки Scikit-Learn.
Однако процесс формирования набора данных от сторонних сервисов усложняет использование метода бинарной классификации. Время выполнения запросов зависит от скорости и стабильности интернет-соединения, что может непредсказуемо задержать анализ.
Людмила Емец рассказала, что для создания более сбалансированного набора данных были сформированы две случайные выборки адресов сайтов — фишинговые и легитимные.
Затем был получен набор данных из 8600 URL-адресов, безопасных и небезопасных, которые поделили на обучающий и тестовый в соотношении 70% на 30%.
Данные проанализировали с помощью двух подходов: использовали данные из открытых источников и провели лексический анализ доменных имён. Применение n-граммного метода позволило выделить ключевые слова и сформировать дополнительные атрибуты лексического типа. Оценка зависимости атрибутов показала, что между ними нет высокой корреляции, поэтому они информативны для модели машинного обучения.
Учёные МТУСИ разработали модель классификации на основе алгоритмов машинного обучения. Чтобы оценить результаты работы моделей и сравнить их между собой, использовались такие метрики, как точность, полнота, F1-мера и площадь под ROC-кривой.
ROC-кривая показывает соотношение между количеством верно классифицированных фишинговых сайтов и количеством ошибочно принятых легитимных сайтов за вредоносные. Значение AUC (площадь под ROC-кривой) является важным показателем качества модели: чем ближе значение AUC к 1, тем лучше алгоритм классификации.
Исследователи обнаружили связь между свойствами веб-страницы и тем, является ли сайт фишинговым. Они проанализировали адрес страницы, информацию о домене, параметры подключения и ключевые слова.
Для создания модели были определены атрибуты веб-ресурсов и собраны данные: обучающая выборка с известными характеристиками сайтов и тестовая выборка без них. Перед анализом данных проверили, как атрибуты связаны друг с другом. Оказалось, что сильной связи нет.
На основе этих атрибутов была создана обучающая выборка, которая позволила сделать модель более точной, объяснил Александр Большаков.
Анализ URL-адресов фишинговых ресурсов помогает выявить их мошеннический характер.
Для этого обращают внимание на:
- опечатки в популярных доменах;
- дополнительные поддомены;
- специальные символы и кодировки для маскировки.
Исследователи уделили особое внимание частоте неалфавитных символов, так как они часто используются злоумышленниками.
Анализ показал, что выбранные атрибуты выбраны правильно. А алгоритм классификации «Градиентный бустинг» продемонстрировал лучшие показатели среди рассмотренных моделей.
Ученые исследовали, как предложенная модель может быть интегрирована в систему защиты веб-приложений.
Если на ранних стадиях внедрения фишинговых URL-адресов в сеть использовать автоматизированные инструменты для их обнаружения, то можно значительно снизить риски для пользователей и организаций.
Предложенный подход к выявлению фишинговых сайтов показал высокую эффективность. Дальнейшие исследования могут быть направлены на улучшение алгоритмов машинного обучения и использование новых источников данных. Это позволит создать более надёжные средства защиты от фишинга и улучшить безопасность пользователей в интернете.
Иллюстрация: нейросеть