В МТУСИ разработали метод машинного обучения для обнаружения фишинговых сайтов

Информационная безопасность веб-приложений — актуальная проблема. Фишинговые сайты, которые выглядят как настоящие, крадут личные данные пользователей: пароли, банковские сведения, адреса электронной почты.

Если сайт скомпрометирован, организация теряет деньги и доверие клиентов. Поисковые системы могут применить санкции и понизить сайт в выдаче.

Машинное обучение помогает бороться с фишингом. Алгоритмы анализируют свойства веб-страницы и определяют, является ли сайт фишинговым или легитимным.

Для эффективного обнаружения фишинговых сайтов на основе подмены адресов URL необходимо собрать разнообразные и сбалансированные данные. Однако такие данные часто сложно найти, что может привести к необъективным результатам исследования.

Магистрант МТУСИ Людмила Емец под руководством доцента кафедры «Информационная безопасность» Александра Большакова работает над решением проблемы.

Она провела исследование, чтобы выбрать атрибуты и метод классификации мошеннических сайтов для обнаружения фишинговых ресурсов в интернете.

Одним из методов исследования стало машинное обучение на языке Python с использованием библиотеки Scikit-Learn.

Однако процесс формирования набора данных от сторонних сервисов усложняет использование метода бинарной классификации. Время выполнения запросов зависит от скорости и стабильности интернет-соединения, что может непредсказуемо задержать анализ.

Людмила Емец рассказала, что для создания более сбалансированного набора данных были сформированы две случайные выборки адресов сайтов — фишинговые и легитимные.

Затем был получен набор данных из 8600 URL-адресов, безопасных и небезопасных, которые поделили на обучающий и тестовый в соотношении 70% на 30%.

Данные проанализировали с помощью двух подходов: использовали данные из открытых источников и провели лексический анализ доменных имён. Применение n-граммного метода позволило выделить ключевые слова и сформировать дополнительные атрибуты лексического типа. Оценка зависимости атрибутов показала, что между ними нет высокой корреляции, поэтому они информативны для модели машинного обучения.

Учёные МТУСИ разработали модель классификации на основе алгоритмов машинного обучения. Чтобы оценить результаты работы моделей и сравнить их между собой, использовались такие метрики, как точность, полнота, F1-мера и площадь под ROC-кривой.

ROC-кривая показывает соотношение между количеством верно классифицированных фишинговых сайтов и количеством ошибочно принятых легитимных сайтов за вредоносные. Значение AUC (площадь под ROC-кривой) является важным показателем качества модели: чем ближе значение AUC к 1, тем лучше алгоритм классификации.

Исследователи обнаружили связь между свойствами веб-страницы и тем, является ли сайт фишинговым. Они проанализировали адрес страницы, информацию о домене, параметры подключения и ключевые слова.

Для создания модели были определены атрибуты веб-ресурсов и собраны данные: обучающая выборка с известными характеристиками сайтов и тестовая выборка без них. Перед анализом данных проверили, как атрибуты связаны друг с другом. Оказалось, что сильной связи нет.

На основе этих атрибутов была создана обучающая выборка, которая позволила сделать модель более точной, объяснил Александр Большаков.

Анализ URL-адресов фишинговых ресурсов помогает выявить их мошеннический характер.

Для этого обращают внимание на:

  • опечатки в популярных доменах;
  • дополнительные поддомены;
  • специальные символы и кодировки для маскировки.

Исследователи уделили особое внимание частоте неалфавитных символов, так как они часто используются злоумышленниками.

Анализ показал, что выбранные атрибуты выбраны правильно. А алгоритм классификации «Градиентный бустинг» продемонстрировал лучшие показатели среди рассмотренных моделей.

Ученые исследовали, как предложенная модель может быть интегрирована в систему защиты веб-приложений.

Если на ранних стадиях внедрения фишинговых URL-адресов в сеть использовать автоматизированные инструменты для их обнаружения, то можно значительно снизить риски для пользователей и организаций.

Предложенный подход к выявлению фишинговых сайтов показал высокую эффективность. Дальнейшие исследования могут быть направлены на улучшение алгоритмов машинного обучения и использование новых источников данных. Это позволит создать более надёжные средства защиты от фишинга и улучшить безопасность пользователей в интернете.

Иллюстрация: нейросеть

20.09.2024


Подписаться в Telegram



Net&IT

В МФТИ создали бота для распознавания нот
В МФТИ создали бота для распознавания нот

Студенты МФТИ создали программу под назва...

Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса
Plant Phenomics: Как технологии помогают фермерам сохранить урожай риса

Благодаря новым технологиям искусственный инте...

Челябинские ученые сделают коммунальные машины автономными
Челябинские ученые сделают коммунальные машины автономными

Программу для управления техникой, котора...

Студенты ТИСБИ разработали проект онлайн-платформы для геймеров
Студенты ТИСБИ разработали проект онлайн-платформы для геймеров

Студенты Университета управления ТИСБИ в ...

Nature: Созданные ИИ тексты будут размечаться водяными знаками
Nature: Созданные ИИ тексты будут размечаться водяными знаками

Исследователи из лондонской лаборатории G...

Российская игра о наполеоновских войнах станет бесплатной
Российская игра о наполеоновских войнах станет бесплатной

У российской аудитории растет интерес к в

В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»
В НГУ запустили пилотный кластер суперкомпьютерного центра «Лаврентьев»

В Новосибирском государственном университете з...

Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме
Эксперты МИФИ объяснили решение Microsoft и Google о мирном атоме

Технологические корпорации всё чаще обращ...

HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому
HB&ET: Пожилые чаще молодых относятся к ИИ как к кому-то живому

В исследовании Имперского колледжа Лондона люд...

В МФТИ создали ПО для нефтяников и золотодобытчиков
В МФТИ создали ПО для нефтяников и золотодобытчиков

Сотрудники МФТИ предложили цифровое решение, к...

Поиск на сайте

Знатоки клуба инноваций


ТОП - Новости мира, инновации

В МФТИ создали бота для распознавания нот
В МФТИ создали бота для распознавания нот
SciAdv: На Марсе была горячая вода — найдено доказательство в древнем метеорите
SciAdv: На Марсе была горячая вода — найдено доказательство в древнем метеорите
В ТОГУ будут использовать лазерные сканеры для создания идеальных зданий
В ТОГУ будут использовать лазерные сканеры для создания идеальных зданий
Science: У шимпанзе есть слабо развитая культура
Science: У шимпанзе есть слабо развитая культура
Ученые МФТИ придумали, как пропатчить сердце
Ученые МФТИ придумали, как пропатчить сердце
Ученые научились производить заживляющие наночастицы в промышленных масштабах
Ученые научились производить заживляющие наночастицы в промышленных масштабах
В ТПУ научились управлять свойствами графена с помощью лазера
В ТПУ научились управлять свойствами графена с помощью лазера
Surfaces and Interfaces: Куркума и серебро на мембранах стерилизуют вирусы
Surfaces and Interfaces: Куркума и серебро на мембранах стерилизуют вирусы
Внеклеточные везикулы — новое слово в лечении воспалительных заболеваний кишечника
Внеклеточные везикулы — новое слово в лечении воспалительных заболеваний кишечника
1 укол вместо 15: в Челябинске предложили революционный метод лечения рака
1 укол вместо 15: в Челябинске предложили революционный метод лечения рака
The American Journal of Human Genetics: Бесплодие может быть вызвано мутацией
The American Journal of Human Genetics: Бесплодие может быть вызвано мутацией
Исследована двойная роль клеточного регулятора CED-9 в апоптозе
Исследована двойная роль клеточного регулятора CED-9 в апоптозе
Ученые из Новосибирска установили возраст шерсти детеныша саблезубой кошки
Ученые из Новосибирска установили возраст шерсти детеныша саблезубой кошки
Челябинские ученые создали систему управления объектами электроэнергетики
Челябинские ученые создали систему управления объектами электроэнергетики
PRL: Физики объяснили, как работает дробный заряд в пентаслойном графене
PRL: Физики объяснили, как работает дробный заряд в пентаслойном графене

Новости компаний, релизы

Дмитрий Чернышенко провел рабочую встречу с главой Татарстана Рустамом Миннихановым
Нижегородский завод продемонстрировал разработанные по нацпроекту материалы на AMTEXPO
Делегация Набережночелнинского педагогического университета прибыла в Алжир
В Москве открыт памятник «отцу» советского ядерного оружия
3D-печать: от самых смелых концепций до твердой реальности