В МТУСИ разработали метод машинного обучения для обнаружения фишинговых сайтов

Информационная безопасность веб-приложений — актуальная проблема. Фишинговые сайты, которые выглядят как настоящие, крадут личные данные пользователей: пароли, банковские сведения, адреса электронной почты.

Если сайт скомпрометирован, организация теряет деньги и доверие клиентов. Поисковые системы могут применить санкции и понизить сайт в выдаче.

Машинное обучение помогает бороться с фишингом. Алгоритмы анализируют свойства веб-страницы и определяют, является ли сайт фишинговым или легитимным.

Для эффективного обнаружения фишинговых сайтов на основе подмены адресов URL необходимо собрать разнообразные и сбалансированные данные. Однако такие данные часто сложно найти, что может привести к необъективным результатам исследования.

Магистрант МТУСИ Людмила Емец под руководством доцента кафедры «Информационная безопасность» Александра Большакова работает над решением проблемы.

Она провела исследование, чтобы выбрать атрибуты и метод классификации мошеннических сайтов для обнаружения фишинговых ресурсов в интернете.

Одним из методов исследования стало машинное обучение на языке Python с использованием библиотеки Scikit-Learn.

Однако процесс формирования набора данных от сторонних сервисов усложняет использование метода бинарной классификации. Время выполнения запросов зависит от скорости и стабильности интернет-соединения, что может непредсказуемо задержать анализ.

Людмила Емец рассказала, что для создания более сбалансированного набора данных были сформированы две случайные выборки адресов сайтов — фишинговые и легитимные.

Затем был получен набор данных из 8600 URL-адресов, безопасных и небезопасных, которые поделили на обучающий и тестовый в соотношении 70% на 30%.

Данные проанализировали с помощью двух подходов: использовали данные из открытых источников и провели лексический анализ доменных имён. Применение n-граммного метода позволило выделить ключевые слова и сформировать дополнительные атрибуты лексического типа. Оценка зависимости атрибутов показала, что между ними нет высокой корреляции, поэтому они информативны для модели машинного обучения.

Учёные МТУСИ разработали модель классификации на основе алгоритмов машинного обучения. Чтобы оценить результаты работы моделей и сравнить их между собой, использовались такие метрики, как точность, полнота, F1-мера и площадь под ROC-кривой.

ROC-кривая показывает соотношение между количеством верно классифицированных фишинговых сайтов и количеством ошибочно принятых легитимных сайтов за вредоносные. Значение AUC (площадь под ROC-кривой) является важным показателем качества модели: чем ближе значение AUC к 1, тем лучше алгоритм классификации.

Исследователи обнаружили связь между свойствами веб-страницы и тем, является ли сайт фишинговым. Они проанализировали адрес страницы, информацию о домене, параметры подключения и ключевые слова.

Для создания модели были определены атрибуты веб-ресурсов и собраны данные: обучающая выборка с известными характеристиками сайтов и тестовая выборка без них. Перед анализом данных проверили, как атрибуты связаны друг с другом. Оказалось, что сильной связи нет.

На основе этих атрибутов была создана обучающая выборка, которая позволила сделать модель более точной, объяснил Александр Большаков.

Анализ URL-адресов фишинговых ресурсов помогает выявить их мошеннический характер.

Для этого обращают внимание на:

  • опечатки в популярных доменах;
  • дополнительные поддомены;
  • специальные символы и кодировки для маскировки.

Исследователи уделили особое внимание частоте неалфавитных символов, так как они часто используются злоумышленниками.

Анализ показал, что выбранные атрибуты выбраны правильно. А алгоритм классификации «Градиентный бустинг» продемонстрировал лучшие показатели среди рассмотренных моделей.

Ученые исследовали, как предложенная модель может быть интегрирована в систему защиты веб-приложений.

Если на ранних стадиях внедрения фишинговых URL-адресов в сеть использовать автоматизированные инструменты для их обнаружения, то можно значительно снизить риски для пользователей и организаций.

Предложенный подход к выявлению фишинговых сайтов показал высокую эффективность. Дальнейшие исследования могут быть направлены на улучшение алгоритмов машинного обучения и использование новых источников данных. Это позволит создать более надёжные средства защиты от фишинга и улучшить безопасность пользователей в интернете.

Иллюстрация: нейросеть

20.09.2024

Подписаться: Телеграм | Дзен | Вконтакте


Net&IT

Из слов в объем: Kandinsky 3D лепит модели на лету
Из слов в объем: Kandinsky 3D лепит модели на лету

Дизайнеры, инженеры, архитекторы — ...

Лишние узлы — долой: нейросеть научилась видеть главное в графах
Лишние узлы — долой: нейросеть научилась видеть главное в графах

Исследователи из Университета Кумамото ра...

Как ИИ выкручивается, когда не знает языковых правил
Как ИИ выкручивается, когда не знает языковых правил

Исследователи из Оксфорда и Allen In...

Банк для бизнеса доступен на российской мобильной ОС
Банк для бизнеса доступен на российской мобильной ОС

СберБизнес — мобильное приложение д...

От частного к общему: как алгоритмы учатся видеть связи между словами
От частного к общему: как алгоритмы учатся видеть связи между словами

В мире обработки естественного языка есть две&...

Заговор в пудре и шелках: как выжить при дворе Елизаветы Петровны
Заговор в пудре и шелках: как выжить при дворе Елизаветы Петровны

Студия Много Много игр выпустила новую ви...

Опасен ли искусственный интеллект для человечества
Опасен ли искусственный интеллект для человечества

Искусственный интеллект перестал быть фантасти...

Люди с ограниченной подвижностью смогут играть в VR
Люди с ограниченной подвижностью смогут играть в VR

Команда исследователей из Университета Ва...

Почти идеально: как квантовые компьютеры обходят суперкомпьютеры
Почти идеально: как квантовые компьютеры обходят суперкомпьютеры

Квантовые компьютеры могут решать задачи оптим...

Дипфейки научились дышать: как подделки имитируют сердцебиение
Дипфейки научились дышать: как подделки имитируют сердцебиение

Представьте мир, где дипфейки стали насто...

ИИ анализирует цветение злаков без помощи человека
ИИ анализирует цветение злаков без помощи человека

Ученые создали алгоритм, который учится сам&nb...

Социальный провал: как ИИ путает разговор с переходом улицы
Социальный провал: как ИИ путает разговор с переходом улицы

Оказывается, люди пока разбираются в соци...

Создана нейросеть для тестирования интерфейсов: как это работает
Создана нейросеть для тестирования интерфейсов: как это работает

Каждый день миллионы людей покупают товары, оп...

Диагноз от ChatGPT: почти как у терапевта, но без очереди
Диагноз от ChatGPT: почти как у терапевта, но без очереди

Использование генеративного ИИ для д...

Облака вместо складов: как ритейл выжимает максимум из цифры
Облака вместо складов: как ритейл выжимает максимум из цифры

Владимир Лебедев, директор по развитию би...

ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?
ИИ-Тесла против мультяшного Эйнштейна: кому вы поверите?

Если вы из 1,5 миллиарда пользовател...

ИИ на акустических волнах: тише едешь — дальше будешь
ИИ на акустических волнах: тише едешь — дальше будешь

Искусственный интеллект уже меняет нашу ж...

Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть
Цифровой соблазн: почему мы теряем голову от ИИ и как ее вернуть

Эксперт по цифровым стратегиям Джулио Тос...

Море данных: физики доверили расчет жидкости ИИ
Море данных: физики доверили расчет жидкости ИИ

Искусственный интеллект уже изменил общес

Не биты, а кубиты: квантовые компьютеры играют в другой лиге
Не биты, а кубиты: квантовые компьютеры играют в другой лиге

Современные компьютеры, от смартфонов до&...

Квантовый мост: ученые соединили микроволны и свет в одном чипе
Квантовый мост: ученые соединили микроволны и свет в одном чипе

Физики из Гарвардской школы инженерии и&n...

40 000 точек вместо 12: наука усовершенствует слежение за взглядом
40 000 точек вместо 12: наука усовершенствует слежение за взглядом

Ученые из Университета Аризоны придумали,...

Поиск на сайте

ТОП - Новости мира, инновации

Компьютерная симуляция раскрывает тайны космической турбулентности
Компьютерная симуляция раскрывает тайны космической турбулентности
Ученые нашли материал, который ловит CO₂ даже во влажном воздухе
Ученые нашли материал, который ловит CO₂ даже во влажном воздухе
Ученые выяснили, как именно вегетарианцы не любят мясо
Ученые выяснили, как именно вегетарианцы не любят мясо
Радуга в клетке: ученые укротили цветовой хаос в AR-очках
Радуга в клетке: ученые укротили цветовой хаос в AR-очках
Запутанная арифметика: сколько частиц нужно, чтобы измерить то, чего нет
Запутанная арифметика: сколько частиц нужно, чтобы измерить то, чего нет
Ученые предложили управлять тараканами с помощью ультрафиолета
Ученые предложили управлять тараканами с помощью ультрафиолета
Лишние узлы — долой: нейросеть научилась видеть главное в графах
Лишние узлы — долой: нейросеть научилась видеть главное в графах
Деревья закрывают устьица раньше, чем считалось, чтобы сохранить рост
Деревья закрывают устьица раньше, чем считалось, чтобы сохранить рост
Зациклились: почему бизнес перестает выбрасывать деньги на ветер
Зациклились: почему бизнес перестает выбрасывать деньги на ветер
Гриб, который заменит пластик: мицелий стал материалом будущего
Гриб, который заменит пластик: мицелий стал материалом будущего

Новости компаний, релизы

Бактерии против грибов: как наука защищает картофель без химии
Овцы вместо мышей: как ученые нашли новый способ тестировать материалы для зубов
Пробирки, зелень и взрывы: фестиваль для тех, кто любит науку
Ход конем: в Шагонаре прошел первый шахматный турнир для дошколят
Якутия и Амурская область запускают гонки дронов