ОБНАРУЖЕНИЕ САЙТОВ СОЗДАННЫХ С ЦЕЛЬЮ МОШЕННИЧЕСТВА С ПОМОЩЬЮ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА

Опубликовано в журнале: Научный журнал «Интернаука» № 19(289)
Рубрика журнала: 3. Информационные технологии
DOI статьи: 10.32743/26870142.2023.19.289.358424
Библиографическое описание
Молутбеков Т.Н. ОБНАРУЖЕНИЕ САЙТОВ СОЗДАННЫХ С ЦЕЛЬЮ МОШЕННИЧЕСТВА С ПОМОЩЬЮ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА // Интернаука: электрон. научн. журн. 2023. № 19(289). URL: https://internauka.org/journal/science/internauka/289 (дата обращения: 22.12.2024). DOI:10.32743/26870142.2023.19.289.358424

ОБНАРУЖЕНИЕ САЙТОВ СОЗДАННЫХ С ЦЕЛЬЮ МОШЕННИЧЕСТВА С ПОМОЩЬЮ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА

Молутбеков Темирлан Насырынбекулы

магистрант, Международный университет информационных технологий,

Казахстан, г. Алматы

 

DETECTION OF FRAUD SITES WITH NATURAL LANGUAGE PROCESSING

Temirlan Molutbekov

Master student, International Information Technology University,

Kazakhstan, Almaty

 

АННОТАЦИЯ

В данной статье рассмотрена возможность обнаружения сайтов на английском языке, созданных для мошенничества c помощью обработки естественного языка. Для выполнения данного исследования был проанализирован небольшой набор данных собранный самостоятельно. По результатам анализа была натренирована модель машинного обучения с помощью рекуррентной нейронной сети длинная цепь элементов краткосрочной памяти (LSTM). Модель показала точность в 90% и площадью под кривой равной 0,88. Однако наличие более большего набора данных может как ухудшить, так и улучшить данные показатели. Небольшой набор собранных данных говорит о необходимости в едином сайте со сбором данных о фишинговых сайтах включая HTML страницы. Использование сайтов на английском языке вызвано малым количеством доступных данных на других языках.

ABSTRACT

This article discusses the possibility of detecting sites in English that were created for fraud using natural language processing. To perform this study, a small set of self-collected data was analyzed. Based on the results of the analysis, a machine learning model was trained using a recurrent neural network – Long Short Term Memory (LSTM). The model showed an accuracy of 90% and an area under the curve of 0.81. However, the presence of a larger data set can both worsen and improve these indicators. The small set of collected data indicates the need for a single site with the collection of data on phishing sites, including HTML pages. The use of sites in English is due to the paucity of data available in other languages.

 

Ключевые слова: обработка естественного языка, фишинг, интернет-мошенничество, машинное обучение, кибербезопасность.

Keywords: natural language processing, phishing, internet fraud, machine learning, cybersecurity.

 

Интернет и девайсы для подключения к нему, с каждым днем становятся более доступными по всему миру. В связи с этим магазины, банки и правительства разных стран создают собственные ресурсы для ознакомления граждан. Это способствует росту жертв интернет-мошенничества. Кризисные ситуации на подобии COVID-19 также способствуют росту жертв мошенников [1, с 327]. Действия злоумышленников, осуществляющих мошенничество в сети интернет c с помощью психологических манипуляций называются социальной инженерией. Выделяют следующие виды атак с использованием социальной инженерии:

  • Подложные предложения и ссылки
  • Телефонный фишинг и фрикинг
  • Претекстинг
  • Услуга за услугу.
  • «Дорожное яблоко»
  • Плечевой серфинг
  • Обратная социальная инженерия

В данной статье рассматривается вариант осуществления атак социальной инженерии с помощью сайтов. Вышеперечисленные виды атак, за исключением плечевого серфинга, могут быть совершенны посредством сайтов мошеннического содержания. На сегодняшний день существует много способов обнаружения мошеннических сайтов, такие как черные списки и эвристический анализ URL-адреса сайта. Черные списки представляют собой реестр вредоносных идентификаторов сайтов, таких как URL-адрес и IP адрес. Недостатком черных списков является вероятное отсутствие в реестре мошеннического сайта, созданного недавно, или отсутствие жалоб о нем от пользователей. Эвристический анализ URL-адреса сайтов может включать, но не ограничиваться следующими пунктами [2, с 58, с 59]:

  1. Сравнение кодов страны домена и страны хостинга
  2. Ключевые слова, которые встречаются только в фишинговых вебсайтах
  3. Подлинность SSL или TLS сертификата
  4. Длина URL-адреса
  5. Наличие символа “@” в URL
  6. Количество символа “.” в URL
  7. Количество удвоенных символов “/” в URL
  8. Доступность URL, или контента сайта на нем.
  9. Ранг популярности URL, например Alexa Rank
  10. Репутация URL, например URLvoid

При этом, при больших показателях точности метода эвристического анализа URL-адреса, при отсутствии совпадений по данным пунктам мошеннический сайт не будет обнаружен.

На данный момент большинство исследователей мошеннических сайтов чаще стали пользоваться машинным обучением для идентификации [3, c 240]. Однако, немногие из них используют текст как характеристику. Например, на Рисунке 1 можно увидеть пример целевой фишинговой атаки со сравнительно легитимным URL-адресом, но подозрительным текстом.

 

Рисунок 1. Сайт с мошенническим текстом

 

В этой статье предлагается использование текста на сайтах, в качестве одной из характеристик, которую можно использовать вместе с другими характеристиками, как URL адреса. Для этого был произведен эксперимент с набором данных, собранным собственноручно. Набор данных включает в себя 1122 мошеннических сайта и 500 легитимных сайтов. Мошеннические сайты были собраны с ресурса PhishTank, когда как легитимные собирались из списков популярных онлайн магазинов, онлайн банкингов, государственных сайтов, криптобирж и социальных сетей. Набор данных вышел небольшим, из-за недоступности ресурсов указанных на PhishTank, отсеивании сайтов не на английском языке, пустых сайтов, дублирующихся сайтов и сайтов запрашивающих о включении JavaScript. При предварительной обработке текстов были убраны: пунктуация, цифры, и стоп слова. Стоп слова, это те слова, которые не несут смысловой нагрузке в тексте, примером в английском языке являются артикли “a”, “an” и “the” [4, с 207].

Злоумышленники при создании сайтов для мошеннических действий могут добавить туда несуществующие слова, допускать грамматические ошибки, а также добавить символы похожие на буквы из английского алфавита. Несуществующие слова будут убраны с помощью TF-IDF векторизатора при извлечении ключевых слов в векторы. TF-IDF используется в обработке естественного языке для определения «веса» слова в документе, в нашем случае документом является текст с сайта. Символы кроме букв английского языка, были заменены на английские. Для идентификации грамматических ошибках в словах подходящего решения найдено не было, поэтому «вес» у таких слов также будет незначительным.

                                                                            (1)

где:  - TF-IDF

Слово ;

механический эквивалент тепловой работы;

частота слова x в тексте y;

количество текстов.

В качестве модели для тренировки была выбрана рекуррентная нейронная сеть на базе долгой краткосрочной памяти (LSTM). LSTM является рекуррентной нейронной сетью, что позволяет нам не беспокоится о длине текста. Также данная нейронная сеть подходит для анализа текста, так как может запоминать зависимости слов друг с другом на протяжении долгого времени и выявлять морфологические признаки [5, с 58]. Был использован язык программирования Python и Keras API библиотеки Tensorflow[6, с 47]. Процесс тренировки в машинном обучении делится на эпохи. На рисунке 2 проиллюстрировано изменения точности модели на текстах участвующих в процессе тренировки(Training Accuracy), и данных для проверки, которые не были видны для модели(Validation Accuracy). Точность рассчитывается путем деления верно предсказанных текстов на общее количество, и для нашей модели стала равна 97,52%. Также видно, что в процессе тренировки точность предсказания на основе данных для проверки падало, и было максимально равно 87,42%.  В тренировке были использовано 3 слоя:

  1. Embedding – для преобразования слов в векторы с выходным значением 256.
  2. LSTM – для принятия векторов со слоя Embedding, также со значением 256
  3. Dense – слой для возврата скалярного значения. В нашем случае была использована функция sigmoid, что выдает значения в диапазоне от 0 до 1.

 

Рисунок 2. Показатели точности на протяжении тренировки модели

 

Для получения подробных результатов точность(accuracy) не является достаточно достоверной метрикой. Для более подробных данных в машинном обучении, и не только, используются разные метрики основанной на результате матрицы ошибок, такие как: Recall, Precision и F1 Score. Матрица ошибок, в рамках нашей задачи, это матрица, содержащая в себе: верно предсказанные мошеннические тексты (True Positive), верно предсказанные легитимные тексты (True Negative), неверно угаданные мошеннические тексты (False Positive) и неверно угаданные легитимные тексты (False Negative). Искомый класс в данном эксперименте — это мошеннический текст сайта равный одному.

Recall, или полнота, в нашем случае делением количеством верно предсказанных мошеннических сайтов на сумму верно предсказанных мошеннических сайтов и неверно угаданных легитимных сайтов. Полнота указывается способность модели к обнаружению искомого класс

                            (2)

Precision, или точность (не путать с Accuracy), в нашей задаче рассчитывается путем деления верно предсказанных мошеннических текстов на сумму верно предсказанных мошеннических текстов и неверно предсказанных мошеннических текстов. Точность указывает способность модели предсказывать значение искомого класса отличая его от противоположного.

                        (3)

F1 Score, или F мера, является метрикой для объединения полноты и точности в среднее значение. Данная метрика помогает определить точность в модели к предсказанию поставленной задачи.

                                (4)

Значения метрик были собраны с помощью текстов, на которых модель не тренировалась. Результаты указаны в таблице 1

Таблица 1.

Оценка модели

Метрика

Accuracy

Precision

Recall

F1-Score

Значение

97,52%

87,88%

92,41%

90,09%

 

Результаты модели в способности определять мошеннические сайты показывают средние результаты. Для достоверности, что данный результат не с вязан с тем, что в наборе данных больше мошеннических сайтов, чем легитимных можно воспользоваться графиком ROC-кривой. Данный график позволяет посчитать площадь под кривой, которая определяет, насколько случайными были результаты предсказаний. На рисунке 3 изображена ROC-кривая для нашей модели, пунктирная линия обозначает значение площади под кривой равной 0,5. При этом предсказания модели означали бы, что модель делает свои предсказания случайно. Значение площади под кривой под нашей моделью показало результат в 0,88. Данный показатель не является идеальным, но с учетом несбалансированного набора данных допустимым.

 

Рисунок 3. ROC-кривая

 

Данным экспериментом было доказано, что мошеннические сайты возможно выявлять на основе текстовых данных. Однако, стоит отметить, что данный метод должен использоваться с другими описанными выше. Это связанно с тем, что мошенники могут полностью скопировать легитимный сайт, например, как форма входа в аккаунт социальной сети.

В ходе исследования, была отмечена трудность в поиске сайтов для набора данных. Исследователям и лабораториям необходима доступная база данных мошеннических сайтов, которая будет хранить в себе весь контент сайта включая его текст. Мошеннические сайты в подобных данных должны быть разделены на языки для подробного исследования в рамках одного языка. Также стоит учитывать, что киберпреступники будут адаптироваться к новым технологиям, и что подобные исследования должны проводиться как можно чаще.

 

Список литературы:

  1. Al‐Qahtani A. F., Cresci S. The COVID‐19 scamdemic: A survey of phishing attacks and their countermeasures during COVID‐19 //IET Information Security. – 2022. – Т. 16. – №. 5. – С. 324-345.
  2. Митюков Е.А., Затонский А.В. Модель обнаружения фишинговых атак на основе гибридного подхода для защиты автоматизированных систем управления производством //Вестник Южно-Уральского государственного университета. Серия: Компьютерные технологии, управление, радиоэлектроника. – 2020. – Т. 20. – №. 2. – С. 56-66.
  3. Vijayalakshmi M. et al. Web phishing detection techniques: a survey on the state‐of‐the‐art, taxonomy and future directions //Iet Networks. – 2020. – Т. 9. – №. 5. – С. 235-246.
  4. Kaur J., Buttar P. K. A systematic review on stopword removal algorithms //International Journal on Future Revolution in Computer Science & Communication Engineering. – 2018. – Т. 4. – №. 4. – С. 207-210.
  5. Немальцев А.С. Использование рекуррентных нейронных сетей для анализа необработанного многоязычного текста //Международный журнал гуманитарных и естественных наук. – 2020. – №. 6-2. – С. 55-59.
  6. Васяева Т.А., Мартыненко Т.В., Суббота Н.С. Прогнозирование финансовых временных рядов с помощью нейронных сетей с использованием библиотеки Keras в Python //Информатика и кибернетика. – 2019. – №. 2. – С. 41-50.