ИСПОЛЬЗОВАНИЕ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗА ОТТОКА В ТЕЛЕКОММУНИКАЦИОННОЙ ОТРАСЛИ
ИСПОЛЬЗОВАНИЕ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРОГНОЗА ОТТОКА В ТЕЛЕКОММУНИКАЦИОННОЙ ОТРАСЛИ
Тукенова Гульмира Сымбаткызы
магистрант, Международный университет информационных технологий,
Казахстан, г. Алматы
Молдагулова Айман Николаевна
канд. физ.-мат. наук, ассоциированный проф., Казахский национальный исследовательский технический университет имени К. И. Сатпаева,
Казахстан, г. Алматы
USING MACHINE LEARNING FOR CHURCH PREDICTION IN THE TELECOM INDUSTRY
Gulmira Tukenova
undergraduate, International University of Information Technologies,
Kazakhstan, Almaty
Aiman Moldagulova
candidate of phys.-math. sciences, associate Professor, Satbayev University,
Kazakhstan, Almaty
АННОТАЦИЯ
В этой статье описывается насколько эффективно подход глубокого обучения может быть использован для процесса прогнозирования оттока в телекоммуникационной отрасли с большей точностью и меньшим временем обработки. Наблюдается, что системы интеллектуального анализа данных постепенно преуспевают в прогнозировании оттока клиентов за предыдущие пару лет. Разработка мощной модели прогнозирования оттока является критически важной задачей, которая включает в себя множество исследований непосредственно от узнаваемого доказательства идеальных показателей, от огромного объема доступной информации о клиентах до выбора успешной системы интеллектуального анализа информации соответствующей списку возможностей.
ABSTRACT
This article describes how effectively a deep learning approach can be used for the churn forecasting process in the telecommunications industry with greater accuracy and less processing time. It is observed that data mining systems are gradually succeeding in predicting customer churn over the previous couple of years. Developing a powerful churn forecasting model is a critical task that involves a lot of research directly from recognizable proof of ideal performance, from the vast amount of customer information available to the selection of a successful information mining system that matches the list of possibilities.
Ключевые слова: прогнозирование оттока, интеллектуальный анализ данных, машинное обучение, большие данные, обработка данных.
Keywords: churn prediction, data mining, machine learning, big data, data processing.
Поскольку повседневная жизнь, по-видимому, все больше зависит от использования телекоммуникационных продуктов и услуг, ожидается, что в ближайшие годы мировой рынок телекоммуникаций будет расти феноменальными темпами. Глобальный рынок телекоммуникаций постоянно трансформируется благодаря постоянным инновациям и разработкам, происходящим последовательно и быстрыми темпами. Таким образом, для роста телекоммуникационного рынка лояльность клиента является ключевым фактором. На высоко конкурентном рынке операторы связи могут сохранить свои ценности, установив близость с абонентами, наряду с заранее установленными ожиданиями доверия, стимулирующего лояльность. Удержание существующих клиентов и привлечение новых клиентов - мощное оружие на современном рынке. Однако привлечение новых клиентов обходится дороже, чем удержание существующих. В телекоммуникационном секторе ежедневно генерируется огромный объем данных из-за обширной клиентской базы. Но в настоящее время в данной отрасли наблюдается большой отток клиентов. Это приводит к необходимости эксперта по предметной области для прогнозирования оттока клиентов, а также для выяснения основных причин отказа от услуг телекоммуникаций, что будет основой для работы по удержанию клиента.
Создание эффективной политики удержания является важной задачей для предотвращения оттока клиентов. Зная существенные факторы оттока из данных клиентов, можно повысить производительность, рекомендовать соответствующие рекламные акции группе потенциальных клиентов с оттоком на основе аналогичных моделей поведения и значительно улучшить маркетинговые кампании компании. Различные телекоммуникационные компании предлагают передовую тактику, чтобы на ранней стадии спрогнозировать отток клиентов. Традиционно для прогнозирования оттока клиентов применялись различные типы подходов к машинному обучению, такие как Decision Tree, Random Forest и т.д.
Телекоммуникационные отрасли собирают обширную информацию о клиентах, например, профилирование клиентов, список звонков, используемый трафик, активное время в сети и т.д. Принимая во внимание исторический фон клиентов есть возможность отличить уйдет ли клиент или нет. Была использована идея искусственного интеллекта для реализации ожиданий оттока средств массовой информации. В нижеописанной части кратко описана проделанная работа по прогнозированию оттока.
Сопутствующие работы
Рисунок 1. Стандартный процесс интеллектуального анализа данных
Многие подходы применялись для прогнозирования оттока в телекоммуникационных компаниях. В большинстве этих подходов используется машинное обучение и интеллектуальный анализ данных. Большая часть связанной работы была сосредоточена на применении только одного метода интеллектуального анализа данных для извлечения знаний, а другие были сосредоточены на сравнении нескольких стратегий для прогнозирования оттока. На рисунке 1 показан стандартный процесс интеллектуального анализа данных. Было установлено, что эти симуляции оказались успешными в положительном при прогнозировании оттока для телекоммуникационной модели сбора данных [1]. Для отбора дискриминационных элементов использовались методы наименьшего избытка и наиболее экстремальной уместности. Оборудование различных базовых классификаторов подключается в качестве индикаторной процедуры. Для убедительных прогнозов использовались Rotation Forest и KNN, в которых использовалась львиная доля голосов. Аналогичным образом было рассмотрено предсказание оттока для обслуживания клиентов с использованием подхода генетического расчета [2]. Для каждого класса были созданы различные проекты с использованием стратегии Adaboost. Эти проекты были использованы для прогнозирования с использованием более высокой доходности, исходя из взвешенной общей доходности проектов. Для проверки точности прогноза был использован метод перекрестного утверждения с 10 перекрытиями, и была найдена территория с показателем изгиба 0,89.
Гаврил и др. [3] представили передовую методологию интеллектуального анализа данных для прогнозирования оттока клиентов с предоплатой с использованием набора данных для сведений о звонках 3333 клиентов с 21 функцией и зависимого параметра оттока с двумя значениями: Да/Нет. Некоторые функции включают информацию о количестве входящих и исходящих сообщений и голосовой почты для каждого клиента. Автор применил алгоритм анализа главных компонент «PCA» для уменьшения размерности данных. Для прогнозирования коэффициента оттока использовались три алгоритма машинного обучения: нейронные сети, машина опорных векторов и байесовские сети. Автор использовал AUC для измерения производительности алгоритмов. Значения AUC составляли 99,10%, 99,55% и 99,70% для байесовских сетей, нейронных сетей и метода опорных векторов соответственно. Набор данных, использованный в этом исследовании, небольшой, и пропущенных значений не было.
Различные исследования изучали проблему несбалансированных наборов данных, когда классы ушедших клиентов меньше, чем классы активных клиентов, поскольку это серьезная проблема в проблеме прогнозирования оттока. Амин и др. [4] сравнили шесть различных методов выборки для избыточной выборки в отношении проблемы прогнозирования оттока клиентов в телекоммуникациях. Результаты показали, что алгоритмы (MTDF и генерация правил на основе генетических алгоритмов) превзошли другие сравниваемые алгоритмы передискретизации.
Хе и др. [5] предложили модель прогнозирования на основе алгоритма нейронной сети для решения проблемы оттока клиентов в крупной китайской телекоммуникационной компании, которая насчитывает около 5,23 млн клиентов. Стандартом точности предсказания был общий показатель точности, который достиг 91,1%.
Предлагаемая модель
Были использованы все методы в предложенной стратегии beat desire на языке программирования Python. В Python есть несколько встроенных библиотек для работы с данными, например, scikit-learn, pandas, numpy для различных задач интеллектуального анализа. Весь рабочий процесс был выполнен на IPython Notebook. Для создания значимых структур нейронного каркаса была использована библиотека Keros (открытая библиотека, обеспечивающая взаимодействие с искусственными нейронными сетями). Набор данных был получен из источника Kaggle – данные об оттоке клиентов Telco [11]. Были собраны 18 различных факторов о клиенте, такие как 1) Многолинейность, 2) Срок действия контракта с клиентом, 3) есть ли у клиента техническая поддержка и т.д. Набор данных разделен на обучающий и тестовый наборы. Набор готовых данных содержит группы оттока среди 7000 клиентов.
Подготовка набора данных
В наборе данных 216 клиентов, у которых отсутствуют данные более чем по семи факторам. Поэтому эти клиенты были исключены из набора данных. Кроме того, есть несколько клиентов, у которых отсутствовали данные по паре переменных. Использовалась стратегия опережающего заполнения, создавая в прошлом законный стимул к отсутствующему полю, к этим факторам. Из 18 индикаторных факторов было исключено свойство «регион клиентского администрирования», несущественное для ожидания. Оставшиеся переменные были в качестве вклада в предлагаемые модели глубокого обучения. В кратком изложении имеется 7000 клиентских записей, каждая из которых имеет 18 характеристику, из которых 1800 являются отточившимися (26%). Исходя из анализа данных:
- % Пенсионеров - только 16% клиентов являются пенсионерами. Таким образом, большинство наших клиентов в данных - молодые люди;
- Партнер - около 50% клиентов имеют партнера;
- Статус иждивенца - только 30% от общего числа клиентов имеют иждивенцев;
- Телефонная связь - около 90,3% клиентов имеют телефонную связь;
- Безбумажный биллинг - около 59,2% клиентов выставляют безбумажные счета;
- Клиенты, у которых нет Партнеров, с большей вероятностью уйдут;
- Клиенты без иждивенцев также с большей вероятностью уйдут;
- У клиентов с несколькими линиями процент оттока немного выше.
Построение модели
Следующим этапом после извлечения необходимых основных моментов из наборов данных является разработка отображения. Проблема прогнозирования демонстрируется как проблема группировки двух классов. Три системы для обоих наборов данных были подготовлены. Для утверждения выполнения этих классификаторов использовался стратифицированный 10-перекрывающийся обходов данных. Была выбрана подгонка стратифицированного хода, поскольку оба набора данных неравномерны, например, неравное количество сбрасывающих и не сбрасывающих. Стратегия стратифицированного перекрестного одобрения гарантирует, что уровень тестов для каждого класса является сравнительным по сгибам.
Заключение
В работе были предложены простые модели, основанные на правилах принятия решений, и сложные модели классификации для прогнозирования оттока. Хотя эти стратегии эффективны при выполнении задачи по прогнозированию оттока, они требуют ручной процедуры проектирования компонентов, которая утомительна и склонна к ошибкам. В момент, когда результат не получен в нужное время, мы не можем предпринять основные действия, чтобы воздержаться от взбалтывания, поэтому нам нужен еще более логичный ответ для воздержания от взбалтывания. В этой статье мы продемонстрировали пробное выполнение использования моделей глубокого обучения, чтобы отказаться от процедуры ручного проектирования элементов. Мы создали глубокие модели нейронной системы для задачи по оттоку клиентов. Исследования были направлены с использованием набора данных телекоммуникационной компании. Результаты наших испытаний показывают, что модели глубокого обучения работают так же в том же классе, что и обычные классификаторы, например, SVM и Random Forest.
Список литературы:
- Base Group Labs – технологии анализа данных. Статьи. [Электронный ресурс]. Режим доступа: https://basegroup.ru/community/articles/ (дата обращения: 15.03.2018).
- Максименко З.В., Хафизова Р.К., Янышева Э.Р. К вопросу о моделировании и прогнозировании оттока клиентов // Начало в науке: материалы IV Международной научнопрактической конференции школьников, студентов, магистрантов и аспирантов.Уфа: АЭТЕРНА, 2017. С. 134-136.
- Brandusoiu I, Toderean G, Ha B. Methods for churn prediction in the prepaid mobile telecommunications industry. In: International conference on communications. 2020. p. 97–100.
- Amin A, Anwar S, Adnan A, Nawaz M, Howard N, Qadir J, Hawalah A, Hussain A. Comparing oversampling techniques to handle the class imbalance problem: a customer churn prediction case study. IEEE Access. 2020; 4:7940–57.
- He Y, He Z, Zhang D. A study on prediction of customer churn in fixed communication network based on data mining. In: Sixth international conference on fuzzy systems and knowledge discovery, vol. 1. 2017. p. 92–4.
- “Applying Data Mining to Insurance Customer Churn Management”, RezaAllahyariSoeini and Keyvan 8. Han and Kamber. Data Mining: Concepts and Techniques. Second Morgan Kaufman Publisher, 2018.
- Пономарёв А.А. Варианты использования больших данных в телекоммуникационном бизнесе. – M: Компьютерные инструменты в образовании. 2016г. – №4: 3-8с.
- N. Adnan A., Changez K., Imtiaz A., Sajid A. Customer Churn Prediction in Telecommunication Industry, - Pakistan: With and without Counter-Example. Institute of Management Sciences: – 2019. – 214-216c.
- Ahn J., Han S., Lee Y. Customer churn analysis: Churn determinants and mediation effects of partial defection in the Korean mobile telecommunications service industry, Science direct. //Telecommunications Policy. 2018. № 30 (10-11).
- “Predicting Customer Churn in Mobile Telephony Industry Using Robabilistic Classifiers in Data Mining”,Clement Kirui1, Li Hong, Wilson Cheruiyot and Hillary Kirui.
- Telco Customer Churn – https://www.kaggle.com/datasets/blastchar/telco-customerchurn?resource=download.