Анализ подробных записей о телефонных вызовах с помощью теории графов: обзор литературы
АНАЛИЗ ПОДРОБНЫХ ЗАПИСЕЙ О ТЕЛЕФОННЫХ ВЫЗОВАХ С ПОМОЩЬЮ ТЕОРИИ ГРАФОВ: ОБЗОР ЛИТЕРАТУРЫ
Кашимова Индира Молдахан-кызы
студент магистратуры, Евразийский национальный университет имени Л.Н. Гумилева,
Казахстан, г. Нур-Султан
АННОТАЦИЯ
Сотовые телефоны - это мощные инструменты для связи людей. Потоки записей о вызовах (call detail records, CDR), генерируемые этими устройствами, обеспечивают мощную абстракцию социальных взаимодействий между людьми, представляющими социальные структуры. Графы вызовов можно вывести из этих CDR, где узлы представляют абонентов и края представляют телефонные звонки. Эти графы могут легко достигать миллионов узлов и миллиардов граней. Помимо того, что они масштабны и генерируются в режиме реального времени, лежащие в их основе социальные сети по своей природе сложны и, следовательно, трудны для анализа (Sarmento, 2016). В этой статье представлен обзор существующих публикаций по теме анализа CDR с помощью теории графов.
ABSTRACT
Mobile phones are prevailing communication tools used by people. Streams of call detail records (CDR) generated by these devices result in powerful abstractions of social interactions between people. In fact, CDRs can be represented as a graph where nodes are subscribers and edges are phone calls, aggregated or otherwise. Those enormous graphs can easily have millions of nodes and billions of edges. Additionally, the graphs are large-scale and generated in real-time, sophisticated in their nature and hence difficult to analyze. In this article a survey of previous selected publications is presented.
Ключевые слова: телефония, подробные записи о звонках, call detail records, CDR, графы, теория графов.
В (Kamola, 2011) авторы представили анализ 133 миллионов записей CDR, которые были сгенерированы 316 тысячами клиентов. Для дальнейшего анализа записи были помещены в реляционную БД. Фильтрация записей осуществлялась по следующим признакам: а) по количеству звонков с номера б) по признаку юридического лица. Корректность подхода фильтрации была верифицирована с помощью построения гистограммы количества звонков (рис 1). CDR используются для построения графа социальной сети клиентов телекоммуникационного оператора. При построении графа используется партнерская сеть, данные CDR частично остаются анонимными. Для доказательства корректности алгоритма построения графа исследуется ряд результирующих свойств сети. Проанализированы клиенты сети и динамика сети, даны предложения по возможному использованию полученной информации в работе оператора связи.
Поведение человека в путешествии (activity-travel behaviour, ATB) представляет собой сложную схему путей и видов деятельности в пространстве и времени. Исследования показывают, что ATB - это построение ежедневных привычных, еженедельных, ежемесячных и сезонных маршрутов в сочетании с сильным разнообразием поведения, направленного на поиск. Обычно за основу берутся повседневные привычные маршруты, однако для специалистов по транспортному планированию требуется больше знаний о продольных тенденциях развития человеческой АТБ. Эмпирические данные о долгосрочной перспективе трудно получить, в то время как подробные записи звонков с мобильных телефонов могут быть одним из способов сокращения этого исследовательского пробела. Применяя этот метод, в (Järv, 2015) предпринимается попытка дать новое представление об индивидуальном ежемесячном поведении в пространственных перемещениях. Используя записи звонков, полученные от набора анонимных пользователей мобильных телефонов, авторы исследовали места их активности и пространства активности в течение 12 месяцев подряд. Авторы обнаружили небольшие ежемесячные вариации в количестве мест активности, в то время как размеры отдельных пространств активности сильно варьировались. Ежемесячная вариация индивидуального пространственного поведения объясняется до 17% сезонностью, хотя вариация в основном объясняется индивидуальными факторами, а результаты указывают на значительную внутриличностную месячную вариабельность. Полученные результаты указывают на новые возможности для дальнейшей работы над ATB с продольной точки зрения.
В (Modani, 2008) исследуют вариант задачи максимального перечисления кликов, включив критерий минимального размера. Авторы описывают методы препроцессирования для уменьшения размера графа. Это представляет практический интерес, так как перечисление максимальных кликов является вычислительно сложной задачей, а время выполнения быстро увеличивается с увеличением входного размера. В статье обсуждаются основы алгоритма перечисления больших максимальных кликов, использующего ограничение на минимальный размер желаемых максимальных кликов. Социальные сети являются яркими примерами больших разреженных графов, где перечисление больших максимальных кликов представляет интерес. Представлены экспериментальные результаты в социальной сети, образованные записями звонков одного из крупнейших в мире операторов телекоммуникационных услуг. Наши результаты показывают, что методы препроцессинга позволяют существенно уменьшить размер графа. В статье также описаны подробности алгоритма перебора больших максимальных кликов.
В (Nanavati, 2006) авторы используют графы вызовов оператора мобильной связи из четырех географически несопоставимых регионов для построения графов вызовов и анализа их структурных свойств. Результаты дают представление о бизнесе и помогают разрабатывать стратегии для операторов мобильной связи. Еще одной целью данной работы является определение формы таких графов. Для этого авторы расширяют известный подход к анализу достижимости с помощью некоторых их собственных методик для выявления формы таких массивных графов. На основе анализа авторы вводят модель Treasure-Hunt для описания формы графов мобильных звонков. Предлагаемые методики достаточно общие для анализа любого крупного графа.
В (Dierkes, 2015) авторы предсказывают с помощью записей телефонных разговоров влияние поведения одного клиента на решения другого клиента. Авторы изучают это в контексте оттока (решение оставить поставщика услуг связи) и перекрестной покупки решений, основанных на анонимизированном наборе данных у телекоммуникационного провайдера. Записи о вызовах представлены в виде взвешенного графа, а для разработки прогностической модели используется новая методика статистического обучения - логические сети Маркова - в сочетании с логит-моделями, основанными на переменных запаздывающих соседей. Кроме того, авторы предлагают подход к пропозиционированию, адаптированный к прогнозному моделированию с использованием данных социальных сетей. Полученные результаты показывают, что информация об оттоке сетевых соседей оказывает существенное положительное влияние на точность прогнозирования и, в частности, на чувствительность оттоковочных (churn) моделей. Полученные результаты свидетельствуют о том, что информация из уст в уста оказывает значительное влияние на решения клиентов о отторгове (churn), а также на решения о покупке, что приводит к увеличению чувствительности прогнозных моделей на 19.5% и 8.4%.
Одной из основных проблем с данными мобильных телефонов является их скупость и низкая точность позиционирования. В (OSMANI, 2020) авторы проанализировали различные источники ошибок позиционирования мобильных телефонов и удалили шумы для последующего анализа. Затем авторы получили данные о местоположении пользователей и использовали их в качестве индикатора населения в различных пространственных областях и временных интервалах. Авторы также использовали эти данные для создания графов мобильности для каждого пользователя.
В (Nanavati, 2015) авторы определяют структурные свойства графов звонков, а также вводят модель Treasure-Hunt для описания формы графов звонков мобильных телефонов. Кроме того, авторы определяют, как структура этих графов вызовов меняется с течением времени. Наконец, поскольку служба коротких сообщений (SMS) становится предпочтительным способом коммуникации между многими слоями общества, авторы изучают свойства графа SMS. Наш анализ указывает на несколько интересных сходств и различий между графом SMS и соответствующим графом звонков. Авторы считают, что наши методы анализа могут позволить операторам связи лучше понять социальное поведение своих клиентов и потенциально дать основные идеи для разработки эффективных стимулов.
Социальные отношения, определяемые телефонными звонками между людьми, могут быть сгруппированы в различные типы отношений или категории, такие как члены семьи, коллеги по работе и т.д. В (Janakiraman, 2012) авторы предлагают и оценивают метод, который предсказывает "тип отношений" между парой абонентов мобильной связи, используя особенности, которые абстрагируют их коммуникационное поведение и модели социальных сетей. Наш набор данных состоит из записей о звонках крупного оператора беспроводной связи, отобранных из четырех демографически различных регионов, из которых авторы построили направленный социальный граф, имеющий более 200 000 вершин и 400 000 ребер. Используя информацию об учетной записи и плане подписки, авторы обозначили каждый край на графе как одно из следующих четырех отношений: семья, коллега, клиент и обслуживание (сервис). Анализ набора данных показывает, что эти четыре типа отношений демонстрируют различные модели коммуникационного поведения и генерируют характерные топологические особенности в социальной сети, окружающей пары. Например, абонентские пары с семейными отношениями генерируют большое среднее количество звонков, имеют низкую длительность звонка, звонят чаще и имеют больше общих контактов, чем пары с отношениями обслуживания или коллеги. Используя набор характеристик, абстрагирующих эти характеристики, и классификатор обучения машин под Random Forest с учителем, авторы демонстрируют, что можно предсказать тип отношений между парами абонентов с точностью до 87%.
Графы реального мира, такие как графы вызовов, графы электронной почты, имеют временную природу, в которой края между узлами существуют только в течение ограниченного промежутка времени. Темпоральный анализ может привести к новым открытиям, таким как законы сгущения и усадки диаметров. В (Gurukar, 2014) авторы проанализировали временные свойства, такие как диаметр, коэффициент кластеризации, количество вызовов и другие свойства Call Detail Records более 1 миллиарда вызовов. Для анализа данных авторы использовали скользящие окна в различных временных шкалах, таких как дневные и ночные окна, окна выходные дни и т.д. Авторы также проанализировали количество уникальных вызовов по отношению к дням недели, что приводит к довольно удивительному выводу о том, что ни один день недели не доминирует над другими днями с точки зрения наибольшего количества уникальных вызовов.
Для поиска сообществ в динамичных сетях социальных взаимодействий, для обнаружения в режиме он-лайн временные точек прерывания в (Sun, 2007) предлагают использовать GraphScope, который решает обе проблемы, используя принципы информационной теоретики. В отличие от большинства более ранних методов, он не нуждается в пользовательских параметрах. Более того, он предназначен для работы с большими графами, в потоковом режиме. Авторы демонстрируют эффективность и действенность GraphScope на реальных наборах данных из нескольких различных областей. Во всех случаях он генерирует значимые, изменяющиеся во времени шаблоны, которые интуитивно понятны.
В (Sarmento, 2016) указывается, что традиционный анализ данных, выполняемый операторами связи, выполняется медленно, по запросу и влечет за собой большие затраты в хранилищах данных. Перед лицом этих проблем потоковый анализ в режиме реального времени становится все более востребованным для операторов мобильной связи, так как позволяет им быстро обнаруживать важные события в сети и оптимизировать бизнес-процессы. Отбор проб вместе с методами визуализации необходим для онлайн-анализа данных и обнаружения событий в таких сетях. В (Sarmento, 2016) авторы рассказывают о растущем объеме исследований в области выборки сетей, визуализации потоковых социальных сетей, потокового анализа и предлагаемых на сегодняшний день решений.
В (Kiss, 2006) авторы сравнивают различные показатели централитета, основанные на различных топологиях сети и модельных допущениях в контексте влияния лиц в графе вызовов, а также в контексте вирусного маркетинга.
Существуют специализированные платформы для удовлетворения уникальных требований к обработке крупномасштабных аналитических графов; однако эти платформы не позволяют комбинировать аналитику графов с другими методами анализа и не работают хорошо с обширной экосистемой бизнес-приложений, основанных на SQL. В (Simmen, 2015) авторы описывают систему Teradata Aster 6.0, которая добавляет в свой набор аналитических возможностей поддержку крупномасштабной аналитики графов. Решение расширяет мощную архитектуру обработки с поддержкой группового синхронного параллельного выполнения и специализированным графовым движком, позволяющим выполнять итеративный анализ графовых структур. Функции анализа графов, написанные в вершинно-ориентированном API, могут быть вызваны из контекста SQL-запроса и скомпонованы с существующими функциями SQL-MR, что позволяет специалистам по обработке данных и бизнес-приложениям выражать вычисления, сочетающие в себе крупномасштабную аналитику графов с методиками, лучше подходящими для другого стиля обработки. Решение включает в себя набор предварительно построенных графовых аналитических функций, адаптированных для параллельного выполнения.
В (Geepalla, 2019) авторы предлагают новую модель, чтобы увидеть, как графы технологии могут быть использованы для анализа CDR в целях поиска потенциальных преступников. Авторы сталкиваются со сложной задачей автоматического получения значимой информации из имеющихся данных, с использованием неконтролируемой процедуры анализа данных и без включения в модель любые априорные знания о прикладном контексте. Результаты интеллектуального анализа данных используются для понимания поведения пользователей, составления их характеризующих профилей и аномальных ситуаций).
В последние годы с развитием современных технологий и глобальной коммуникации мошенничество стремительно растет. Несмотря на то, что многие литературные произведения решают проблему обнаружения мошенничества, эти существующие работы сосредоточены только на формулировании проблемы обнаружения мошенничества как проблемы двоичной классификации. Из-за ограниченности информации, предоставляемой телекоммуникационными записями, такие классификационные подходы к обнаружению мошеннических телефонных звонков, как правило, работают не очень хорошо. В (Tseng, 2015) авторы разрабатывают графовую основу обнаружения мошеннических телефонных звонков для мобильного приложения с целью автоматической аннотации мошеннических телефонных номеров меткой "мошенник", что является важной предпосылкой для разграничения мошеннических телефонных звонков от обычных телефонных вызовов. Подход к обнаружению выполняет взвешенный алгоритм HITS для изучения ценности доверия удаленного телефонного номера. На основе телекоммуникационных записей авторы строят два вида направленного бипартитового графа: i) CPG и ii) UPG для представления телекоммуникационного поведения пользователей. Для взвешивания краев CPG и UPG, авторы извлекают функции для каждой пары пользователей и удаленного телефонного номера в двух различных, но взаимодополняющих аспектах: 1) связанность продолжительности (DR) между пользователем и номером телефона; и 2) частотная связанность (FR) между пользователем и номером телефона. После взвешивания CPG и UPG, авторы определяют доверительное значение для каждого удаленного телефонного номера. Наконец, авторы проводят комплексное экспериментальное исследование на основе набора данных, собранных с помощью мобильного приложения для борьбы с мошенничеством Whoscall. Результаты демонстрируют эффективность взвешенного подхода на основе HITS и показывают силу учета как DR, так и FR при извлечении признаков.
В (Seshadri, 2008) авторы анализируют огромную социальную сеть, собранную из записей крупного оператора мобильной связи, с более чем миллионом пользователей и десятками миллионов звонков. Авторы исследуют распределения количества телефонных звонков на одного клиента; общее количество минут разговора на одного клиента; и различное количество звонящих партнеров на одного клиента. Авторы находят, что эти распределения искажены, и что они значительно отклоняются от того, что можно было бы ожидать от степенного закона и от логнормальных распределений. Для анализа наблюдаемых распределений (количество звонков, отдельные партнеры по звонкам и общее время разговора) авторы предлагают метод PowerTrack, который подходит к менее известному, но более подходящему распределению, а именно распределению Double Pareto LogNormal (DPLN), к данным и отслеживанию его параметров во времени. Используя PowerTrack, авторы находят, что наш граф изменяется во времени в соответствии с генеративным процессом, который естественным образом приводит к DPLN распределениям, наблюдаемым в работе. Кроме того, авторы показывают, что этот генеративный процесс поддается естественной и привлекательной интерпретации социального богатства в контексте таких социальных сетей, как граф CDR. Авторы обсуждают применение этих результатов к описываемой модели и прогнозированию.
В (Zignani, 2014) авторы проводят первое исследование мультиплексной мобильной социальной сети, собранное на основе записей о деятельности миллионов пользователей крупного оператора мобильной связи как по звонкам, так и по отправке текстовых сообщений в течение 12 недель. В то время как социальные сети, построенные на основе наборов данных мобильных телефонов, привлекли большое внимание в последние годы, до сих пор исследования рассматривали текстовые сообщения и данные о звонках по отдельности, предоставляя очень частичное представление о социальной активности людей, выраженной по телефону. Здесь авторы анализируют, как перекрываются размеры звонков и текстовых сообщений, показывая, сколько информации о ссылках и узлах может быть потеряно только с учетом одного слоя, и как пользователи используют различные медиа-каналы для взаимодействия со своим соседом.
В последние годы все большее внимание уделяется крупномасштабной обработке графов, причем в большинстве современных систем особое внимание уделяется латентности. Одним из возможных методов повышения производительности в распределенной системе обработки графов является уменьшение сетевой связи. Наиболее заметным способом достижения этой цели является разделение графа за счет минимизации количества ребер, соединяющих вершины, назначенные различным машинам, при сохранении равновесия нагрузки, применяемом в (Vaquero, 2014). Тем не менее, реальные графы очень динамичны, при этом вершины и края постоянно добавляются и удаляются. Тщательное обновление разбиения графа на разделы для отражения этих изменений необходимо для того, чтобы избежать введения большого количества обрезанных ребер, что постепенно ухудшит вычислительную производительность. В (Vaquero, 2014) Авторы показывают, что снижения производительности в системах динамической обработки графов можно избежать за счет непрерывной адаптации графовых разделов по мере изменения графа. Авторы представляют новую высокомасштабируемую адаптивную стратегию разбиения, а также показывают ряд усовершенствований, которые заставляют ее работать в условиях ограничений крупномасштабной распределенной системы. Стратегия разметки основана на итеративных вершинных миграциях, полагаясь только на локальную информацию. Авторы реализовали данную технику в системе обработки графов через три реальных сценария, как адаптивное разбиение графов сокращает время выполнения более чем на 50% по сравнению с обычно используемым хэш-разметкой.
В (Blondel, 2015) решается задача от оператора сотовой связи Orange "Данные для развития" (D4D), которая представляет собой открытый вызов данных об анонимных вызовах пользователей мобильных телефонов Orange в Берегу Слоновой Кости. Цель вызова - помочь решить вопросы развития общества новыми способами, внося свой вклад в социально-экономическое развитие и благосостояние населения Берега Слоновой Кости. Участникам вызова предоставляется доступ к четырем наборам данных мобильных телефонов, и целью данной работы является описание этих четырех наборов данных. Веб-сайт этого Orange содержит более подробную информацию о правилах участия. Наборы данных основаны на анонимизированных CDR и SMS-сообщений между пятью миллионами клиентов Orange в Берегу Слоновой Кости в период с 1 декабря 2011 года по 28 апреля 2012 года. Наборы данных: (a) почасовой трафик между антеннами, (b) индивидуальные траектории для 50 000 клиентов на двухнедельные временные окна с информацией о местоположении антенн, (Modani, 2008) индивидуальные траектории для 500 000 клиентов на протяжении всего периода наблюдения с информацией о местоположении в субпрефектурах и (Nanavati, 2006) образец графов связи для 5000 клиентов.
Гомофилия относится к феномену, когда социально связанные люди обладают многими характеристиками, в том числе демографическими и поведенческими свойствами. В (Wang, 2013) авторы выясняют, существует ли гомофилия в телефонных сетях, и если да, то в какой степени авторы могут сделать вывод о демографических свойствах пользователя мобильного телефона, зная демографическую информацию людей, с которыми он общается. Авторы фокусируются на трех типах демографической информации: а) местонахождение дома, б) возрастная группа и в) уровень дохода. Новизна состоит из двух частей. Во-первых, авторы используют как метрики коммуникации, так и структурные свойства графов звонков, чтобы выявить тех "важных" друзей для каждого пользователя, с которыми (s)он, скорее всего, будет общаться гомофильно. Во-вторых, авторы оценивают важность различных временных отрезков, таких как будние дни или ночи и выходные дни, для фиксации различных пользовательских отношений. Авторы проводят исследование по реальному отслеживанию данных с 20 миллионами абонентами в течение одного месяца от общенационального сотового оператора. Наш первый вклад заключается в том, что авторы количественно определяют степень гомофильности на графе звонков и выявляют корреляции между гомофильностью и связью и структурными особенностями. В качестве второго вклада авторы разрабатывают эффективные методы вывода демографической информации для сотового пользователя с помощью линейной регрессии для выбора наиболее гомофильного друга. Авторы находят, возможность прогноза местоположения дома в радиусе 20 км с точностью 80%, а также возрастную группу и уровень дохода с точностью 78% и 72%, соответственно.
В (Fixman, 2016) авторы исследуют социально-экономические корреляции, присутствующие среди пользователей мобильной телефонной сети в Мексике. Во-первых, авторы находят, что распределение доходов для подгруппы пользователей - для которой авторы располагают информацией о доходах, предоставляемой крупным банком в Мексике - тесно отслеживает, но не точно, распределение доходов для всего населения Мексики. Авторы также показывают наличие сильной социально-экономической гомофилии в мобильной телефонной сети, где пользователи, подключенные к этой сети, с большей вероятностью будут иметь аналогичный доход. Основной вклад этой работы заключается в том, что авторы используют эту гомофилию для того, чтобы предложить методологию, основанную на байесовской статистике, с целью сделать вывод о социально-экономическом положении большого подмножества пользователей сети (для которых авторы не располагают банковской информацией). С помощью предложенного нами алгоритма авторы достигают точности 71% в двухклассовой проблеме классификации (низкие и высокие доходы), что значительно превосходит более простой метод, основанный на частотном подходе. Наконец, авторы расширяют проблему двухклассовой классификации на несколько классов, используя распределение Дирихле.
Проблема анализа потоков массивных графов в реальном времени нарастает вместе с размером потоков. Для анализа этих потоков в реальном времени используются методы выборки. Однако трудно ответить на такие вопросы, как, какие структуры хорошо сохраняются методами выборки на протяжении эволюции потоков? Какие методы отбора проб дают правильные оценки для направленных и взвешенных графов? Какие методы имеют наименьшую временную сложность и т.д.? В (Tabassum, 2016) авторы ответили на вышеперечисленные вопросы, сравнив и проанализировав эволюционные выборки таких графов. Авторы оценили методы последовательной выборки, сравнив структурные метрики своих выборок, они также представили предвзятый вариант выборки коллектора, который показывает лучшие сравнительные результаты по нашему сценарию. Проведены строгие эксперименты над массивным потоком из 3 сотен миллионов звонков, сделанных 11 миллионами анонимных абонентов за 31 день. авторы оценили узловые и краевые методы выборки, сравнили выборки, сгенерированные с помощью последовательных алгоритмов, таких как алгоритм экономии места для нахождения элементов TopK, выборка резервуаров, а также смещенный вариант выборки резервуаров. Общие результаты и наблюдения показывают, что краевой метод выборки хорошо работает в нашем сценарии. Авторы также сравнили распределение степеней вершин и смещений эволюционных образцов.
В (Ye, 2009) авторы используют эгоцентрическую социальную сеть для изучения того, как люди управляют личным и групповым общением во времени. Одна из целей работы заключается в отслеживании изменений в крупномасштабных мобильных сетях и изучении процессов эволюции клиентских эгоцентрических сетей. Определив несколько статистических показателей, авторы могут исследовать тенденции эволюции эгоцентрических сетей и их коммуникационные модели. В работе исследованы несколько временных графов реальных мобильных звонков и найден интересный феномен в этих временных сетях, который заключается в том, что эгоцентрические сети соседних вершин имеют тенденцию ассиметричной эволюции. Используя визуальный подход к анализу, авторы отслеживают изменения в клиентских эгоцентрических сетях и визуально исследуют некоторые высококоррелированные клиентские эгоцентрические сети. Обнаружены несколько интересных коммуникационных моделей, визуализируя эгоцентрические сети, что может дать больше подсказок о тенденциях коммуникации клиентов в их эгоцентрических сетях.
В (Kurucz, 2007) дается оценка различных эвристик для иерархической спектральной кластеризации на больших графах телефонных звонков. Спектральная кластеризация без дополнительной эвристики часто приводит к очень неравномерным размерам кластеров или кластерам низкого качества, которые могут состоять из нескольких разъединенных компонентов, что, как представляется, является общим для нескольких источников данных. Divide-and-Merge, процедура постфильтрации, может быть использована для устранения ветвей плохого качества в иерархии двоичных деревьев. Авторы предлагают альтернативное решение, которое позволяет построить k-образные разрезы на каждом этапе путем немедленной фильтрации несбалансированных или низкокачественных кластеров перед их дальнейшим разделением. Эксперименты проводятся на графах с различным весом и нормализацией, построенных на основе CDR. Авторы исследуют период в восемь месяцев более двух миллионов пользователей венгерских стационарных телефонов. Измеряется качество кластеризации, как по отношению к кластерам, так и по географической однородности кластеров, полученной из данных о местоположении телефонов. Несмотря на то, что метод "разделяй и властвуй" оптимизирует свои кластеры по отношению к кластерам, метод, описанный в работе, производит кластеры с похожим соотношением намного быстрее. Кроме того, авторы дают географически гораздо более однородные кластеры с распределением размеров кластеров, напоминающим структуру поселений.
SPam через Интернет-телефонию является основной проблемой в системах VoIP (Voice over Internet Protocol), где большое количество автоматических незапрашиваемых звонков совершается пользователям VoIP. Экономия связи, которую приносит VoIP, является выгодным предложением для спамеров. В (Swarnkar, 2015) авторы описывают метод обнаружения спамеров в VoIP путем выявления аномалий в CallGraph. Этот направленный, взвешенный граф генерируется на основе CDR, где для получения весов по краям используется набор дифференцирующих параметров звонка. Авторы определяют аномалии на графе, рассматривая местную окрестность рассматриваемого узла, и присваивают метку, исходя из того, насколько подобен узел по сравнению со своими соседями. Авторы экспериментируют с большой смоделированной пользовательской базой и показывают, что предложенный метод может обнаружить спам-звонки.
Применение аналитики социальных сетей для прогнозирования оттока абонентов телеком оператора стало незаменимым в течение почти десяти лет. Однако, присутствуют определенные трудности с анализом таких графов. Во-первых, в целом сетевая характеристика является очень громоздким процессом из-за сложного характера сетей и отсутствия соответствующей методологии. Это приводит к разовым подходам и особенностям ручной работы. Во-вторых, выведение определенных структурных особенностей на очень больших графах является дорогостоящим с вычислительной точки зрения и, как следствие, часто игнорируется. В-третьих, к телефонным сетям в основном относятся как к статическим, несмотря на присущую им динамическую природу. В (Mitrović, Lemahieu W.) авторы предлагают использовать алгоритм tcc2vec, паноптический подход, направленный на разработку обучения репрезентации (для решения первой проблемы) на обогащенных колл-сетях, которые интегрируют взаимодействие и структурную информацию (для преодоления второй проблемы), которые нарезаются в разные периоды времени, чтобы учесть различные временные гранулометрические особенности (отсюда и решение третьей проблемы). В обширном экспериментальном анализе дается представление об оптимальном выборе взаимодействия и временных гранулометрических параметров, а также параметров обучения репрезентации.
Список литературы:
- Kamola M., Niewiadomska-Szynkiewicz E. and Piech B.C. Reconstruction of a social network graph from incomplete call detail records. // In 2011 International Conference on Computational Aspects of Social Networks, 2011, CASoN, 2011, pp. 136-140. IEEE.
- Järv O., Ahas R. and Witlox F. Understanding monthly variability in human activity spaces: A twelve-month study using mobile phone call detail records. // Transportation Research Part C: Emerging Technologies, 2015, pp.122-135.
- Modani N. and Dey K. Large maximal cliques enumeration in sparse graphs. // In Proceedings of the 17th ACM conference on Information and knowledge management, 2008, pp. 1377-1378.
- Nanavati A.A., Gurumurthy S., Das G., Chakraborty D., Dasgupta K., Mukherjea S. and Joshi A. On the structural properties of massive telecom call graphs: findings and implications. // In Proceedings of the 15th ACM international conference on Information and knowledge management, 2006, pp. 435-444.
- Dierkes T., Bichler M. and Krishnan R. Estimating the effect of word of mouth on churn and cross-buying in the mobile phone market with Markov logic networks. // Decision Support Systems, 2015, pp.361-371.
- OSMANI N. Graph Pattern-based Analysis of Call Detail Records Data for Dynamic Population Estimation. // PhD Thesis, 2020, p.20
- Nanavati A.A., Singh R., Chakraborty D., Dasgupta K., Mukherjea S., Das G., Gurumurthy S. and Joshi A. Analyzing the structure and evolution of massive telecom graphs. // IEEE Transactions on Knowledge and Data Engineering, 2015, pp.703-718.
- Janakiraman K. and Motahari S. How are you related? Predicting the type of a social relationship using call graph data. // In 2012 International Conference on Privacy, Security, Risk and Trust and 2012 International Confernece on Social Computing, 2012, pp. 111-116. IEEE.
- Gurukar S. and Ravindran B. Temporal analysis of telecom call graphs. // In 2014 Sixth International Conference on Communication Systems and Networks, 2014, COMSNETS, 2014, pp. 1-6. IEEE.
- Sun J., Faloutsos C., Papadimitriou S. and Yu P.S. Graphscope: parameter-free mining of large time-evolving graphs. // In Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, 2007, pp. 687-696.
- Sarmento R., Oliveira M., Cordeiro M., Tabassum S. and Gama J. Social network analysis in streaming call graphs. // In Big Data Analysis: New algorithms for a new society, Springer, Cham, 2016, pp. 239-261.
- Kiss C., Scholz A. and Bichler M. Evaluating centrality measures in large call graphs. // In The 8th IEEE International Conference on E-Commerce Technology and The 3rd IEEE International Conference on Enterprise Computing, E-Commerce, and E-Services, 2006, CEC/EEE'06, 2006, pp. 8-8. IEEE.
- Simmen D., Schnaitter K., Davis J., He Y., Lohariwala S., Mysore A., Shenoi V., Tan M. and Xiao Y. Large-scale graph analytics in aster 6: bringing context to big data discovery. // Proceedings of the VLDB Endowment, 2015, pp.1405-1416.
- Geepalla 2nd E. Analysis CDR for Crime Investigation using graph-based method, 2019, Neo4j. // In International Conference on Technical Sciences, 2019, ICST2019, 2019, Vol. 4 p. 06.
- Tseng V.S., Ying J.C., Huang C.W., Kao Y. and Chen K.T. Fraudetector: A graph-mining-based framework for fraudulent phone call detection. // In Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015, pp. 2157-2166.
- Seshadri M., Machiraju S., Sridharan A., Bolot J., Faloutsos C. and Leskove J. Mobile call graphs: beyond power-law and lognormal distributions. // In Proceedings of the 14th ACM SIGKDD international conference on Knowledge discovery and data mining, 2008, pp. 596-604.
- Zignani M., Quadri C., Bernardinello S., Gaito S. and Rossi G.P. Calling and texting: social interactions in a multidimensional telecom graph. // In 2014 Tenth International Conference on Signal-Image Technology and Internet-Based Systems, 2014, pp. 408-415. IEEE.
- Vaquero L.M., Cuadrado F., Logothetis D. and Martella C. Adaptive partitioning for large-scale dynamic graphs. // In 2014 IEEE 34th international conference on distributed computing systems, 2014, pp. 144-153. IEEE.
- Blondel V.D., Esch M., Chan C., Clérot F., Deville P., Huens E., Morlot F., Smoreda Z. and Ziemlicki C. Data for development: the d4d challenge on mobile phone data. // arXiv preprint arXiv:1210.0137., 2015, pp. 1
- Wang Y., Zang H. and Faloutsos M. Inferring cellular user demographic information using homophily on call graphs. // In 2013 Proceedings IEEE INFOCOM, 2013, pp. 3363-3368. IEEE.
- Fixman M., Berenstein A., Brea J., Minnoni M. and Sarraute C. Inference of Socioeconomic Status in a Communication Graph. // In Simposio Argentino de GRANdes DAtos, 2016, AGRANDA 2016-JAIIO 45, 2016, Tres de Febrero.
- Tabassum S. and Gama J. Sampling massive streaming call graphs. // In Proceedings of the 31st annual ACM symposium on applied computing, 2016, pp. 923-928.
- Ye Q., Wu B., Hu D. and Wang B. Exploring temporal egocentric networks in mobile call graphs. // In 2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery, 2009, Vol. 2 pp. 413-417. IEEE.
- Kurucz M., Benczúr A., Csalogány K. and Lukács L. Spectral clustering in telephone call graphs. // In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 workshop on Web mining and social network analysis, 2007, pp. 82-91.
- Swarnkar M. and Hubballi N. SpamDetector: Detecting spam callers in Voice over Internet Protocol with graph anomalies. // Security and Privacy, 2015, p.e54.
- Mitrović S., Baesens B., Lemahieu W. and De Weerdt J. tcc2vec: RFM-informed representation learning on call graphs for churn prediction. // Information Sciences.