АНАЛИЗ МОДЕЛЕЙ ОБНАРУЖЕНИЯ ОБЪЕКТОВ YOLOV8

Опубликовано в журнале: Научный журнал «Интернаука» № 18(288)
Рубрика журнала: 3. Информационные технологии
DOI статьи: 10.32743/26870142.2023.18.288.357566
Библиографическое описание
Абдилдаев М.М., Сапакова С.З. АНАЛИЗ МОДЕЛЕЙ ОБНАРУЖЕНИЯ ОБЪЕКТОВ YOLOV8 // Интернаука: электрон. научн. журн. 2023. № 18(288). URL: https://internauka.org/journal/science/internauka/288 (дата обращения: 26.12.2024). DOI:10.32743/26870142.2023.18.288.357566

АНАЛИЗ МОДЕЛЕЙ ОБНАРУЖЕНИЯ ОБЪЕКТОВ YOLOV8

Абдилдаев Миржан Мирасбекулы

магистрант, Международный Университет Информационных Технологий,

Казахстан, г. Алматы

Сапакова Сая Заманбековна

научный руководитель, канд. физ.-мат. наук, ассоциированный проф., Международный Университет Информационных Технологий,

Казахстан, г. Алматы

 

 

ANALYSIS OF YOLOV8 OBJECT DETECTION MODELS

 

YOLOV8 НЫСАНДАРЫН АНЫҚТАУ МОДЕЛЬДЕРІН ТАЛДАУ

 

АННОТАЦИЯ

В статье анализируются модели обнаружения объектов YOLOv8. На основе сравнения моделей YOLOv8n (Nano) и YOLOv8s (Small) описывается процесс тренировок моделей и проводится сравнение полученных результатов. Особенность заключается также в объектах, находящихся на исходных изображениях, на которых тренируются модели обнаружения. В качестве объекта для обнаружения используются фрагменты огня и пожаров, которые физически очень различны, что усложняет процесс обучения моделей.

В целях правильного понимания, проводятся количественно-статистический анализ и сравнительно-сопоставительный анализ.

Результатом данной работы является сравнение моделей YOLOv8 путём изучения полученных метрик и анализа эффективности каждой модели.

ABSTRACT

The article analyzes the YOLOv8 object detection models. Based on the comparison of the YOLOv8n (Nano) and YOLOv8s (Small) models, the training process of the models is described and the results are compared. The peculiarity also lies in the objects located on the source images on which the detection models are trained. Fragments of fire and flames are used as an object for detection, which are physically very different, which complicates the process of training models.

In order to understand correctly, quantitative and statistical analysis and comparative analysis are carried out.

The result of this work is a comparison of YOLOv8 models by studying the obtained metrics and analyzing the effectiveness of each model.

АҢДАТПА

Мақалада yolov8 нысандарын анықтау модельдері талданады. YOLOv8n (Nano) және YOLOv8s (Small) модельдерін салыстыру негізінде модельдерді оқыту процесі сипатталады және алынған нәтижелер салыстырылады. Мүмкіндік сонымен қатар анықтау модельдері оқытылатын бастапқы кескіндердегі нысандарда жатыр. Анықтау объектісі ретінде өрт пен өрттің фрагменттері қолданылады, олар физикалық жағынан өте ерекшеленеді, бұл модельдерді оқыту процесін қиындатады.

Дұрыс түсіну мақсатында сандық-статистикалық талдау және салыстырмалы-салыстырмалы талдау жүргізіледі.

Бұл жұмыстың нәтижесі алынған көрсеткіштерді зерттеу және әр модельдің тиімділігін талдау арқылы YOLOv8 модельдерін салыстыру болып табылады.

 

Ключевые слова: модель обнаружения, распознавание изображений, yolov8, детектирование объектов, компьютерное зрение, clearml.

Keywords: detection model, image recognition, yolov8, object detection, computer vision, clearml.

Түйін сөздер: анықтау моделі, кескінді тану, yolov8, нысанды анықтау, компьютерлік көру, clearml.

 

Введение. YOLOv8 - это последняя версия модели обнаружения объектов You Only Look Once (YOLO), созданная компанией Ultralytics. Она представляет собой унифицированную структуру для обучения моделей обнаружения объектов, сегментации экземпляров и классификации изображений. YOLOv8 основана на успехах предыдущих версий YOLO и других моделей обнаружения объектов, чтобы обеспечить более быструю и точную работу.

YOLOv8 является эффективной и гибкой, оптимизирована для работы как на CPU, так и на GPU, что делает ее подходящей для широкого спектра устройств. Кроме того, YOLOv8 поддерживает несколько форматов экспорта, включая TensorFlow, ONNX и PyTorch, что позволяет легко интегрировать ее в различные рабочие процессы.

YOLOv8 поставляется с пятью моделями в каждой категории, предоставляя разработчикам широкий выбор вариантов для выбора в зависимости от конкретных потребностей их проектов. Модели обучены на наборах данных COCO и Roboflow 100, которые являются широко используемыми эталонами для оценки моделей обнаружения объектов. YOLOv8 достигла высокой точности на этих наборах данных, превзойдя предыдущие версии YOLO и другие модели обнаружения объектов.

Одним из наиболее значительных преимуществ YOLOv8 является удобство для разработчиков. У нее есть интерфейс командной строки, который позволяет разработчикам легко обучать и тестировать модели. Кроме того, YOLOv8 имеет Python API, который можно использовать для интеграции модели в различные рабочие процессы, что делает ее интуитивно понятной и простой в использовании. К примеру, в данной работе использовался фреймворк ClearML для мониторинга экспериментов, в котором будут отражаться результаты всех обучений.

В качестве исходных данных были взяты изображения из веб-сайта Kaggle, а также собственные изображения и были объединены в один датасет.

Материалы и методы. При подготовке данной статьи использовались методы количественно-статистического анализа и сравнительно-сопоставительного анализа.

Результаты. После надлежащей обработки исходных данных была произведена аннотация изображений. Учитывая особенность имеющихся технических ресурсов, было выставлено 20 и 65 циклов обучения для тренировки моделей YOLOv8.

Для проведения тренировок указываются встроенные файлы моделей yolov8n.yaml/yolov8s.yaml и запускает процесс тренировки (см. Рисунок 1).

 

Рисунок 1. Исходный код запуска тренировки модели

 

После успешного окончания обучения, получаем графики, файлы и изображения, в которых показаны результаты (метрики) обучения. Одним из примеров является файл .csv формата с результирующими метриками каждого цикла модели (см. Рисунок 2).

 

Рисунок 2. Метрики обучения модели YOLOv8n в разрезе циклов

 

Для лучшего понимания и удобства имеются иллюстрации, по которым и будут показаны сравнения.

Одной из таких иллюстраций является матрица ошибок (confusion matrix). Данная матрица более эффективна при больших количествах обнаруживаемых объектов. Матрица описывается 4 комбинациями правильного определения:       

  • True Positive (TP) – количество верно определенных положительных примеров;
  • True Negative (TN) – количество верно определенных отрицательных примеров;
  • False Positive (FP) – количество неверно определенных положительных примеров;
  • False Negative (FN) – количество неверно определенных отрицательных примеров.

На Рисунке 3 показана матрица ошибок полученного после обучения моделей, из которого видно, что версия YOLOv8s имеет больший показатель правильного обнаружения пожара чем версия YOLOv8n. Следует отметить, что классификатор определяет только наличие и отсутствие объекта, в связи с чем матрице указан только один класс.

 

Рисунок 3. Матрицы ошибок моделей YOLOv8n и YOLOv8за 20 итераций

 

ClearML - это фреймворк, который позволяет контролировать и отслеживать эксперименты в области машинного обучения. Он имеет множество преимуществ, включая возможность отслеживать метрики, параметры и артефакты обучения модели, хранить модели и наборы данных, визуально сравнивать модели, воспроизводить эксперименты, логировать все действия и визуализировать результаты эксперимента [1].

Кроме того, ClearML поддерживает набор модулей, включая пакет python, который интегрирует кодовую базу с фреймворком [2].

Для дальнейшего анализа необходима ознакомиться с понятием как пересечение выше порога объединения (IOU). IOU используется как порог для определения, является ли прогнозируемый истинно положительным или ложно положительным [3]. IOU равно отношению области пересечения двух прямоугольников к площади соединения двух прямоугольников.

В полученных графиках, модель YOLOv8n обозначена как «TrainN» и отмечена красным цветом (20 итераций) и синим цветом (65 итераций), а модель YOLOv8s обозначена как «TrainS» отмечена зелёным цветом (20 итераций) и жёлтым цветом (65 итераций) (см. Рисунок 4).

 

Рисунок 4. Метрики mAP50, mAP50-95, Recall, Precision

 

Метрика mAP50, которая показывает среднюю усредненную точность при пороге IOU равной 0,5.

Метрика mAP50-95 показывает среднюю усредненную точность при пороге IOU между 0,5 и 0,95 с шагом 0,05.

Таблица 1 демонстрирует коэффициент этих метрик в разрезе версий модели и количества итераций.

Таблица 1.

Значения метрик mAP50 и mAP50-95

 

YOLOv8n, 20 итераций

YOLOv8s, 20 итераций

YOLOv8n, 65 итераций

YOLOv8s, 65 итераций

mAP50

19.3

22.4

35.9

43.6

mAP50-95

6.4

7.4

14.8

18.8

 

Исходя из представленных данных можно заметить, что с повышением версии модели и конечно же количества итераций, метрики mAP всё увеличиваются. Высокое значение метрик mAP50 и mAP50-95 указывает на высокую точность модели в обнаружении объектов на изображении. Однако, оптимальное значение может зависеть от конкретной задачи и требований к точности. В общем случае, чем выше значение метрик, тем лучше. Хорошим результатом считается значение mAP50 и mAP50-95 выше 90%.

Метрика Recall показывает коэффициент верно определенных положительных примеров к сумме всех верно определенных положительных примеров и неверно определенных отрицательных примеров. Данная метрика рассчитывается по формуле:

                                                                                  (1)

где:   Recall – коэффициент полноты;

TP – количество верно определенных положительных примеров;

FN – количество неверно определенных отрицательных примеров.

Метрика Precision показывает коэффициент отношения верно определенных положительных примеров к сумме всех положительно определенных примеров. Данная метрика рассчитывается по формуле:

                                                                                  (2)

где:   Precision – коэффициент точности;

TP – количество верно определенных положительных примеров;

FP – количество неверно определенных положительных примеров [4].

Таблица 2 демонстрирует коэффициенты метрик полноты и точности в разрезе версий модели и количества итераций.

Таблица 2.

Коэффициенты метрик Recall и Precision

 

YOLOv8n, 20 итераций

YOLOv8s, 20 итераций

YOLOv8n, 65 итераций

YOLOv8s, 65 итераций

Recall

30.5

27.5

38.6

42.5

Precision

28.6

30.8

46

53.9

 

Исходя из этих данных, можно сделать следующие выводы:

  • При обучении на 20 итерациях, модель YOLOv8s показывает более высокое значение precision (30.8) в сравнении с YOLOv8n (28.6), тогда как YOLOv8n показывает более высокое значение recall (30.5) по сравнению с YOLOv8s (27.5).
  • При обучении на 65 итерациях, обе модели показывают улучшение результатов по сравнению с предыдущими показателями на 20 итерациях. Модель YOLOv8n демонстрирует более высокие значения recall (38.6) и precision (46) по сравнению с YOLOv8s (42.5 и 53.9 соответственно).

Таким образом, можно предположить, что с увеличением количества итераций обе модели показывают улучшение результатов, но в зависимости от конкретных требований задачи можно выбрать модель с наиболее подходящими показателями precision и recall.

Также полученные результаты показывают, в данном случае, что версия модели YOLOv8s эффективнее чем YOLOv8n. Но для получения этих результатов нужны большие технические ресурсы. К примеру, в данном исследовании, если учитывать только время тренировки, одна итерация около 900 изображений заняло у модели Nano около девяти минут. В тех же условиях у модели Small данный процесс занял около 17 минут.

Заключение. YOLOv8 – это высокоэффективная и гибкая модель обнаружения объектов, которая имеет множество преимуществ по сравнению с предыдущими версиями YOLO и другими моделями обнаружения объектов. Удобные для разработчиков функции делают ее интуитивно понятной и простой в использовании, а большое и растущее сообщество вокруг YOLO предоставляет разработчикам множество рекомендаций по эффективному использованию модели. Хотя YOLOv8 имеет некоторые ограничения, ее общая производительность и точность делают ее отличным выбором для задач обнаружения объектов.

В ходе проведения исследования стало понятно, что качество, объем и предобработка данных влияют на точность определения объекта, которую надо распознать.

Результаты данной работы можно использовать для проведения дальнейших исследований, создания модульная систем распознавания изображения, которая может быть модифицирована для конкретных целей.

 

Список литературы:

  1. Вячеслав, “ClearML: Туториал,” Хабр, https://habr.com/ru/articles/691314/ (accessed May 13, 2023).
  2. Nipuni Hewage, Dulani Meedeniya (2022). MACHINE LEARNING OPERATIONS: A SURVEY ON MLOPS TOOL SUPPORT. Препринт arXiv arXiv:2202.10169v2.
  3. R. Padilla, S. L. Netto, and E. A. da Silva, “A survey on performance metrics for object-detection algorithms,” 2020 International Conference on Systems, Signals and Image Processing (IWSSIP), Jul. 2020. doi:10.1109/iwssip48289.2020.9145130
  4. J. Hui, “Map (mean average precision) for object detection,” Medium, https://jonathan-hui.medium.com/map-mean-average-precision-for-object-detection-45c121a31173 (accessed May 14, 2023).