HAND GESTURE RECOGNITION BASED ON COMPUTER VISION: A REVIEW OF METHODS

Рубрика конференции: Секция 14. Технические науки
DOI статьи: 10.32743/NetherlandsConf.2023.4.30.355489
Библиографическое описание
Жубатканова С.М. HAND GESTURE RECOGNITION BASED ON COMPUTER VISION: A REVIEW OF METHODS// Proceedings of the XXX International Multidisciplinary Conference «Innovations and Tendencies of State-of-Art Science». Mijnbestseller Nederland, Rotterdam, Nederland. 2023. DOI:10.32743/NetherlandsConf.2023.4.30.355489

РАСПОЗНАВАНИЕ ЖЕСТОВ РУК НА ОСНОВЕ КОМПЬЮТЕРНОГО ЗРЕНИЯ: ОБЗОР МЕТОДОВ

Жубатканова Самал Мараткызы

магистрант, Алматинский Технологический Университет,

Казахстан, г.Алматы

 

HAND GESTURE RECOGNITION BASED ON COMPUTER VISION: A REVIEW OF METHODS

Samal Zhubatkanova

Master student, Almaty Technological University,

Kazakhstan, Almaty

 

АННОТАЦИЯ

Жесты рук - это форма невербальной коммуникации, которая может использоваться в нескольких областях, таких как общение между глухонемыми людьми, управление роботом, взаимодействие человека и компьютера, автоматизация дома и медицинские приложения. Эта статья посвящена методам жестирования рук и знакомит с их достоинствами и ограничениями при различных обстоятельствах, а также представляет собой подробный общий обзор методов жестирования рук с кратким обсуждением некоторых возможных применений.

ABSTRACT

Hand gestures are a form of nonverbal communication that can be used in several areas, such as communication between deaf and dumb people, robot control, human-computer interaction, home automation and medical applications. This article is devoted to hand testing methods and introduces their advantages and limitations under various circumstances, as well as provides a detailed overview of hand gesturing methods with a brief discussion of some possible applications.

 

Keywords: hand gestures, computer vision, human-computer interaction.

Ключевые слова: жесты рук, компьютерное зрение, взаимодействие человека и компьютера.

 

Жесты рук - это аспект языка тела, который может быть передан через центр ладони, положение пальцев и форму, созданную рукой. Жесты рук можно классифицировать на статические и динамические. Как следует из названия, статический жест относится к стабильной форме руки, тогда как динамический жест включает в себя серию движений руки, таких как взмах. В жесте есть множество движений рук; например, рукопожатие варьируется от одного человека к другому и меняется в зависимости от времени и места. Основное различие между позой и жестом заключается в том, что поза больше фокусируется на форме руки, тогда как жест фокусируется на движении руки. Основные подходы к исследованию жестов рук можно классифицировать на подход с использованием датчиков на основе носимых перчаток и подход с использованием датчиков на основе видения камеры.

Жесты рук предлагают вдохновляющую область исследований, поскольку они могут облегчить общение и обеспечить естественные средства взаимодействия, которые можно использовать в различных приложениях. Ранее распознавание жестов рук достигалось с помощью носимых датчиков, прикрепленных непосредственно к руке в перчатках. Эти датчики регистрировали физическую реакцию в соответствии с движениями руки или сгибанием пальца. Собранные данные затем обрабатывались с помощью компьютера, подключенного к перчатке с помощью провода. Эту систему датчиков на основе перчаток можно сделать портативной, используя датчик, подключенный к микроконтроллеру.

Как показано на рисунке 1, жесты рук для взаимодействия человека и компьютера начались с изобретения датчика данных в перчатках. Он предлагал простые команды для компьютерного интерфейса. В перчатках использовались различные типы датчиков для фиксации движения и положения руки путем определения правильных координат расположения ладони и пальцев. Различными датчиками, использующими ту же технологию, основанную на угле изгиба, были датчик кривизны, датчик углового перемещения, волоконно-оптический преобразователь, датчики изгиба и датчик акселерометра. Эти датчики используют различные физические принципы в зависимости от их типа.

 

Рисунок 1. Различные методы для жестов рук

(а) Датчик на основе перчаток, подключенный к компьютеру или переносной; (б+) камера на основе компьютерного зрения, использующая маркированную перчатку или просто обнаженную руку

 

Хотя упомянутые выше методы дают хорошие результаты, они имеют различные ограничения, которые делают их непригодными для пожилых людей, которые могут испытывать дискомфорт и замешательство из-за проблем с проводным подключением. Кроме того, пожилые люди, страдающие хроническими заболеваниями, которые приводят к потере мышечной функции, могут быть не в состоянии носить и снимать перчатки, что вызывает у них дискомфорт и стесняет их при длительном использовании. Эти датчики могут также вызвать повреждение кожи, инфекцию или побочные реакции у людей с чувствительной кожей или тех, кто страдает от ожогов. Кроме того, некоторые датчики довольно дороги.

Эти недостатки привели к разработке перспективных и экономически эффективных методов, которые не требовали ношения громоздких перчаток. Эти методы называются сенсорными технологиями, основанными на зрении камеры. С развитием библиотек программного обеспечения с открытым исходным кодом стало проще, чем когда-либо, распознавать жесты рук, которые могут использоваться в широком спектре приложений, таких как клинические операции, язык жестов, управление роботом, виртуальные среды, домашняя автоматизация, персональный компьютер и планшет, игры. Эти методы по существу включают замену перчатки с инструментами камерой. Для этой цели используются различные типы камер, такие как RGB-камера, камера времени полета, тепловизионные камеры или камеры ночного видения.

На основе методов компьютерного зрения были разработаны алгоритмы для обнаружения рук с использованием этих различных типов камер. Алгоритмы пытаются сегментировать и обнаруживать особенности рук, такие как цвет кожи, внешний вид, движение, скелет, глубина, 3D-модель, распознавание глубокого обучения и многое другое.

Архитектура сверхточных нейронных сетей (CNN) являются достижением области искусственного интеллекта и глубокого обучения, которые способствовали быстрой эволюции компьютерного зрения и анализа изображений. Это стало возможным благодаря появлению и развитию сверхточных нейронных сетей.

CNN - это алгоритм глубокого обучения, который может распознавать и классифицировать особенности изображений для компьютерного зрения. Это многослойная нейронная сеть, предназначенная для анализа визуальных входов и выполнения таких задач, как классификация изображений, сегментация и обнаружение объектов, что может быть полезно для автономных транспортных средств. Сверхточные нейронные сети также могут использоваться для приложений глубокого обучения в здравоохранении, таких как медицинская визуализация. Архитектура сверхточной нейронной сети вдохновлена организацией и функциональностью зрительной коры и предназначена для имитации схемы нейронов в человеческом мозге.

Датчики на основе носимых перчаток могут использоваться для фиксации движения и положения рук. Кроме того, они могут легко предоставлять точные координаты расположения ладони и пальцев, ориентации и конфигурации с помощью датчиков, прикрепленных к перчаткам. Однако этот подход требует, чтобы пользователь был физически подключен к компьютеру, что препятствует простоте взаимодействия между пользователем и компьютером. Кроме того, цена этих устройств довольно высока. Перчатка обеспечивает тактильную обратную связь, которая позволяет пользователю ощущать форму, текстуру, движение и вес виртуального объекта с помощью микро флюидной технологии. На рисунке 2 показан пример сенсорной перчатки, используемой на языке жестов.

 

Рисунок 2. Сенсорная перчатка

 

Датчик, основанный на видении камеры, является распространенным, подходящим и применимым методом, поскольку он обеспечивает бесконтактную связь между людьми и компьютерами. Могут использоваться различные конфигурации камер, такие как монокуляр, рыбий глаз. Однако этот метод сопряжен с рядом проблем, включая изменение освещения, проблемы с фоном, эффект перекрытий, сложный фон, время обработки в зависимости от разрешения и частоты кадров, а также объекты переднего плана или фона, представляющие тот же оттенок цвета кожи или иным образом выглядящие как руки.

Основной целью изучения распознавания жестов является внедрение системы, которая может распознавать конкретные человеческие жесты и использовать их для передачи информации или в целях командования и контроля. Таким образом, оно включает в себя не только отслеживание движений человека, но и интерпретацию этого движения как важных команд. Для интерпретации жестов в приложениях обычно используются два подхода. Первый подход основан на перчатках для передачи данных (пригодных для носки или прямого контакта), а второй подход основан на компьютерном зрении без необходимости носить какие-либо датчики.

Распознавание жестов рук устраняет ошибку в системах взаимодействия. Управление вещами вручную более естественно, проще, гибче и дешевле, и нет необходимости устранять проблемы, вызванные аппаратными устройствами, поскольку они не требуются. Из предыдущих разделов стало ясно, что необходимо приложить много усилий для разработки надежных алгоритмов с помощью использования датчика камеры, обладающего определенной характеристикой, для решения распространенных проблем и достижения надежного результата. Однако каждый метод, упомянутый выше, имеет свои преимущества и недостатки и может хорошо работать в некоторых задачах, уступая в других.

 

Список литературы:

  1. Акишина, А. А. Жесты и мимика в русской речи. Лингвострановедческий словарь / Gestos y mimica en el lenguaje ruso: Diccionario linguistico-cultural / А.А. Акишина, Х. Кано, Т.Е. Акишина. - М.: Либроком, 2014. - 152 c.
  2. Акишина, А. А. Жесты и мимика в русской речи. Лингвострановедческий словарь / А.А. Акишина, Х. Кано, Т.Е. Акишина. - М.: Либроком, 2013. - 152 c.
  3. Атай, Елена Чтение по лицам и жестам для начинающих / Елена Атай. - М.: "Издательство "Эксмо", 2014. - 997 c.
  4. Баголи, Илона Как разговаривают животные. Звуки, запахи, жесты, мимика (+ 3D-очки) / Илона Баголи , Ласло Шел. - М.: Владис, 2013. - 881 c.
  5. Волконский, С. М. Выразительный человек. Сценическое воспитание жеста (по Дельсарту) / С.М. Волконский. - М.: Ленанд, 2015. - 248 c.