김기범
(Gibeom Kim)
1iD
이상윤
(Sangyoon Lee)
2iD
윤창용
(Changyong Yoon)
3iD
홍성준
(Sungjun Hong)
†iD
-
(School of Information Technology, Sungkonghoe University, Korea.)
-
(School of Information Technology, Sungkonghoe University, Korea.)
-
(Department of AI Software, Suwon Science College, Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Finger sign language recognition, Gesture recognition, Convolutional neural networks, LeNet-5
1. 서 론
코로나 19로 인해 사회적 거리두기 단계가 강화되면서 온라인 플랫폼을 활용한 비대면 원격수업이 증가하고 있다. 과거 온라인 강의 영상 콘텐츠를 단순히
시청하는 단방향 방식이었으나 정보통신 기술의 발전으로 온라인 강의 중에 실시간으로 함께 토론하며 보고서 작성 등의 임무를 수행하는 양방향 수업 방식으로
변화하고 있는 것이다. 실시간 온라인 수업 또한 시각과 청각의 요소가 강의 전달에 중요한 요소로 작용하기 때문에 시각 자료 및 음질이 중요하며 원격수업에서
효과적인 강의 전달과 의사소통 방법에 관한 지속적인 연구가 필요한 상황이다. 그러나 청각 장애인의 경우 청각적 요소와 단절되어 온라인 수업 참여에
불편함을 느끼는 상황으로 자막 지원, 문자 통역 등의 요구가 있으나 정부나 기관에서 모두 지원하기에는 한계가 있다. 비대면 상황에서 청각 장애인이
갖는 의사소통의 어려움을 해결하고자 선행 연구가 일부 진행되었으나, 주로 웨어러블 디바이스나 별도의 센서를 사용한 연구(1),(2)로 착용식 추적 장치나 표식 등의 보조 도구가 필요하여 한정된 공간에서 사용해야 하는 제약이 있다. 수어를 인식하는데 보조 장치를 사용하게 된 주요
요인으로는 수어 패턴이 매우 복잡한 변이를 포함하여 그 특징의 추출이나 형태 표현이 매우 어렵기 때문이다. 별도 보조 장치를 사용해야 하는 수어 인식
시스템의 한계를 극복하기 위해 영상 기반 수어 분류 모델이 일부 제안되었는데(3),(4), 앞선 영상 기반 수어 분류 연구의 경우 필터링 기반 손 영역 검출에 많은 시간이 소요되고, 깊이 정보를 활용하기 위해 키넥트 카메라를 영상 센서로
사용해야 했다. 또한 수어를 분류하기 위해 특징 추출과 분류가 다단계로 구성되어 특징 추출 방법에 따라 분류 정확도가 크게 달라지는 문제가 있다.
한편 AlexNet(5)의 등장 이후 심층 학습 기반의 합성곱 신경망(CNN; Convolutional Neural Network) 모델이 영상 분류 문제(6)-(8)를 시작으로 객체 탐지(9)-(11), 자세 추정(12),(13) 문제에서도 좋은 성능을 보이며 영상 감시, 자율주행 자동차(14) 등 다양한 분야에 활용되며 발전해왔다. 심층 신경망 기반 키포인트 검출 모델을 지문자 인식에 활용한 선행 연구(15)도 있었으나 핸드 랜드마크(hand landmark)를 제대로 검출하지 못 하는 경우 필연적으로 지문자 분류 정확도가 떨어진다는 문제가 있다. 앞서
설명한 바와 같이 수어 패턴은 복잡한 변이와 형태를 포함하고 있어 핸드 랜드마크만 수어 분류 모델의 입력 특징으로 사용하는 것보다 손 영역에 해당하는
영상 전체를 활용하는 것이 정보량 측면에서 이득이 크다.
이에 본 논문에서는 앞서 소개한 수어 인식 시스템이 갖는 한계를 극복하고자 합성곱 신경망을 이용하여 영상 기반 수어 인식 문제를 해결하고자 시도한다.
현재 수어 인식 분야에서 널리 알려진 벤치마크 데이터셋이 존재하지 않아 복잡한 심층 신경망 영상 분류 모델을 이용하여 수어 분류 모델을 설계하고 훈련하여
평가하기 어렵다. 이에 복잡한 변이를 포함한 수어를 번역하는 문제를 해결하기 위한 선행 연구로서 본 논문에서는 먼저 알파벳과 숫자로 구성된 지문자
수어 데이터셋인 ASFL 데이터셋을 구축하고, LeNet-5(16) 기반의 지문자 수어 분류 모델을 설계한 후 구글의 손 영역 검출 솔루션인 MediaPipe Hands(17)와 연계하여 실시간 지문자 수어 인식 시스템의 프로토타입을 구현함으로써 심층 신경망의 수어 인식에서의 활용 가능성을 실험적으로 검증하고자 한다.
본 논문의 구성은 다음과 같다. 2장에서는 크게 손 영역 검출 단계와 지문자 수어 분류 단계로 구성되는 실시간 지문자 수어 인식 시스템을 소개하고
3장에서는 지문자 수어 데이터셋을 이용한 다양한 지문자 수어 인식 실험을 진행하고 얻은 결과를 고찰하며 마지막 4장에서 결론을 정리한다.
2. 지문자 수어 인식 시스템
본 논문에서 제안한 실시간 지문자 수어 인식 시스템은 그림 1과 같이 영상 획득 단계, 손 영역 검출 단계, 지문자 수어 분류 단계로 구성되어 있다. 영상 획득 단계에서는 시스템에 연결된 카메라로부터 실시간으로
320x240 크기의 RGB 영상 데이터를 프레임 단위로 획득한다.
그림. 1. 제안한 실시간 지문자 수어 인식 시스템 구조
Fig. 1. Diagram of the proposed real-time finger sign language recognition system
2.1 손 영역 검출 단계
손 영역 검출 단계에서는 구글의 MediaPipe(17) 라이브러리를 사용하여 프레임 단위로 획득된 영상 데이터로부터 손 영역을 검출한다. MediaPipe 라이브러리는 얼굴 인식, 자세 추정, 객체 검출,
객체 추적 등 라이브 및 스트리밍 미디어를 위한 맞춤형 기계 학습 솔루션을 제공하며 빠른 연산을 위해 객체 검출에 SSD(Single-shot detector)(18)를 사용하는 것으로 알려져 있다.
MediaPipe 라이브러리가 제공하는 MediaPipe Hands 솔루션을 사용하면 프레임 단위로 얻어낸 RGB 영상 데이터에서 사전에 정의된 21개의
손 관절 키포인트 검출 결과를 얻을 수 있다. 검출된 각 키포인트 값은 320×240 영상의 (x, y) 좌표값으로 주어지는데 예측된 키포인트 좌푯값의
최솟값과 최댓값으로부터 손 영역을 포함하는 사각형의 위치, 너비, 높이를 계산한다. 지문자 수어 분류 모델의 입력 데이터로 사용하기 위해 손 영역을
포함하는 사각형의 두 변 중 큰 변의 길이에 맞춰 정사각형으로 손 영역을 확장하고 추가로 상하좌우에 20픽셀의 마진을 주었다. 그림 2는 입력 영상 데이터로부터 손 영역을 검출한 예를 보여준다.
그림. 2. 손 영역 검출 결과의 예 (a) 검출된 손 키포인트 (b) 검출한 손 영역
Fig. 2. Example of hand region detection (a) detected hand keypoints (b) cropped hand
region
2.2 지문자 수어 분류 단계
지문자 수어 분류 단계에서는 표 1의 LeNet-5(16)를 기본 심층 신경망 모델로 하여 손 영역 검출 단계에서 검출한 손 영역이 포함하는 지문자를 분류한다. LeNet-5는 3개의 합성곱 층(convolutional
layer)와 2개의 풀링 층(pooling layer), 1개의 밀집 층(fully connected layer)으로 구성되어 있으며 합성곱 층과
풀링 층마다 별도의 패딩 정책을 취한다. 합성곱 층의 활성화 함수로 하이퍼볼릭 탄젠트(tanh; hyperbolic tangent)함수를 사용하며,
다중 분류 문제를 해결하기 위해 출력 층의 활성화 함수로 소프트맥스(softmax)를 사용한다.
표 1. LeNet-5 모델의 구조
Table 1. Architecture of LeNet-5 model
Type
|
Filters
|
Size/Stride
|
Output
|
Convolutional
|
6
|
5×5
|
28×28
|
Avgpool
|
|
2×2/2
|
14×14
|
Convolutional
|
16
|
5×5
|
10×10
|
Avgpool
|
|
2×2/2
|
5×5
|
Convolutional
|
120
|
5×5
|
1×1
|
Fully connected
|
|
84
|
|
심층 신경망 모델의 입력 데이터 크기는 32×32×1로 손 영역 검출 단계에서 검출한 정사각형 영역을 32×32의 크기로 정규화한 후 3채널 RGB
영상을 1채널 회색조(grayscale) 영상으로 변환하여 분류 모델에 입력하면 각 지문자 수어 클래스에 대한 예측 확률을 출력하고 예측 확률 중
가장 높은 확률을 보인 클래스로 검출한 지문자 수어를 분류한다. 심층 신경망 모델의 입력 데이터를 $X$라고 하고, 분류하려는 지문자 라벨에 대한
확률변수를 $y$라고 할 때, 지문자 분류 문제는 다음과 같이 나타낼 수 있다.
그림 3은 본 논문에서 제안하는 실시간 지문자 수어 인식 시스템의 프로토타입을 구현하여 실행한 예이다.
그림 3에서는 실시간으로 영상에서 검출한 손 영역을 0.9958의 확률을 가지고 영문자 ‘P’로 분류한 결과를 보여준다.
그림 3의 오른쪽 그림은 MediaPipe Hands 솔루션을 사용하여 검출한 손 영역과 심층 신경망의 입력으로 사용하기 위해 변환된 1채널 회색조 영상을
보여준다.
그림. 3. 실시간 지문자 수어 인식 시스템의 프로토타입
Fig. 3. Prototype of real-time finger sign recognition system
3. 실험 결과
이번 장에서는 지문자 수어 분류 모델의 성능 평가에 사용하기 위해 고안한 AFSL 데이터셋을 소개하고 LeNet-5 분류 모델을 기본으로 다양한 심층
신경망 기법들을 적용한 지문자 수어 분류 실험 결과를 분석하고 고찰한다.
3.1 AFSL 데이터셋
2장에서 제안한 지문자 수어 분류 모델의 성능 평가를 위한 영문자와 숫자를 모두 포함하는 등 다양한 지문자 수어로 구성된 데이터셋이 현존하지 않아
캐글(kaggle) 사이트로부터 얻은 영문자 수어 데이터셋인 Sign Language MNIST(19)와 숫자 수어 데이터셋(20)을 병합하여 표 2와 그림 4와 같이 미국식 지문자 수어 데이터셋(AFSL Dataset; American Finger Sign Language Dataset)을 구축하였다.
표 2. AFSL 데이터셋 요약
Table 2. Summary of AFSL dataset
구성
|
훈련 데이터
|
검증 데이터
|
테스트 데이터
|
클래스 수
|
영문자
|
21,964
|
5,491
|
7,172
|
24
|
숫자
|
9,600
|
2,400
|
3,000
|
10
|
영문자
숫자
|
31,564
|
7,891
|
10,172
|
34
|
그림. 4. AFSL 데이터셋 데이터 샘플 (a) 영문자 지문자 수어 (b) 숫자 지문자 수어
Fig. 4. Data Samples of AFSL dataset (a) alphabet finger sign (b) number finger sign
알파벳 26자 중 ‘J’와 ‘Z’는 연속된 동작(변이)으로 표현하기 때문에 영문자 지문자 수어는 24개의 클래스로 구성되어 있으며, 숫자 지문자 수어
데이터셋은 0에서부터 9까지 10개의 클래스로 구성되어 있어 AFSL 데이터셋은 총 34개의 클래스를 분류하는 것을 목적으로 한다.
3.2 실험 과정 및 결과 분석
이후 지문자 수어 분류 모델의 훈련을 위해 기본적으로 Adam 옵티마이저(optimizer)를 사용하였는데, 초기 학습률(initial learning
rate) 0.001로 설정하였고, 훈련에 필요한 하이퍼파라미터로 배치 크기(batch size) 128, 최대 에포크(epochs) 횟수 300으로
지정하였으며 훈련 데이터로 훈련하며 검증하는 가운데 검증 손실(validation loss)을 기준으로 분류 모델의 훈련을 조기 종료(early stopping)
하였다. ASFL 데이터셋을 이용하여 2.2절의 LeNet-5 모델을 훈련한 결과로 얻은 훈련 데이터 별 훈련 정확도와 검증 정확도는 표 3, 테스트 정확도는 표 4와 같다.
표 3. LeNet-5 모델의 훈련 정확도와 검증 정확도
Table 3. Training accuracy and validation accuracy using LeNet-5
훈련 데이터
|
클래스 수
|
훈련 정확도
|
검증 정확도
|
영문자
|
24
|
100
|
100
|
숫자
|
10
|
99.02
|
89.17
|
영문자숫자
|
34
|
99.8
|
96.45
|
표 4. LeNet-5 모델의 테스트 정확도
Table 4. Test accuracy using LeNet-5
훈련 데이터
|
테스트 정확도
|
영문자
|
숫자
|
영문자숫자
|
영문자
|
90.06
|
-
|
-
|
숫자
|
-
|
88.97
|
-
|
영문자숫자
|
82.89
|
87.87
|
84.36
|
표 4의 실험결과를 보면 영문자와 숫자를 모두 훈련 데이터로 사용했을 때 영문자 수어에 대한 테스트 정확도가 82.89%로 영문자만 훈련 데이터로 사용한
모델의 테스트 정확도 90.06%보다 7.17% 성능 저하가 발생했으며, 영문자와 숫자를 모두 훈련 데이터로 사용했을 때 숫자 수어에 대한 테스트
정확도가 87.87%로 숫자 수어만 훈련 데이터로 사용한 모델의 테스트 정확도 88.97%보다 1.1%의 성능 저하가 발생한 것으로 확인되었다. 이는
영문자와 숫자를 모두 훈련하는 과정에서 과대적합(overfitting) 문제가 발생한 것으로 볼 수 있다. 본 실험 결과를 베이스라인(baseline)으로
하여 과대적합 문제를 해결하기 위한 다양한 시도를 적용하여 추가 실험을 진행하였다. 성능 개선을 위해 시도한 방식으로는 최대 풀링(maxpooling)
적용, 드롭아웃(dropout) 적용, 합성곱 커널 크기 변경, ReLU 활성화 함수 사용, 세임 패딩(same padding) 적용 등이 있으며
실험에서 드롭아웃 비율은 0.3, 커널 크기는 3으로 설정하였다. 2.2절의 기본 LeNet-5 모델에 각각을 독립적으로 적용하여 AFSL의 모든
훈련 데이터를 훈련한 모델의 검증 정확도는
표 5와 같다.
표 5. 변형한 LeNet-5 모델의 검증 정확도와 검증 손실
Table 5. Validation accuracy and loss using LeNet-5 variations
|
Baseline
|
Max pooling
|
Dropout
|
검증 정확도
|
96.45
|
97.69
|
96.69
|
검증 손실
|
0.1479
|
0.0805
|
0.1209
|
순위
|
-
|
1
|
2
|
|
Kernel size is 3
|
ReLU
|
Same padding
|
검증 정확도
|
96.01
|
95.64
|
|
검증 손실
|
0.1585
|
0.1911
|
0.1874
|
순위
|
3
|
4
|
5
|
풀링 층의 연산을 평균 풀링에서 최대 풀링으로 변경했을 때 검증 정확도가 97.69%로 가장 크게 개선되었고,
표 6에서 확인할 수 있듯이 최대 풀링 적용만으로도 테스트 정확도가 4.28% 크게 개선된 것을 확인할 수 있었다.
표 6은 최대 풀링 연산 적용뿐만 아니라 다른 기법들을 동시에 적용한 다양한 지문자 수어 분류 모델을 설계하고 AFSL 데이터셋으로 훈련하여 각 테스트
셋에 실험한 결과를 보여준다. 일반적으로 최대 풀링과 함께 다양한 연산을 시도했을 때 테스트 정확도가 향상되는 것을 확인할 수 있었다. 특히 Type
4, 5, 6의 경우 5가지 시도 중 4가지를 적용한 분류 모델로 Type 5, 6이 Type 4보다 테스트 정확도가 높은 것을 보았을 때 드롭아웃
연산 적용 또한 분류 정확도 향상에 있어 크게 기여하는 것을 확인할 수 있었다. 5가지 시도를 모두 적용한 Type 7 지문자 수어 분류 모델의 경우
영문자 수어, 숫자 수어, 영문자 및 숫자 수어에 대해 각각 96.05%, 94.67%, 95.64%의 테스트 정확도를 얻어 모든 타입 중 가장 우수한
성능을 보여주었으며 영문자 수어와 숫자 수어만 독립적으로 분류하는 모델보다도 우수한 성능을 보이는 것을 확인하였다.
표 6. 변형한 LeNet-5 모델의 테스트 정확도
Table 6. Test accuracy using LeNet-5 variations
|
Baseline
(LeNet-5)
|
Type
|
1
|
2
|
3
|
4
|
5
|
6
|
7
|
Max pooling
|
|
✓
|
✓
|
✓
|
✓
|
✓
|
✓
|
✓
|
Dropout
|
|
|
|
|
|
✓
|
✓
|
✓
|
Kernel size is 3
|
|
|
✓
|
|
✓
|
✓
|
|
✓
|
ReLU
|
|
|
|
✓
|
✓
|
✓
|
✓
|
✓
|
Same padding
|
|
|
|
✓
|
✓
|
|
✓
|
✓
|
영문자
|
82.89
(-)
|
87.17
(4.28)
|
87.79
(4.9)
|
91.89
(9)
|
92.30
(9.41)
|
95.04
(12.15)
|
94.73
(11.84)
|
96.05
(13.16)
|
숫자
|
87.87
(-)
|
92.13
(4.26)
|
92.47
(4.6)
|
92.23
(4.36)
|
92.57
(4.7)
|
94.3
(6.43)
|
94.33
(6.46)
|
94.67
(6.8)
|
영문자숫자
|
84.36
(-)
|
88.64
(4.28)
|
89.17
(4.81)
|
91.99
(7.63)
|
92.38
(8.02)
|
94.82
(10.46)
|
94.61
(10.25)
|
95.64
(11.28)
|
4. 결 론
본 논문에서는 청각 장애인이 갖는 온라인에서 실시간 소통의 어려움을 극복하기 위한 방법으로 합성곱 신경망을 이용한 지문자 수어 분류 시스템을 제안하였다.
지문자 수어 인식 모델의 분류 정확도를 평가하기 위해 영문자 수어와 숫자 수어로 구성된 미국식 지문자 수어 데이터셋을 구축하였으며, LeNet-5
모델을 지문자 수어 분류에 적용했을 때 발생한 과적합 문제를 다양한 시도를 통해 해결하였다. MediaPipe Hands 솔루션과 결합하여 실시간
지문자 수어 인식 시스템 프로토타입을 구현하였으며, 향후 수어 분류 모델을 고도화하여 분류 정확도를 개선하고 순환 신경망(RNN; Recurrent
Neural Networks)을 적용해 연속된 지문자 수어 영문자 ‘J’와 ‘Z’을 인식할 수 있도록 지문자 수어 분류 모델을 개선할 계획이며 나아가
범용적인 영상 기반 수어 번역 모델을 완성할 계획이다.
Acknowledgements
This research was supported by Basic Science Research Program through the National
Research Foundation of Korea(NRF) funded by the Ministry of Education(grant number:
NRF2019R1I1A1A010 59759).
References
Bin Jun, Jaeyoung Kwon, Junkyu Park, Seunghoon Lee, Heeyoun Lee, Hyunkook Jang, 2018,
Wearable sign language interpreter using leap motion, In Proc. of Korea computer congress,
pp. 1461-1463
Sung Min Koo, Ingook Jang, Yungsung Son, 2018, An open source hardware based sign
language interpreter glove & situation awareness auxiliary IoT device for the hearing
impaired, KIISE Transactions on computing pPractices, Vol. 24, No. 4, pp. 204-209
Hee-Deok Yang, Seong-Whan Lee, 2011, Automatic spotting of sign and fingerspelling
for continuous sign language recognition, Journal of KIISE, Vol. 38, No. 2, pp.
102-107
Ki-Sang Kim, Hyung-Il Choi, 2014, Static sign language recognition system using depth
camera, In Proc. of The Korea Society of Computer and Information Summer Conference,
Vol. 22, No. 2, pp. 323-326
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, 2012, Imagenet classification
with deep convolutional neural networks, In Proc. of Advances in neural information
processing systems, pp. 1097-1105
Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun, 2016, Deep residual learning for
image recognition, In Proc. of the IEEE conference on computer vision and pattern
recognition, pp. 770-778
Karen Simonyan, Andrew Zisserman, 2014, Very deep convolutional networks for large-scale
image recognition, arXiv preprint arXiv:, pp. 1409-1556
Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov,
Dumitru Erhan, Vincent Vanhoucke, Andrew Rabinovich, 2015, Going deeper with convolutions,
In Proc. of the IEEE conference on computer vision and pattern recognition, pp. 1-9
Shaoqing Ren, Kaiming He, Ross Girshick, Jian Sun, 2015, Faster r-cnn: Towards real-time
object detection with region proposal networks, In Proc. of Advances in neural information
processing systems, pp. 91-99
Joseph Redmon, Ali Farhadi, 2017, YOLO9000: better, faster, stronger, In Proc. of
the IEEE conference on computer vision and pattern recognition.
Sungjun Hong, Heesung Lee, 2020, Comparison of the Methods for Jointly Learning
Objects and Actions Using Realtime Object Detector, The Transactions of the
Korean Institute of Electrical Engineers, Vol. 69, No. 1, pp. 138-143
Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh, 2017, Realtime multi-person 2d pose
estimation using part affinity fields, In Proc. of the IEEE conference on computer
vision and pattern recognition, Vol. , No. , pp. 7291-7299
Ke Sun, Bin Xiao, Dong Liu, Jingdong Wang, 2019, Deep high-resolution representation
learning for human pose estimation, In Proc. of the IEEE/CVF conference on computer
vision and pattern recognition, pp. 5693-5703
Jisu Kim, Sungjun Hong, Euntai Kim, 2021, Novel on-road vehicl e detection system
using multi-stage convolutional neural network, IEEE Access, Vol. 9, pp. 94371-94385
Jinyoung Kim, Euisung Kang, 2022, Korean finger spelling recognition using hand landmarks,
The Journal of Korean Institute of Next Generation Computing, Vol. 18, No. 1, pp.
81-91
Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner, 1998, Gradient-based learning
applied to document recognition, Proceedings of the IEEE, Vol. 86, No. 11, pp. 2279-2324
Google, , MediaPipe Library, accessed 2022. https://google. github.io/mediapipe/
Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang
Fu, Alexander C. Berg., 2016, Ssd: Single shot multibox detector, In Proc. of European
conference on computer vision, pp. 21-37
Tecperson, , Sign language MNIST: drop-in replacement for MNIST for hand gesture
recognition Tasks, accessed 2022. https://www.kaggle.com/datamunge/sign-language-mnist/
Muhammad Khalid, , Sign language for numbers: Hand gesture recognition datasets for
numbers, accessed 2022. https://www.kaggle.com/muhammadkhalid/sign-language-for-numbers/
저자소개
He received the B.S. (summa cum laude) degrees in Software Engineering and Computer
Engineering from Sungkonghoe University, Seoul, Korea, in 2022.
His research interests include computer vision and its various applications.
He received the B.S. and Ph.D. degrees in Electrical and Electronic Engineering from
Yonsei University, Seoul, Korea, in 2011 and 2018, respectively.
From 2018 to 2021, he was a Senior Researcher in Samsung Electronics Co., Ltd. Since
2021, he has been with the faculty of the School of Information Technology, Sungkonghoe
University, Seoul, Korea, where he is currently a Assistant Professor.
His current research interests include artificial intelligence, computer vision, and
their various applications.
He received his B.S., M.S. and Ph.D. degrees in Electrical and Electronic Engineering
from Yonsei University, Seoul, Korea, in 1997, 1999, and 2010, respectively.
He was a senior research engineer in LG Electronics Inc., and LG-Nortel, and he developed
system software for the DVR and WCDMA from 1999 to 2006.
From 2010 to February 2012, he was a chief research engineer in LG Display and developed
the circuit and algorithms in touch systems.
Since 2012, he has been a Professor in the Department of AI Software, Suwon Science
College.
His main research interests include intelligent transportation systems, pattern recognition,
robot vision, and fuzzy application systems.
He received the B.S. degree in Electrical and Electronic Engineering and Computer
Science and the Ph.D. degree in Electrical and Electronic Engineering from Yonsei
University, Seoul, Korea, in 2005 and 2012, respectively.
Upon his graduation, he worked with LG Electronics, a connected car industry, as a
senior researcher, from 2012 to 2013.
He worked as a Lead Software Engineer with The Pinkfong Company, from 2013 to 2016.
He was a Postdoctoral Researcher and a Research Professor with the School of Electrical
and Electronic Engineering, Yonsei University, from 2016 to 2020, prior to his current
appointment.
He is currently an Assistant Professor with the School of Information Technology,
Sungkonghoe university, Seoul, Korea.
His research interests include machine learning, deep learning, computer vision, and
their various applications.
He received the IET Computer Vision Premium Award from the Institution of Engineering
and Technology (IET), U.K., in 2015.