• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Industrial Engineering, Seoul National University of Science and Technology, Korea)



Deep learning, Helmet detection, Electric Kickboard, Night Driving, Personal mobility driving safety

1. 서 론

최근 전동킥보드 사용량이 급증함에 따라 안전사고 발생 빈도 또한 증가하고 있는 추세이다 (1). 이에 정부는 2021년 5월 전동킥보드 주행 시 헬멧 착용을 의무화하도록 도로교통법을 개정하였으나, 관련 법률이 개정된 지 1년이 지났음에도 불구하고 헬멧을 착용하지 않은 이용자가 대다수인 것으로 나타났다. 경찰청에 따르면 2021년 개인형 이동장치 단속 건수 7만566건 가운데 안전모 미착용이 5만8580건으로 전체의 79.6%에 달했다. 이는 무면허 전동킥보드 운행 건수 7168건(9.7%)보다 약 8배 많은 수치이다 (2). 전동킥보드는 이용자가 서 있는 상태에서 주행하는 특성상 사고가 발생할 경우 탑승자의 머리와 상반신에 부상을 입을 위험이 높아진다. 전동킥보드 사고로 내원한 108명의 환자를 대상으로 안전모 착용 여부와 부상 부위 등을 분석한 연구 결과에 따르면, 사고 당시 85%에 달하는 운전자가 안전모를 착용하지 않았으며 안면 외상이 가장 많이 발생한 것으로 나타났다 (3). 외상 정도를 나타내는 AIS 지표에 대한 비교 결과, 헬멧을 착용할 경우 안면 외상 예방효과가 높게 나타났으며, 안전사고 발생시 부상을 최소화하기 위해서는 전동킥보드 이용시 헬멧 착용이 필수적이다 (3). 특히, 도로교통공단에 따르면 개인형 이동장치의 경우 퇴근 및 심야시간대 (오후 4시~자정)에 발생한 사고가 전체 사고 건수의 절반 이상을 차지했다 (4). 야간 주행의 경우 안전사고의 위험이 더 높기 때문에 야간 주행 시 헬멧 착용은 더욱 중요하다.

이에 따라 헬멧 착용율을 높이기 위해 다양한 정책 및 방법들이 논의되고 있다. 공유킥보드 서비스 회사에서 수도권 거주 성인 2,000명을 대상으로 진행한 설문조사 결과, 헬멧 착용률을 높이기 위한 효과적인 방안을 묻는 질문에 경찰 단속 및 과태료 부과가 69.4%로 가장 높게 나타났다 (5). 교통법규 위반 단속의 목적은 위반 사항의 단순 적발이 아닌 교통사고의 예방으로, 헬멧 착용 여부 검사 및 단속 시행 자체만으로도 운전자들의 헬멧 착용에 대한 경각심을 높여, 헬멧 착용률을 증가시키는 효과적인 수단으로 활용될 수 있다 (6). 그러나, CCTV 기반 단속을 활용할 경우, 전동킥보드는 차량이나 오토바이처럼 식별번호가 없어 단속하는 데 어려움이 있을 뿐만 아니라 즉각적인 운전자 제재에도 제한이 있기에, 주/야간 환경에서 단속 실효성을 높일 수 있는 새로운 방법이 필요한 상황이다.

위와 같은 문제를 해결하기 위하여, 전동킥보드 헬멧 착용 여부를 효과적으로 감지하기 위한 기술에 관한 다양한 연구들이 진행되고 있다 (7-10). (7,8)의 연구에서는 센서를 활용하거나 전동킥보드의 측면에서 촬영한 이미지를 토대로 헬멧 착용 여부를 검출하고자 하였다. 한편, (9,10)의 연구에서는 킥보드 넥 중앙부에 스마트폰을 거치하여 운전자의 정면을 촬영함으로써 킥보드 주행 데이터를 실시간으로 수집하고, 딥러닝 기반 알고리즘을 적용하여 전동킥보드 주행시 운전자의 헬멧 착용 여부를 판별하기 위한 연구를 수행하였다. 기존 연구들의 경우 대부분 주간에 수집된 데이터를 토대로 헬멧 착용 여부를 판별하기 위한 시스템을 구축하였다. 이는 주간 환경에서의 데이터 확보가 상대적으로 용이하고 객체의 특성을 보다 잘 파악할 수 있다는 장점이 있기 때문이다. 반면, 야간 데이터는 수집/확보 자체가 어려울뿐더러 labeling을 진행하는 과정에서 객체 위치와 모양에 대한 모호함이 존재하는 등 제한적인 부분이 존재한다. 그러나, 주간 데이터만을 활용하여 헬멧 인식 모델을 학습할 경우 야간 주행 환경에서의 성능은 보장하기 어렵다.

따라서 본 연구에서는 (9,10)의 연구와 유사한 하드웨어 구조에 기반하여 주행자의 모습을 실시간으로 모니터링할 수 있도록 운전자의 정면을 촬영한 데이터를 수집하고, 이를 바탕으로 딥러닝 기반 객체 인식 알고리즘을 활용하여 헬멧 착용 여부를 판별하고자 한다. 특히, 적은 양의 야간 데이터만이 확보된 환경에서 주/야간 헬멧 검출 성능을 모두 확보하기 위하여 다양한 이미지 변환 및 증강 기법이 적용된 방법론을 제안한다. 마지막으로, 다양한 실험을 통해 주간 이미지만으로 학습된 기본 모델과 제안하는 방법론간의 성능 비교 분석을 진행한다.

2. 관련 연구

2.1 야간 상황에서의 객체 인식

객체 인식 모델 학습에 주로 사용되는 데이터셋은 대부분 주간에 촬영된 이미지들로 구성되어 있어, 이를 이용해 학습된 분류 모델들은 밝고 선명한 환경에 주어진 객체들의 특징만을 학습하게 되어, 조도가 낮은 상황 (예: 야간 시간대)에서의 객체 인식 성능은 급격히 저하된다는 단점이 존재한다 (11). (12,13)의 연구는 야간 환경에서의 객체 인식 성능 향상을 위한 딥러닝 기반 방법론을 제시하였다. (12) 연구는 야간 CCTV 영상을 입력받아 보행자 위험 개체들을 검출할 수 있는 딥러닝 기반 객체 검출기를 제안하였다. YOLOv4를 기반으로 학습을 진행하였으며 AIHub(14)의 개방 데이터 중 15가지 보행 장애물 대하여 태깅된 이상행동 CCTV 영상을 사용하였다. 해당 데이터셋의 경우, 야간 이미지는 전체 데이터의 약 6%만을 차지하고 있어, 주간과 야간 이미지 비율의 불균형을 개선하기 위해 (12)의 저자들은 전체 이미지 269,928장 중 주간 이미지 100,000장을 정제 후 흑백 이미지로 변환해 데이터셋을 재구성하여 객체 검출 모델을 학습시켰다. 성능 평가 결과, 흑백 변환을 적용한 데이터를 바탕으로 학습된 객체 검출기의 성능은 77.9% (mAP@0.5)로 기존 검출기의 성능 (77.1%, mAP@0.5) 대비 큰 효과는 확인할 수 없었다. 한편, (13)의 연구에서는 야간 데이터 부족 문제를 해결하기 위해 CycleGAN(15)을 사용하여 낮 시간대의 이미지를 밤 시간대의 이미지로 변환 후 학습 dataset에 추가해 YOLO 모델을 학습시켜 야간 영상에서의 객체 인식 성능을 개선시키고자 하였다. CycleGAN을 활용해 밤 시간대의 이미지로 변환하여 생성한 이미지를 훈련에 사용한 경우, 실제 야간 이미지를 사용했을 때보다는 성능이 떨어지지만 단순히 주간 이미지만 사용했을 때의 성능보다는 개선된 것을 확인할 수 있었다. 특히, 버스와 트럭같이 비교적 크기가 큰 객체의 경우 6~11%의 성능 개선이 있었지만 크기가 작은 객체의 경우에는 성능이 유사하거나 오히려 저하되는 현상도 확인할 수 있었다. 또한, (29,30)의 연구에서는 야간 상황에서의 일반적인 사물 객체 인식률을 높이기 위하여 Zero-DCE (26)와 같은 image enhancement 기법을 적용하는 방법론을 제안하였다. 앞서 언급한 연구들은 정적인 환경에서의 객체 인식을 주로 다루었고 주간/야간 이미지에 대한 객체 인식 성능을 각각 분리하여 검증하였다. 따라서, 전동킥보드와 같이 야외 주행 환경에 대한 주/야간 객체 인식 성능을 향상시키기 위한 추가 연구가 필요하다.

2.2 전동 킥보드 주행자 헬멧 착용 여부 감지

전동킥보드 이용자들의 헬멧 착용 여부를 효과적으로 탐지하기 위한 다양한 연구들 또한 진행되고 있다. (7)의 연구에서는 헬멧에 적외선 센서를 부착하여 헬멧을 착용하지 않았을 경우 킥보드 운행이 불가하게끔 설계하였다. 하지만 이러한 접근 방법은 센서 주위의 방해물 등으로 간단하게 회피가 가능하며 모든 헬멧에 센서를 부착해야 하기에 추가적인 비용 부담이 발생할 수 있다. 또한, 공유 헬멧이 아닌 자가 헬멧의 경우 센서 부착/활용등에 제약이 생긴다는 한계점이 존재한다. (8)의 연구에서는 전동킥보드 측면에서 촬영한 이미지를 토대로 객체 인식 기술을 통해 헬멧 착용 여부를 판단하고자 하였다. 하지만 이러한 형태의 시스템을 구축할 경우, 앞서 언급한 것처럼 헬멧 착용여부를 판단하더라도 즉각적인 운전자 단속이 어렵다는 단점이 존재한다.

한편, (9,10)의 연구는 사용자를 모니터링하기 위한 장비를 전동킥보드 자체에 부착함으로써 헬멧 착용 여부를 실시간으로 탐지할 수 있는 방안에 대하여 제안하였다. (9)의 연구에서는 킥보드 대여 서비스와 연동하여 이용자의 대여 전, 주행 중 모습을 휴대폰으로 촬영하고, 헬멧, 후드, 볼캡 착용 인식을 진행하여 헬멧 착용 여부를 지속적으로 확인하는 시스템을 제안하였다. yolo-v3 (16)의 기반의 객체 인식 모델을 학습시켜 약 70%의 정확도로 헬멧 착용 여부를 판단할 수 있었다. (10)의 연구에서는 킥보드의 넥 중앙부에 얼굴을 올려다볼 수 있는 각도의 위치에 스마트폰을 설치하고 주행 중 사용자의 상반신 부분을 촬영하여 전동킥보드 주행 중 이미지를 수집하였다. 해당 논문에서는 수집된 데이터를 바탕으로 Faster R-CNN (17) 기반의 딥러닝 모델 학습을 통해 mAP 0.9의 성능을 확보할 수 있었다. 하지만 이와 같은 연구들은 주간에 촬영한 데이터만을 활용하였기에 야간 환경에서의 판별 성능은 여전히 미지수이다.

그림. 1. VarifocalNet 구조

Fig. 1. Network architecture of VarifocalNet

../../Resources/kiee/KIEE.2022.71.10.1411/fig1.png

3. 제안하는 방법

그림 3는 본 연구에서 제안하는 시스템의 흐름도를 나타내고 있다. 먼저, 전동킥보드의 넥 중앙부에 설치된 스마트폰을 이용하여 운전자의 정면을 촬영하고 데이터를 수집한다. 그 중 야간에 촬영된 이미지에 대하여 다양한 이미지 변환 기법을 활용하여 이미지 개선을 진행한다. 마지막으로, 전처리가 완료된 데이터셋을를 바탕으로 딥러닝 기반의 객체 인식 알고리즘 중 VarifocalNet을 학습시킨 후 운전자의 헬멧 착용 여부를 판별한다.

그림. 2. 시스템 흐름도

Fig. 2. System flowchart

../../Resources/kiee/KIEE.2022.71.10.1411/fig2.png

3.1 Dataset

본 연구에서는 킥보드 넥 중앙부에 얼굴을 올려다볼 수 있는 각도의 위치에 스마트폰을 설치하고 주행 중 사용자의 상반신 부분을 촬영하여 주/야간 전동킥보드 주행 중 사용자 이미지를 수집하였다. 또한, 폭 넓은 시간대(낮 11시~4시, 밤 7~10시)에 다양한 장소(교내, 한강 일대 등)에서 촬영한 데이터를 토대로 적은 데이터 셋 안에서도 촬영 환경에 변화를 줌으로써 특정 환경에 최대한 과적합되지 않도록 데이터를 수집하였다. 총 6명의 대학생을 대상으로 촬영을 진행하여 주간 이미지 1,236장과 야간 이미지 480장의 이미지를 수집하였다. 그림 3은 촬영된 주/야간 주행자 이미지의 예를 나타내고 있다.

그림. 3. 주/야간 주행자 이미지 예시

Fig. 3. Image examples of Day/Night driver

../../Resources/kiee/KIEE.2022.71.10.1411/fig3.png

표 2에서 확인할 수 있듯이 data-default 데이터 셋 구성은 수집된 전체 데이터에서 사용자별로 헬멧 착용/미착용의 비율을 동일하게 분배하여 주간 이미지 840장만을 학습에 활용한다. 반면에, data-1x와 data-2x 구성에서는 학습과정에서 야간 이미지를 각각 60장과 120장 추가하여 활용한다. 모든 구성에서 validation set은 주간 이미지 120장, 야간 이미지 84장으로, test set은 주간 이미지 276장과 야간 이미지 276장으로 고정하여 사용하였다.

표 1. VarifocalNet 모델 구성

Table 1. VarifocalNet Model Configuration

Backbone

DCN

MS train

Lr schd

train time

(50 epoch)

R-50

N

N

1x

1h 23m

R-101

N

N

1x

1h 54m

X-101-64x4d

Y

Y

2x

3h 46m

표 2. 데이터셋 구성

Table 2. Dataset configuration

train

valid

test

Day

Night

Day

Night

Day

Night

data-

defalut

840

0

120

84

276

276

data-1x

840

60

120

84

276

276

data-2x

840

120

120

84

276

276

3.2 VarifocalNet

최근, 딥러닝 기반 객체 인식과 관련된 다양한 연구들이 많이 진행되고 있다. 본 연구에서는 2020년에 제안된 one-stage 계열 객체 인식 네트워크 구조로 COCO Dataset evaluation에서 우수한 성능을 보인 VarifocalNet(18)를 사용하여 주/야간 전동킥보드 주행 영상에서의 헬멧 착용 여부 판별을 진행하였다. VarifocalNet 알고리즘의 구조는 그림 1과 같다. 먼저 모델의 전반부에 해당하는 backbone, feature pyramids는 다양한 크기의 객체를 검출할 수 있고 end-to-end로 학습 가능한 FPN (Feature Pyramid Network) (19) 구조로 구성하고, FCOS 모델 (20)의 centerness branch 부분을 제거한 head를 추가적으로 결합한 구조를 가지고 있다. FPN은 임의의 크기의 single-scale 이미지를 convolutional network에 입력하여 다양한 크기의 feature map을 출력하는 네트워크이다.

본 연구에서는 MMdetection 프레임워크 (21)에서 제공하는 VarifocalNet의 Backbone, DCN, MS train, Learning scheduler에 변화를 주어 사전학습된 모델 중 표 1과 같이 구성된 3가지 모델을 선정하여 주/야간 주행 중 전동킥보드 헬멧을 인식하기 위한 프레임워크를 학습하고 성능 비교 분석을 진행하였다. 표 1의 R-50과 R-101 backbone은 ResNet(22)을 의미하며 ’X-101- 64x4d’는 ResNeXt(23) 네트워크를 의미한다. 이때 ResNeXt 네트워크는 ResNet의 bottleneck에 grouped convolution을 적용하여 수정함으로써 성능을 향상시킨 네트워크이다. DCN은 deformable convolution network의 사용 여부를 의미하며 MS train은 multi- scale training 적용 여부를 의미한다. LR-schd는 학습 진행 상황에 따라 epoch 및 iteration 간에 모델 가중치 변화 정도를 조정하는 방법으로 1x는 12 epochs마다, 2x는 24 epoch 마다 적용된다. Train time은 본 연구에서 구축한 baseline 데이터셋 (표 2 참조)을 활용해 각각의 모델을 훈련하는데 소요된 시간이다. 해당 열에서 확인할 수 있듯이, backbone의 depth가 길어지고 네트워크가 복잡해짐에 따라 학습시간이 증가함을 알 수 있다.

3.3 저조도 이미지 개선을 위한 변환 기법

야간에 촬영된 이미지와 같은 저조도 이미지의 경우 낮고 불균형한 조도로 인해 노이즈가 발생하여 그림 4의 a) baseline과 같이 시각적으로도 낮은 품질을 제공할 뿐만 아니라, 이를 이용한 영상처리 및 객체인식과 같은 컴퓨터비전 기술의 성능을 저하시키는 단점이 있다. 이에 따라 저조도 이미지의 품질을 향상시키기 위한 다양한 기법들이 연구되고 있다 (24,25). 본 연구에서는 야간 환경에서 헬멧 착용 인식 정확도를 높이기 위하여 사물 인식, 스타일 전이, 단순 이미지 처리 등 다양한 성격을 바탕으로 하는 이미지 변환 기법을 적용하고, 최적의 성능 확보 방안에 대하여 복합적으로 비교 분석하고자 하였다. 이에 따라, 다음 절에서 설명할 세 종류의 서로 다른 성질의 이미지 변환 기법을 활용하였다. 각각의 변환기법은 train/valid/test 데이터셋에 포함된 모든 야간 이미지에 대하여 적용하였으며, test 데이터셋을 이용한 성능 평가시에는 1) 원본 야간 이미지만을 사용한 경우와 2) 변환된 야간 이미지를 사용한 경우에 대하여 각각 실험을 진행하였다.

3.3.1 Image enhancement(Zero-DCE)

Image enhancement는 디지털 이미지를 조정하는 프로세스로, 노이즈를제거하거나 이미지를 선명하게 혹은 밝게 처리하여 이미지의 주요 특징을 더 쉽게 식별할 수 있도록 하는 기법이다. Zero-DCE (26)는 저조도 이미지를 보다 식별 가능하게 변환하는 image enhancement 기법의 일종으로, 주어진 이미지의 동적 범위 조정을 목표로 픽셀 단위 및 고차 곡선을 추정하기 위한 경량 심층 네트워크인 DCE-Net을 재훈련시킨 모델이다. 곡선 추정은 픽셀 값 범위, 단조성 및 미분성을 고려하여 설계되었으며 이미지별 곡선 파라미터를 추정하고 이를 입력 저조도 이미지의 세 채널에 반복적으로 적용하여 개선을 수행한다. 이처럼 직관적이고 간단한 비선형 곡선 매핑에 의해 저조도 이미지 개선이 가능하기 때문에 효율적이며 단순한 구조에도 불구하고 다양한 조명 조건에 잘 일반화된다는 특성이 있다. 그림 4의 b)에서 확인 할 수 있듯이 야간에 촬영된 a) baseline 이미지에 적용할 경우 이미지가 보다 선명하고 밝게 처리되어 헬멧의 외관 특징을 더 쉽게 파악할 수 있음을 알 수 있다.

3.3.2 Style transfer (WCT2)

Style transfer는 주어진 이미지의 스타일을 다른 도메인의 이미지 스타일로 변경하는 기술이다. WCT2 (27)의 경우 encoder- decoder 구조가 입력 이미지의 특징을 잘 표현할 수 있도록 학습하는 구조를 가지고 있으며, multi-level 전략 대신 progressive stylization으로 하나의 모델만 사용하여 한 번의 forward-pass 과정만 수행하기 때문에 더 가볍고 고속의 스타일 변환이 가능하다. 안정적인 특성 덕분에 프레임 간의 시간적인 연속성을 고려한 보정이 없이도 비디오 스타일 변환에서 안정적인 결과를 확인할 수 있다. 그림 4의 c)는 baseline 이미지를 주간에 촬영한 이미지의 스타일로 변환하고자 WCT2를 적용한 모습이다. 본 연구에서 촬영된 주간 이미지들이 대부분 밝고 푸른 배경에 빛의 산란되는 스타일을 가지고 있어, 야간 이미지가 푸른색을 띄는 스타일이 적용되어 변환된 것을 확인할 수 있다.

그림. 4. 이미지 변환 예시

Fig. 4. Examples of Image conversion

../../Resources/kiee/KIEE.2022.71.10.1411/fig4.png

3.3.3 Birghtness adjustment

저조도 이미지를 개선하는 가장 단순한 이미지 처리 방법으로 이미지의 brightness에 가변성을 추가하여 모델이 다양한 조명 및 카메라 설정에 잘 적용될 수 있도록 하는 기법을 고려할 수 있다. 본 연구에서는 각각의 이미지에 대하여 0~70% 사이의 정도로 랜덤하게 birghtness를 조절하였다. 그림 4의 d)와 같이 이미지 픽셀의 intensity를 증가시켜 baseline 이미지의 어두웠던 부분이 밝게 처리된 것을 확인 할 수 있다.

4. 실험 및 분석

실험에는 단일 NVIDIA RTX 2080 Ti GPU를 사용하였다. 딥러닝 모델의 구현을 위하여 MMDetection 프레임워크를 활용하여 pytorch 기반의 VarifocalNet 모델을 사용하였다. 실험에서는 먼저 표 2의 데이터 셋 구성을 바탕으로 VarifocalNet을 학습시키고 주간, 야간, 주+야간 환경에서 촬영된 데이터를 바탕으로 테스트를 수행하여 모델 학습과정에서 야간 이미지의 활용이 헬멧 인식 성능에 어떠한 영향을 미치는지를 분석하였다. 그 후, 앞서 기술한 세 가지의 저조도 이미지 향상 기법을 적용하여 데이터셋을 재구성하고, 해당 데이터셋을 바탕으로 VarifocalNet을 학습시켜 헬멧 인식 성능 비교 평가를 진행하였다. VarifocalNet은 표 1에 기술되어 있는 3가지 Backbone 구성에 따라 각각 학습을 진행하여 실험에 활용하였다.

4.1 실험 결과 및 분석

먼저, 이미지 변환 기법을 적용하지 않은 원본 이미지로 구성된 data-defualt, data-1x, data-2x 데이터셋을 바탕으로 학습된 VarifocalNet의 헬멧 인식 성능 비교 분석을 진행한다. 그 후, 각각의 이미지 변환 기법이 적용된 데이터셋으로 학습을 진행한 후 1) 원본 주/야간 테스트 이미지로 평가한 결과와 2) 이미지 변환 기법이 적용된 테스트 이미지로 평가한 결과에 대하여 설명한다. 객체 인식 정확도와 관련된 모든 성능은 mAP@0.5:0.95 기준으로 평가하였다.

4.1.1 원본 데이터셋 기반 성능 비교 분석

- Data-default 구성 기반 성능 비교 분석

표 3의 세 번째 열은 data-default 구성에서 VarifocalNet의 주/야간 헬멧 탐지 성능의 차이를 나타내고 있다. 표 3의 결과와 같이, data-default 데이터셋을 바탕으로 학습하고 주간 이미지로 테스트를 수행한 경우, backbone에 상관없이 약 90%의 높은 성능을 보임을 확인할 수 있다.이는 학습과 테스트에 사용되는 데이터가 주간 데이터로만 구성되어 있고 주간 환경에서 촬영된 이미지들은 야간 환경에 비해 헬멧의 특징을 잘 추출할 수 있어 높은 수준의 성능이 도출되는 것으로 설명될 수 있다. 반면에, 동일한 모델을 이용하여 야간 촬영 이미지로 테스트를 수행한 경우, ResNet 기반의 모델들은 약 62%, ResNeXt기반 모델은 65%로 ResNext 기반 모델이 약 3%정도 높은 성능을 보였다. 그러나 모든 backbone 구성에서 주간 환경 대비 평균적으로 약 27~28%의 성능 감소를 확인할 수 있다. 이는 주간 이미지 데이터에 기반한 모델 학습만으로는 야간 상황에서의 헬멧 착용 여부 탐지를 효과적으로 수행할 수 없음을 나타낸다. 한편, 주간/야간 이미지가 모두 포함되어 있는 데이터를 바탕으로 테스트 한 경우 ResNet 기반의 모델들은 약 78%, ResNeXt 기반 모델의 경우 79.2%로 ResNext 기반 모델에서 1%의 성능 향상이 있음을 확인할 수 있다.

표 3. 원본 이미지 데이터 셋에서의 성능 평가

Table 3. Performance evaluation on the original image dataset

Backbone

Test target

data

-default

data-1x

data-2x

R-50

Day

90.4

90

90.7

Night

62.1

73.1

74.9

Day+Night

77.8

82.6

83.1

R-101

Day

91

90.5

90.4

Night

61.7

73

75

Day+Night

78

82.2

83.3

X-101-64x4d

Day

90.9

90.3

91.2

Night

65

72.3

76

Day+Night

79.2

82

84.5

- Data-1x 및 Data-2x 구성 기반 성능 비교 분석

다음으로, 표 3의 4/5번째 열은 data-default 데이터셋에 소량의 야간 이미지를 추가하여 (각각 60장, 120장) 모델을 학습하고 테스트를 수행한 결과를 나타낸다. 표에서 확인할 수 있듯이, 모든 backbone 구성에서 야간 이미지의 추가 (즉, data-1x 및 data-2x)는 주간 이미지 기반 테스트 성능에 큰 영향을 미치지 않았다. 반면에, 야간 이미지 대상 테스트 성능은 기존 data-default 구성 대비 20% 가량 성능이 향상되었음을 확인할 수 있다. 구체적으로, ResNet backbone 기반의 모델들은 평균적으로 61.9%에서 74.0%로 약 19.5%의 성능 향상을 확인할 수 있고, ResNext backbone 기반 모델은 약 11%의 성능 향상을 확인할 수 있다. 유사하게, 주간/야간 데이터가 모두 포함된 테스트셋을 대상으로 평가한 결과에서도 모든 모델 구성에서 야간 데이터를 학습에 사용하지 않았을 때보다 약 5~6% 가량 성능이 향상됨을 확인할 수 있었다.

이러한 실험 결과들을 통해, 주간 데이터로만 학습을 진행할 경우 야간 환경에서의 헬멧 인식은 한계가 있음을 알 수 있고, 학습 시 야간 데이터의 사용 유무가 전체 성능에 큰 영향을 줄 수 있음을 알 수 있다.

4.1.2 이미지 개선 기법에 따른 성능 비교 분석

다음은 기존의 data-1x 데이터셋 구성에 포함된 야간 이미지들에 대하여 앞서 기술한 이미지 개선/변환 기법들을 적용한 후, 해당 데이터셋을 바탕으로 VarifocalNet을 학습 및 테스트를 수행한 결과에 대하여 기술한다.

표 4~6에서 확인할 수 있듯이 주간 데이터를 대상으로 테스트 할 경우 전반적으로 90% 내외의 성능으로, 이미지 개선 기법을 적용하지 않은 기존의 data-default 데이터셋을 이용한 학습 및검증 결과와 유사한 성능을 보인다. 한편, 표 4~6의 테스트 이미지 “원본” 열은 테스트 시 원본 야간 이미지만을 사용한 경우, “변환” 열은 테스트 시에도 야간 이미지를 개선/변환하여 사용한 경우를 의미한다. 야간 및 주/야간 테스트 데이터에 대한 성능을 표 3의 “data-1x” 열과 비교해보면 (이미지 개선 기법들이 적용되지 않은 학습 데이터셋에서의 검증 결과), Zero-DCE, WCT2, Brightness 기법 모두 ResNet-50과 ResNet-101 backbone 기반의 모델에는 성능 개선 효과가 없음을 알 수 있다. 반면에, ResNeXt backbone 기반 모델은 이미지 개선 기법의 종류에 관계없이 평균적으로 1~2% 가량의 성능 향상이 발생했음을 확인할 수 있다. Zero-DCE의 경우, 야간 테스트셋에 대해서는 72.3%에서 74.9%로 2.6%p, 주간+야간 테스트셋에 대해서는 82.0%에서 83.9%로 1.9%의 성능 개선을 확인할 수 있었다. 유사하게, WCT2를 적용하였을 경우야간 테스트셋에 대해서는 72.3%에서 74%로 1.7%p, 주간+야간 테스트셋에 대해서는 82%에서 83.3%로 1.3%p의 성능 개선이 있었다. Brightness 변화를 적용한 경우에도 야간 테스트셋에서 72.3%에서 74.1%로 1.8%p의 성능 향상과 주간+야간 테스틋세에서 82%에서 83.6%로 1.6%p의 성능 향상을 확인할 수 있었다.

표 4. Zero-DCE

Table 4. Zero-DCE

Backbone

Test target

test image

augmentation

original

conv.

original

conv.

R-50

Day

89.6

89.8

Night

69.1

70.6

70

71.9

Day+Night

81.6

80.8

77.8

78.8

R-101

Day

91.2

90.6

Night

72.2

71.2

71.9

72.8

Day+Night

82.1

81.5

79.3

79.9

X-101-64x4d

Day

91.2

91.1

Night

73.4

74.9

74.2

75.1

Day+Night

83.2

83.9

80.3

80.7

표 5. WCT2

Table 5. WCT2

Backbone

Test target

test image

augmentation

original

conv.

original

conv.

R-50

Day

90.8

89.8

Night

73

69.6

72.3

70.8

Day+Night

82.5

80

80.3

76.2

R-101

Day

91

90.5

Night

72.7

68.5

73.7

71.2

Day+Night

82.4

80.5

80.7

78.1

X-101-64x4d

Day

90.6

90.4

Night

74

71.8

73.4

72.9

Day+Night

83.3

82.6

79.5

79.1

표 6. Brightness

Table 6. Brightness

Backbone

Test target

test image

augmentation

original

conv.

original

conv.

R-50

Day

86.8

 

89.7

Night

61.6

62.9

70.4

71.3

Day+Night

75.5

76.1

78

78.8

R-101

Day

90

 

86.7

Night

72.6

71.9

69.5

68.9

Day+Night

81.4

81.4

76.8

76.8

X-101-64x4d

Day

91

 

89.7

Night

73.8

74.1

72.9

72.2

Day+Night

83.2

83.6

80.7

80.6

그림 3는 각 테스트 환경에서 ResNeXt backbone 기반 모델의 성능을 나타내고 있다. 앞서 기술한 데이터셋 구성과 동일하게, data-default는 야간 이미지가 학습에 사용되지 않은 구성으로서 모델의 성능 하한선을, data-2x는 야간 이미지를 모두 학습에 사용한 구성으로 모델의 성능 상한선이라고 볼 수 있다. 그래프에서 확인할 수 있듯이, 주간 데이터로 테스트한 경우 야간 이미지를 추가 및 변환하여 활용하더라도 기존 결과들과 유사하게 90% 내외의 성능을 확보할 수 있었다. 이미지 변환 기법을 적용하면 원본 data-default 및 data-1x 구성보다 높은 성능을 확보할 수 있으며, Zero-DCE가 성능 개선에 가장 좋은 효과를 보임을 알 수 있다.

그림. 5. 이미지 개선/변환 성능 비교

Fig. 5. Performance comparison with Image enhancement/conversion

../../Resources/kiee/KIEE.2022.71.10.1411/fig5.png

4.1.3 데이터 증강 기법 적용에 따른 성능 비교 분석

데이터 증강 기법은 데이터의 레이블을 보존하면서 다양한 변환을 적용하여 수량을 늘리는 방법으로 다양한 도메인의 task에서 딥러닝 모델들의 성능을 개선하기 위해 폭넓게 사용되고 있다 (28). 본 연구에서는 이미지 변환 기법을 통하여 개선된 야간 이미지들을 대상으로 데이터 증강 기법을 통하여 수를 증가시켰을 때 각 모델의 성능 변화를 확인하고자 하였다. 이를 위하여, 이미지 변환 기법을 통해 개선된 60장의 야간 이미지들에 대하여 rotate, crop, vertical flip, shear와 같은 간단한 형태의 affine transformation 기반 augmentation 기법을 적용하여 개선된 학습용 야간 이미지의 수를 증가시킨 후 모델 성능을 확인하였다.

표 4~6의 augmentation 열은 데이터 증강 기법을 적용한 각 모델의 성능 수치를 나타내고 있다. 일반적인 컴퓨터 비전 태스크와는 다르게, 본 실험에서는 개선된 야간 이미지의 증강에 의한 성능 향상 효과를 확인할 수 없었다. 표 4~6의 테스트 이미지 열과 augmentation 열을 각각 살펴보면, Zero-DCE의 경우 ResNet-50 backbone 모델과 ResNext backbone 모델의 야간 성능에서의 일부 성능 개선을 확인할 수 있었다. WCT2의 경우에도 ResNet-101 backbone 모델의 야간 성능에서의 성능 개선을 확인할 수 있었으며, Brightness의 경우에도 ResNet-50 backbone 모델에서 야간 성능 개선을 확인할 수 있었다. 하지만 이를 제외한 다른 구성에서는 유사한 성능을 보이거나 오히려 성능이 저하됨을 확인할 수 있다. 이러한 결과들을 보았을 때, 단순 affine transformation 계열의 augmentation을 적용하는 것이 모델의 주/야간 헬멧 인식 성능 향상을 보장할 수 있다고 보기에는 어려움이 있다. 특히, WCT2 및 brightness 조절의 경우 사용자가 설정하는 스타일 이미지의 특성 및 밝기에 따라 변환된 이미지의 품질이 많은 영향을 받을 수 있고, 이는 모델의 객체 인식 성능의 안정성에도 영향을 미칠 수 있다.

마지막으로, 그림 6은 야간 테스트 데이터에 대한 이미지 변환 기법 별 최고 성능을 나타내고 있다. 요약하면, 야간 환경에서 가장 최고의 개선 효과를 확인할 수 있었던 구성은 ResNext backbone과 Zero-DCE 변환 및 image augmentation을 수행한 경우이며, data-2x (76%)에 근접한 75.1%의 성능을 나타내는 것을 확인할 수 있었다.

그림. 6. 야간 성능 비교

Fig. 6. Night Performance Comparison

../../Resources/kiee/KIEE.2022.71.10.1411/fig6.png

4.2 인식 결과 예제

그림 3은 야간 원본 이미지와 Zero-DCE를 적용한 야간 이미지를 테스트한 이미지 예시를 나타낸다. 그림 7a 사례를 통해 확인할 수 있듯이, 어두운 환경으로 인해 헬멧을 착용하고 있는 사진임에도 불구하고 “without helmet” 클래스로 판단된 객체 검출의 오류 (그림 7a 좌측)가 이미지 enhancement 기법을 통해 그림 6a 우측과 같이 “with helmet” 클래스로 인식 결과가 개선되는 것을 확인할 수 있다. 하지만 그림 7b 사례와 같이 더 어두운 환경에서 촬영된 이미지의 경우 enhancement를 적용함에도 불구하고, 여전히 잘못된 클래스로 예측하고 있는 것을 확인할 수 있다. 따라서 빛이 거의 들어오지 않는 어두운 환경에서도 주행자의 헬멧 착용을 인식할 수 있는 방법에 대한 추가 연구가 필요하다.

그림. 7. inferene 결과 이미지 예시

Fig. 7. Examples of inference result

../../Resources/kiee/KIEE.2022.71.10.1411/fig7.png

5. 결 론

본 논문에서는 주/야간 환경에서 전동킥보드 사용자의 헬멧 착용 여부를 효과적으로 인식하기 위한 딥러닝 모델을 제안하고 다양한 성능 평가를 진행하였다. 주간에 촬영한 이미지만을 이용하여 학습된 모델의 경우, 야간 환경에서 촬영된 이미지에서의 헬멧 인식 정확도는 비교적 낮은 수치를 보여주었다. 다양한 형태의 이미지 변환 알고리즘을 적용하여 복합적으로 성능 평가를 진행하고 비교분석한 결과, 야간 이미지를 개선하여 학습에 사용할 경우 주간 환경에서의 헬멧 인식 성능에는 영향을 주지 않으면서 야간 환경, 주간+야간 환경에서의 헬멧 인식 성능을 약 1~2% 향상시킬 수 있음을 확인할 수 있었다. 그러나 저조도 이미지를 개선시키기 위해 본 연구에서 적용한 기법들은 주간 상황과 유사한 스타일의 이미지를 선택하거나, brightness 조절 정도를 결정하는 데 있어 여전히 모호함이 존재하는 부분이 있다. 또한, 현재 학습 및 검증에 사용되는 데이터 셋이 객체 검출에 사용되는 공개 데이터 셋들에 비해 현저히 적어, 전체 데이터를 통계적으로 대표하지 못할 수 있기 때문에 추가적인 샘플 모집이 필요하다. 이를 해결하기 위하여 더 다양한 환경에서의 실험 및 시도가 필요하며, 향후에는 더욱 고도화된 이미지 생성 모델들(예: GAN, Diffusion 모델 기반)을 활용하여 주/야간 데이터간의 양방향 변환을 진행함으로써 보다 견고하고 정확한 인식 모델을 개발하기 위한 연구를 수행할 예정이다. 또한, 스마트폰 혹은 임베디드 장치에서도 이미지의 수집과 추론이 효율적으로 진행될 수 있도록 객체 인식 모델의 경량화를 위한 연구를 추가 진행하고자 한다.

Acknowledgements

This study was supported by the Research Program funded by the SeoulTech(Seoul National University of Science and Technology)

References

1 
Chorong Kim, 2022 04, Crossing the center line, running on the sidewalk’… Increase in electric kickboard crackdown and accidents, KBS NEWSDOI
2 
Yewon Yun, 2022 04, 80\% of the crackdown on personal movement is not wearing a safety helmet, Chosun IlboDOI
3 
J. H. Choi, S. S. Oh, K. S. Kim, J. H. Hwang, 2022, Electric Scooter-Related Trauma in Korea, Journal of Korean Medical Science. Korean Academy of Medical Sciences.DOI
4 
Heungsik Kim, 2022 03, Electric Kickboard accidents are the most common in ‘darkness’··· Concentrate at night time, which is difficult to identify, AutoHeraldDOI
5 
Jaeung Roh, 2022 05, ‘Enforcement D-1’ kickboard users 88.5\% Wear a helmet, EdailyDOI
6 
, 2002, A Study on the Prevention Effect of Traffic Accidents in Unmanned Traffic Control System, DOI
7 
Jong-Eun Kim, Deok-Su Kim, Jae-Min Jo, Sung-Baek Cheon, Hyeong-Jun Ryu, 2021, Helmet’s Go, Journal of the Korean Electrical Society, pp. 204DOI
8 
Kyoung-Youn Ham, Jung-Woo Lee, Jang-Hyeon Lee, Gil-Nam Kang, Young-Jun Jo, Dong-Hoon Park, Myung-chun Ryoo, 2022, System for Detection not Wearing Helmet using Deep Learning Video Recognition, Proceedings of the Korean Society of Computer Information Conference 30, pp. 277-278DOI
9 
Tae-Won Kang, Jang Kyu Min, Pyeong Hong Min, Jang Sik Park, Jeong Junho, Seungmin Oh, Gayoung Kim, 2020, A Method for Detecting Helmet Wear Using Yolo, Proceedings of the IEEK Conference, pp. 2117-2119DOI
10 
Daun Kim, Ha-Yeong Yoon, Ha-Yeong Yoon, Jin-Woo Jeong, 2021, Proposal and Performance Evaluation of Deep Learning-based Electric Kickboard Helmet Detection, Proceedings of the ESK Conference, pp. 354-354DOI
11 
R. Kvyetnyy, R. Maslii, V. Harmash, I. Bogach, A. Kotyra, Ż. Grądz, N. Askarova, 2017, August 7, Object detection in images with low light condition., (R. S. Romaniuk & M. Linczuk, Eds.), SPIE Proceedings. SPIE.DOI
12 
YoungJoon Hwang, Jinha Song, Hyungbin Moon, Jongho Nang, 2021 12, Development of Risky Objects to Pedestrian Detector based on Deep-Learning for Night Time CCTV Video Analysis, Communications of the Korean Institute of Information Scientists and EngineersDOI
13 
Sangheum Cho, Ryong Lee, Jaemin Na, Youngbin Kim, Minwoo Park, Sanghwan Lee, Wonjun Hwang, 2019 01, CycleGAN- based Object Detection under Night Environments, Journal of Korea Multimedia Society, Vol. 22, No. 1, pp. 44-54DOI
14 
, , , http://aihub.or.kr/aidataDOI
15 
J.Y. Zhu, T. Park, P. Isola, A.A. Efros, 2017, Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks, Proceeding of International Conference on Computer Vision, pp. 2242-2251DOI
16 
J. Redmon, A. Farhadi, 2018, YOLOv3: An Incremental Improvement (Version 1)., DOI
17 
S. Ren, K. He, R. Girshick, J. Sun, 2015, Faster r-cnn: Towards real-time object detection with region proposal networks, In NIPSDOI
18 
H. Zhang, Y. Wang, F. Dayoub, N. Sunderhauf, 2020, VarifocalNet: An IoU-aware Dense Object Detector (Version 2)., arXiv.DOI
19 
T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, S. Belongie, 2016, Feature Pyramid Networks for Object Detection (Version 2)., arXiv.DOI
20 
Z. Tian, C. Shen, H. Chen, T. He, 2019, FCOS: Fully Convolutional One-Stage Object Detection (Version 5), arXiv.DOI
21 
, , , https://github.com/open-mmlab/mmdetectionDOI
22 
K. He, X. Zhang, S. Ren, J. Sun, 2015, Deep Residual Learning for Image Recognition (Version 1)., arXiv.DOI
23 
S. Xie, R. Girshick, P. Dollar, Z. Tu, K. He, 2016, Aggregated Residual Transformations for Deep Neural Networks (Version 2)., arXiv.DOI
24 
Jae-Min Park, Vien Gia An, Chul Lee, 2021, Feature Map Fusion-based Global Transformation Function Estimation for Low-Light Image Enhancement, Proceedings of the IEEK Conference, pp. 2332-2334DOI
25 
Hunsang Lee, Kwanghoon Sohn, Dongbo Min, 2020, Unsupervised Learning with Natural Low-light Image Enhancement, Journal of Korea Multimedia Society 23, 2, Vol. , No. , pp. 135-145DOI
26 
C. Guo, C. Li, J. Guo, C. C. Loy, J. Hou, S. Kwong, R. Cong, 2020, Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement, ArXiv.DOI
27 
J. Yoo, Y. Uh, S. Chun, B. Kang, J.-W. Ha, 2019, Photorealistic Style Transfer via Wavelet Transforms (Version 2)., arXiv.DOI
28 
L. Taylor, G. Nitschke, 2017, Improving Deep Learning using Generic Data Augmentation (Version 1)., arXiv.DOI
29 
Z. Cui, G.-J. Qi, L. Gu, S. You, Z. Zhang, T. Harada, 2022, Multitask AET with Orthogonal Tangent Regularity for Dark Object Detection (Version 1)., arXiv.DOI
30 
W. Chen, T. Shah, 2021, Exploring Low-light Object Detection Techniques (Version 1)., arXiv.DOI

저자소개

김다운 (Daun Kim)
../../Resources/kiee/KIEE.2022.71.10.1411/au1.png

Daun Kim is currently with the deparment Industrial Engineering, Seoul National University of Science and Technology.

Her research interests include deep learning, computer vision, automotive human-machine interaction.

정진우 (Jin-Woo Jeong)
../../Resources/kiee/KIEE.2022.71.10.1411/au2.png

JIN-WOO JEONG received his Ph.D. in computer science and engineering from Hanyang University, South Korea, in 2013.

From 2013 to 2016, he was a Senior Research Engineer with the Software R\&D Center, Samsung Electronics.

From 2016 to 2021, he was an Assistant Professor with the Department of Computer Engineering, Kumoh National Institute of Technology, South Korea.

Since 2021, he has been an Assistant Professor with the Department of Industrial Engineering and Department of Data Science, Seoul National University of Science and Technology, South Korea.

His research interests include deep learning, machine learning, human–computer interaction, and interactive computing applications.