최효민
(Hyomin Choi)
1iD
서기성
(Kisung Seo)
†iD
-
(Department of Electronics and Computer Engineering, Seokyeong University, Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Multi-object Tracking, Deep Learning, Object Detection, ID classification, TITAN Dataset
1. 서 론
딥러닝 기반의 다중객체 추적(Multi-Object Tracking)(1,2)은 동영상에 등장하는 여러 객체들의 궤적을 시간의 흐름에 따라 동시에 추적하는 난이도 높은 연구이다. 많은 기술적 발전이 있어왔지만 여전히 다른 객체에
의한 가려짐, 객체 미 검출과 ID 스위칭(Switching) 등의 문제가 발생한다.
객체의 고유한 외형특징을 이용하는 원샷 다중객체 추적(3,4)은 객체를 추적하기 위해 필수적인 객체검출(Object Detection)(5,6)과 객체의 외형특징을 추출하여 동일한 ID를 갖는 물체를 찾는 재식별(Re-Identification)이 이용된다. 객체검출 모델은 특징 추출기,
다양한 크기의 정보를 혼합하는 넥과 객체검출을 하는 헤드로 구성된다. 재식별 모델은 작은 외형특징 추출기를 사용하고, 검출기 헤드부분에 추가된다.
이러한 원샷 다중객체 추적 구조는 하나의 헤드에서 객체검출과 재식별을 동시에 진행되기 때문에 추론 속도가 빠르다. 그러나 객체검출의 카테고리 분류는
ID에 상관없이 같은 카테고리면 비슷한 분류 특징을 가지도록 학습된다. 반면 재식별 분야의 외형특징 벡터는 다른 ID를 가지면 같은 카테고리라도 서로
다른 특징을 가지도록 학습이 되어야한다. 이렇게 서로 대비되는 학습 방식으로 인해 원샷 다중객체 추적의 성능이 감소하게 되는 문제가 있다.
본 논문에서는 이러한 서로 상충되는 문제를 완화하기 위해서 원샷 다중객체 추적기의 외형특징 추출기를 FPN(Feature Pyramid Network )
(7) 넥 기반의 외형특징 추출 모듈로 대체한 후, 객체 검출기와 병렬적으로 구성한다. 또한 객체가 다른 객체에 의해 가려질 경우, 객체의 중심에서 외형특징
벡터를 추출하는 것은 해당 객체를 잘 표현하지 못할 수 있다. 그러므로 각 객체 크기에 따라 오프셋 크기를 가변적으로 변형한 후, 객체 중심에 오프셋을
적용하여 적절한 위치에서 유효한 외형특징 벡터를 추출할 수 있도록 설계한다.
제안된 다중객체 추적 기법을 검증하기 위하여 도쿄 시의 도심 지역을 이동하는 차량에서 촬영된 TITAN(Trajectory Inference using
Targeted Action Priors Network) 데이터셋(8)을 사용한다. 추적기의 파라미터 수와 초당 프레임 처리 수를 의미하는 FPS (Frame Per Second)를 사용하여 추론 속도를 비교한다. 그리고
추적기의 검출 성능을 나타내는 MOTA(Multiple Object Tracking Accuracy)(9), FP(False Positive), FN(False Negative), IDs(ID Switch)와 임의의 객체에 대해 추적기가 얼마나 일관되게
ID를 부여하는지를 측정하는 지표인 IDF1(Identification F1 Score)(10)를 사용해 추적 성능을 비교한다.
2. 다중객체 추적과 연관
다중객체 추적에서 추적기(Tracker)는 검출에 의한 추적(Tracking- by-detection) 방식을 주로 사용한다. 이는 물체의 위치를
찾는 검출(Detection) 단계 및 추적 객체와 검출 객체를 매칭(matching)하여 고유한 ID를 부여하는 연관(Association) 단계를
수행하여 여러 물체들을 추적하는 방식이다.
연관(Association)은 다중객체 추적의 핵심 단계로 객체의 고유한 ID 할당이 이루어진다. 먼저 직전 프레임까지 추적하고 있는 객체들과 현재
프레임에서 검출된 객체들 간의 유사성을 측정한다. 그 결과 추적객체와 유사도가 높은 검출객체는 연결하여 동일한 ID가 부여되고 유사도가 낮은 검출객체는
새로운 ID가 부여 된다. 반면 검출객체와 유사도가 낮은 추적객체는 다음 프레임에서 추적하지 않는다. 그림 1은 5 단계로 표현된 검출에 의한 추적의 예시이다. 각 모양들은 서로 다른 객체를 나타낸다.
그림. 1. 검출에 의한 추적 예시
Fig. 1. Example of tracking-by-detection
3. 분리된 외형특징 추출과 오프셋
3.1 YOLOX
본 논문에서는 객체검출기로 YOLOX(5)를 사용한다. YOLOX는 특징 추출기, 넥(Neck) 그리고 헤드(Head)로 구성된다. 특징 추출기는 정확도를 유지하며 경량화를 한 CSPdarknet(11)이 사용된다. 특징 추출기가 추출한 물체의 윤곽선과 같은 저 수준의 특징 맵과 물체에 대한 전반적인 정보를 가진 고 수준의 특징 맵을 PAFPN(12) 넥을 통해 혼합한다. 그리고 혼합된 특징 맵을 기반으로 헤드는 검출된 물체가 어떤 카테고리에 속할지 결정하는 분류(classification) 모듈,
검출기가 얼마나 물체라고 확신하는지를 나타내는 물체성(objectness) 모듈 그리고 검출된 객체의 경계 상자와 위치를 예측하는 회귀(regression)
모듈로 구성된다.
3.2 분리된 외형특징 추출 네트워크
원샷 다중객체 추적에서는 객체검출의 카테고리 분류와 재식별의 고유한 ID 분류를 하나의 넥과 헤드에서 수행하는데, 서로 상충되는 태스크이기 때문에
다중객체 추적의 성능이 감소할 수 있다. 또한 대부분 다중객체 추적에서는 COCO(13) 데이터로 사전 학습된 검출기를 사용하기 때문에, 특징 추출기, 넥, 그리고 헤드가 객체 검출에 편향되는 경향이 있다. 특징 추출기와 달리 넥과 헤드는
소량의 파라미터만을 가지고 있기 때문에 두 가지 이상의 태스크를 다루기가 어렵다.
구체적으로, 객체의 고유한 ID를 구분하기 위해서는 물체의 윤곽선과 같은 저 수준의 특징 맵보다는 해당 물체에 대한 전반적인 정보를 가진 고 수준의
특징 맵이 더 중요하다. 따라서 서로 다른 크기의 특징 맵인 저 수준과 고 수준의 특성을 함께 포함하는 하는 PAFPN 넥보다는 고 수준의 특성을
주로 포함하는 FPN(9) 넥이 외형특징 추출기에 적합하다.
이러한 문제를 해결하기 위해 YOLOX의 PAFPN 기반의 객체검출 모듈에 FPN 넥 기반의 외형특징 추출 모듈을 병렬적으로 구성하는 방식을 제안한다.
그림 2에 전체 다중객체 추적 모델의 구조도가 나와 있으며, 점선으로 나타낸 앞 부분이 제안된 FPN 기반의 외형특징 추출 모듈이며, 뒷 부분이 제안된 오프셋을
나타낸다.
그림. 2. 제안된 네트워크 구조
Fig. 2. Proposed network structure
3.3 변형된 오프셋
물체의 중심에서 외형특징 벡터를 추출 시, 물체의 중심이 가려지면 가린 물체의 중심에 해당하는 영역에서 특징이 추출되기 때문에, 유효한 외형특징 벡터를
추출하기 어렵다. 기존 연구(4)는 기본적인 오프셋을 사용하여 개선을 시도했으나, 각 객체마다 크기가 다른 점을 고려하지 않고, 제한되지 않은 넓은 공간에서 여러 오프셋을 예측하기
때문에, 정확도가 떨어진다. 반면, 본 논문에서는 모든 객체마다 제한된 공간에서 오프셋을 찾은 후, 각 물체의 크기에 따라 보정하고, 가장 적절한
위치의 오프셋을 찾아서 외형특징 벡터를 추출한다. 그림 3은 기존 오프셋을, 그림 4는 제안된 오프셋을 나타낸다.
그림. 3. 기존 오프셋
Fig. 3. Existing offset
그림. 4. 제안된 오프셋
Fig. 4. Proposed offset
제안된 오프셋 설정 기법은 다음과 같다. 먼저 객체의 중심에 대응되는 그리드에서 외형특징 벡터 $f_{a}\in R^{256}$를 추출한다. 그리고
수식 (1)처럼 하나의 완전 연결층(Fully Connected layer)를 거쳐 $offset_{2}\in R^{2}$를 추출한다. 그리고 수식 (2)을 이용해 $offset_{2}$의 범위를 –0.5 ~ 0.5 사이로 정해준다. 그 다음 수식 (3)과 (4)처럼 추출 객체의 크기만큼 확대해준다. 이렇게 하여 오프셋과 객체의 중심 위치를 더한 위치에서 객체를 표현하는 유용한 외형특징 벡터 $f_{a-offset}\in
R^{256}$를 추출할 수 있게 된다. 그림 5에 물체의 중심이 가려진 예시가 나와 있고 그림 6은 객체의 중심을 오프셋으로 보정된 위치를 나타낸 예시이다.
그림. 5. 중심에 의한 추출
Fig. 5. Extraction by center
그림. 6. 제안된 오프셋에 의한 추출
Fig. 6. Extraction by proposed offset
3.4 손실함수
제안된 기법에서는 크게 두 가지 손실함수가 사용된다. YOLOX의 객체검출 손실함수 $Loss_{\det}$와 객체의 고유한 ID를 구분하도록 하는
$Loss_{ID}$로 수식 (5)로 표현된다.
객체검출 손실함수 $Loss_{\det}$는 분류 손실함수 $Loss_{cls}$, 컨피던스 손실함수 $Loss_{obj}$ 그리고 경계 상자 손실함수
$Loss_{reg}$로 구성되며 각각은 식 (6), (7), (8), (9)로 표현된다. $1_{i}$는
지시함수로 i번째 그리드(Grid)에 물체가 있으면 1, 없으면 0을 의미한다. $Loss_{cls}$는 검출된 객체의 카테고리가 정답 카테고리에
속하도록 하는 손실함수, $Loss_{reg}$는 예측한 경계 상자와 정답 경계 사자간의 IOU가 높아지도록 하는 손실함수 그리고 $Loss_{obj}$는
해당 그리드에 실체 물체가 있으면 높아지도록, 물체가 없으면 낮아지도록 하여 객체와 배경을 구분하는 손실함수이다. $S^{2}$는 총 그리드 수 그리고
^은 예측한 것을 의미한다.
오프셋이 적용된 외형특징 벡터를 분류기의 입력으로 객체의 고유한 ID를 구분하며 이는 다음과 같이 식 (10)과 같다. CE(Cross Entropy) 손실함수를 사용하여 예측한 ID $FC(f_{a-offset})_{i}$가 정답 ID $t_{i}$와 일치하도록
한다.
4. 실험 및 결과 분석
4.1 데이터 셋
학습 및 테스트에 도쿄 시의 도심 지역을 이동하는 차량에서 촬영한 TITAN 데이터(8)를 사용한다. 각 데이터의 프레임 해상도는 2704x1520이고, 카테고리(Category)는 사람, 사륜차, 이륜차 3개로 구성된다. 데이터 수와
사륜차 카테고리의 ID수가 표 1에 나타나 있다. 본 논문에서는 사륜차 카테고리만을 사용한다.
표 1. TITAN 데이터 셋 구성
Table 1. TITAN dataset
|
Clips
|
Frames
|
Car
|
Train
|
400
|
40,681
|
1,665
|
Validation
|
200
|
21,400
|
728
|
Test
|
100
|
12,380
|
523
|
4.2 평가지표
평가지표로 MOTA(9), FP, FN, IDs, IDF1(10)과 FPS를 사용한다. MOTA를 구성하는 FN, FP와 IDs는 추적기가 실제 물체가 있는데 검출을 못한 사례, 실제 물체가 없는데 검출한 사례,
그리고 임의의 객체에 대한 추적 ID가 바뀐 사례를 의미한다. IDF1은 임의의 객체에 대해 추적기가 얼마나 일관되게 ID를 부여하는지를 측정하는
지표이다. 그리고 이를 구성하는 IDTP(True Positive Identities), IDFP(False Positive Identities)와
IDFN(False Negative Identities) 각각은 추적기가 실제 객체에 올바른 예측 ID를 부여한 경우, 틀린 ID를 예측한 경우,
실제 객체가 틀린 ID를 부여받거나 어떠한 ID도 부여 받지 못한 경우를 의미한다. FPS는 초당 프레임 처리 수를 의미한다. MOTA와 IDF1에
대한 식 (11)과 (12)에 나와 있다.
4.3 실험 세부사항
실험에 사용되는 객체 검출기는 COCO(13) 데이터로 사전 학습된 YOLOX-tiny를 사용하고 재식별 모델은 학습되지 않은 FPN구조를 사용한다. 연관은 Bot-SORT(2)방식을 이용한다. 입력 이미지는 1,440x800로 재조정하고, 외형특징 벡터 차원은 256, 오프셋은 1개를 사용한다. 데이터 증강은 roation,
rescaling, shearing, mosaic, mixup을 적용한다. 하이퍼 파라미터는 옵티마이저로 모멘텀 값이 0.9인 SGD, 러닝 레이트
0.005, 배치 사이즈 32, 에폭 80을 사용한다.
4.4 실험 결과
제안된 방법의 유효성을 확인하기 위해 TITAN 데이터 셋으로 실험한 FairMOT(3), ByteTrack(1), YOLOX+one_shot, YOLOX+ decoupled_pafpn과 비교한다. YOLOX+one_shot은 원샷 다중객체 추적기의 검출기를
YOLOX로 사용한 것을 의미하고, YOLOX+ decoupled_pfpan은 제안기법의 넥을 PAFPN으로 사용한 것을 의미한다. 표 2는 FairMOT, ByteTrack, YOLOX+one_shot, YOLOX+ decoupled_pafpn과 제안 기법 네트워크에 대한 파라미터
수와 FPS가 나타나 있다.
표 3은 TITAN 데이터에 대한 비교 실험 결과이다. 제안 기법이 IDF1, MOTA에서 성능이 우수한 것을 볼 수 있다. 표 3에서 아래 4개의 기법과 달리 FairMOT는 CenterNet 객체 검출기를 사용하여 성능이 미흡하다. 반면 아래 3개의 방법은 YOLOX-Tiny
객체 검출기를 사용하며 낮은 컨피던스 점수(Confidnc Score)를 갖는 검출 객체도 추적하는 Byte(1) 연관 기법을 사용하여 성능이 전반적으로 우수하다.
표 2. 파라미터 수와 FPS 비교
Table 2. Comparison Parameters and FPS on TITAN dataset
Method
|
Parameters
|
FPS(↑)
|
FairMOT(3)
|
16.5M
|
30.1
|
ByteTrack(1)
|
5.03M
|
73.39
|
YOLOX+one_shot
|
6.2M
|
70.96
|
YOLOX+decoupled_pafpn
|
7.86M
|
65.9
|
Proposed
|
6.34M
|
68.69
|
제안된 방법은 IDF1/MOTA/FP/FN/IDs에서 각각 83.7%/75%/1,887개/5,561개/155개를 달성했다. 그리고 6.34M개의 파라미터
수를 가지며 68.69FPS를 얻었다. IOU 기반의 다중객체 추적 방식인 ByteTrack보다 파라미터 수는 1.31M많고 FPS는 4.7만큼 느리지만,
IDF1/MOTA에서 각각 0.2%/0.2% 증가되었으며 FP/FN/IDs에서 각각 194개/-80개/-6개 감소했다.
4.5 오프셋 적용 결과
표 4는 center point, MTCL(Multi-View Contrastive Learning)과 본 논문에서 제안된 오프셋 방식을 이용해 외형특징
추출했
을 때 결과이다. Center point는 물체의 중심위치에 대응되는 곳에서 외형특징 벡터를 추출한 것을 나타내고 MTCL은 (4)에서 사용된 오프셋을 이용하여 추출한 것을 의미한다. center point보다 제안된 오프셋을 이용했을 때, IDF1/MOTA에서 각각 0.15%/0.35%
향상했으며 FP/FN/IDs에서 각각 64개/17개/19개 감소했다.
표 3. TITAN 데이터에 대한 비교 실험 결과
Table 3. Comparison other method on TITAN dataset
Method
|
IDF1
(↑)
|
MOTA
(↑)
|
FP
(↓)
|
FN
(↓)
|
IDs
(↓)
|
FairMOT(3)
|
49.8
|
40.1
|
237
|
17,695
|
261
|
ByteTrack(1)
|
83.5
|
74.8
|
2,034
|
5,481
|
149
|
YOLOX+
one_shot
|
82.5
|
74.3
|
2,080
|
5,526
|
189
|
YOLOX+ decoupled_pafpn
|
82.8
|
74.5
|
2,079
|
5,459
|
210
|
Proposed
|
83.7
|
75
|
1,887
|
5,561
|
155
|
표 4. 외형특징 추출 방식 비교
Table 4. Comparison method of appearance feature extraction on TITAN dataset
Method
|
IDF1
(↑)
|
MOTA
(↑)
|
FP
(↓)
|
FN
(↓)
|
IDs
(↓)
|
center point
|
83.55
|
74.65
|
1,951
|
5,578
|
174
|
MTCL(4) offset
|
82.6
|
74.4
|
1,988
|
5,572
|
211
|
Proposed offset
|
83.7
|
75
|
1,887
|
5,561
|
155
|
4.6 객체 추적 예시
그림 7은 TITAN 데이터에 대한 제안한 기법의 객체 추적 예시이다. 객체가 가려진 경우, 사라졌다 다시 등장한 경우 그리고 여러 객체가 등장한 경우에도
객체 추적이 잘되는 것을 볼 수 있다.
그림. 7. 객체 추적 예시
Fig. 7. Example of Object Tracking
5. 결 론
본 논문에서는 기존 원 샷 다중객체 추적 구조에서 객체 카테고리 분류와 객체의 고유한 ID 분류 간의 상충되는 문제를 완화하기 위해 객체 검출기에
FPN 기반의 외형특징 추출 모듈을 병렬적으로 추가한 모델을 구성하였다. 또한 객체가 가려진 경우에도 고유한 외형특징 벡터를 추출하기 위해서, 각
객체 크기에 따라 가변적으로 대응하는 오프셋 메카니즘을 적용하였다. TITAN 데이터 셋에 대한 비교 실험 결과, 기존 기법들에 비해 제안 기법이
주요 성능 지표인 IDF1, MOTA 등에서 우수함을 보였다. 다만 원 샷 다중객체 추적 기법보다 일부 파라미터 증가로 인해서 약간의 처리 속도가
상승한다. 향후에는 성능 향상과 처리속도의 유지를 위해서 객체 분류와 고유한 ID 분류의 통합 방법을 모색할 계획이다.
References
Y. Zhang, P. Sun, Y. Jiang, D. Yu, F. Weng, Z. Yuan, P. Luo, W. Liu, X. Wang, 2022,
ByteTack: Multi-object Tracking by Association Every Detection Box, in Proceedings
of the European conference on computer vision (ECCV), pp. 1-21
N. Aharon, R. Orfaig, B. Borbrovsky, 2022, BoT-SORT: Robust Associations Multi-Pedestrian
Tracking, arXiv preprint arXiv:2206.14651
Y. Zhang, C. Wang, X. Wang, 2021, FairMOT: On the Fairness of Detection and Re-identification
in Multiple Object Tracking, International Journal of Computer Vision, pp. 3069-3087
E. Yu, Z. Li, S. Han, 2022, Towards Discriminative Representation: Multi-view Trajectory
Contrastive Learning for Online Multi-object Tracking, in Proceedings of the IEEE/CVF
International Conference on Computer Vision, pp. 8834-8843
Z. Ge, S. Liu, F. Wang, Z. Li, J. Sun, 2021, YOLOX: Exceeding YOLO Series in 2021,
arXiv preprint arXiv:2107.08430
X. Zhou, D. Wang, P. Krähenbühl, 2019, Objects as points, arXiv preprint arXiv:1904.07850
T. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, S. Belongie, 2017, Feature Pyramid
Networks for Object Detection, in Proceedings of the IEEE/CVF International Conference
on Computer Vision, pp. 2117-2125
S. Malla, B. Dariush, C. Choi, 2020, TITAN: Future Forecast Using Action Priors, in
Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 11186-11196
K. Bernardin, R. Stiefelhagen, 2008, Evaluating Multiple Object Tracking Performance:
The CLEAR MOT Metrics, EURASIP Journal on Image and Video Processing, pp. 1-10
E. Ristani, F. Solera, R. S. Zou, R. Cucchiara, C. Tomasi, 2016, Performance Measures
and a Data Set for Multi-Target, Multi-Camera Tracking, in Proceedings of the European
conference on computer vision (ECCV), pp. 17-35
A. Bochkovskiy, C. Wang, H. M. Liao, 2020, YOLOv4: Optimal Speed and Accuracy of Object
Detection, arXiv preprint arXiv:2004.10934
S. Liu, L. Qi, H. Qin, J. Shi, J. Jia, 2018, Path Aggregation Network for Instance
Segmentation, in Proceedings of the IEEE/CVF International Conference on Computer
Vision, pp. 8759-8768
T. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, C. L. Zitnick,
2014, Microsoft COCO: Common Objects in Context, in Proceedings of the European conference
on computer vision (ECCV), pp. 740-755
저자소개
He received BS degrees from Electronics Engineering from Seokyong University, Seoul,
Korea, in 2021.
He received BS degrees MS degree in Electronics and Computer Engineering at Seokyong
University in 2023, His research interests include deep learning, computer vision,
object detection amd tracking.
He received the BS, MS, and Ph.D degrees in Electrical Engineering from Yonsei University,
Seoul, Korea, in 1986, 1988, and 1993 respectively.
He is currently Professor of Electronics Engineering, Seokyeong University.
His research interests include deep learning, computer vision, evolutionary computation,
and intelligent robotics.