엄태현
(Tae-Hyun Eom)
1iD
백우진
(Woojin Paik)
†iD
-
(Dept. of Computer Engineering, Konkuk University Glocal Campus, Republic of Korea.)
Copyright © The Korea Institute for Structural Maintenance and Inspection
Key words
Distance Estimation, Object Detection, Depth Estimation, Point Cloud, Stereo Camera, Mono Camera
1. 서 론
자율주행 기술은 현대 산업의 핵심 요소로 자리 잡고 있으며, 다양한 센서와 알고리즘의 융합을 통해 작동한다. 자율주행 로봇과 차량의 환경 인식 능력은
안전한 이동과 효율적인 작업 수행을 위해 필수적이다. 환경을 이해하고 인식하는 성능과 안전성을 향상시키기 위한 연구가 활발히 진행되고 있다. 이를
위해 Stereo Camera, LiDAR, RADAR와 같은 다양한 센서들이 활용된다[1-2]. 그 중에서도 Stereo Camera는 인간의 시각 시스템과 유사하게 작동하며, 두 개의 카메라를 통해 깊이 정보를 계산한다. 서로 다른 두 시점에서
촬영된 이미지를 비교하여 픽셀 간 시차를 계산하고, 이를 기반으로 삼각측량 원리를 적용하여 물체와의 거리를 산출한다[3]. Stereo Camera를 이용한 객체 감지 및 거리 산출 방식은 Mono Camera와 LiDAR를 결합하여 사용하는 방식보다 효율적이다. 또한,
Stereo Camera의 데이터는 3차원 공간에서 여러 포인트로 이루어진 Point Cloud 데이터를 생성하는 데 활용될 수 있으며, 이는 자율주행의
핵심 기술 중 하나인 Visual SLAM(Simultaneous Localization and Mapping) 구현에 중요한 역할을 한다. 그러나
Stereo Camera의 높은 비용은 자율주행 로봇과 차량의 상용화 과정에서 비용 부담을 증가시키는 주요 장애 요소로 작용하고 있다.
이러한 이유로, Mono Camera를 이용한 객체 감지 및 실제 거리(미터 단위) 추정을 위한 연구가 다음과 같은 방법으로 진행되었다. 첫 번째
방법은 YOLOv2[4]를 사용하여 감지된 객체의 클래스와 바운딩 박스 크기를 추출한 후, KITTIdataset[5]을 활용한 회귀 모델을 통해 거리 값을 추정한다[6]. 두 번째 방법은 YOLOv5를 사용하여 객체를 감지하고, Depth Estimation 모델을 통해 이미지에서 절대 깊이를 추정하여 거리 값을
산출하는 방식이다[7]. 세 번째 방법은 객체 감지 작업에 DETR[8]을 사용하고 감지된 객체에 따라 XGBoost[9]나 LSTM에 바운딩박스의 좌표, 깊이 값을 피쳐로 넣어 거리를 추정한다[10]. 대부분의 Mono Camera 기반 Depth Estimation 모델들은 상대적 깊이 추정 방식으로 절대 거리인 실제 거리(미터 단위)를 예측하는
용도로 사용하는데에 어려움이 있다. 이를 해결하기 위해 위의 연구들은 회귀 모델이나 LSTM 같은 별도의 모델을 사용해 실제 거리를 추정했으며, 높은
정확도를 보였다. 하지만, 이 방법들은 Point Cloud에 적용하기 어렵다는 한계점이 있다. 자율주행 기술에서 Mono Camera의 활용도를
높이고 Stereo Camera를 대체하기 위해서는 Point Cloud 생성을 통한 Visual SLAM 구현이 중요하다.
표 1 Zero-Shot 절대 깊이 추정 모델의 성능을 비교[12]
Table 1 Compare the performance of the Zero-Shot absolute depth estimation model[12]
구분
|
SUN RGB-D
[13]
|
iBims-1
[14]
|
HyperSim
[15]
|
Virtual KITTI 2
[16]
|
DIODE Outdoor
[17]
|
AbsRel
(↓)
|
$\delta_{1}$
(↑)
|
AbsRel
|
$\delta_{1}$
|
AbsRel
|
$\delta_{1}$
|
AbsRel
|
$\delta_{1}$
|
AbsRel
|
$\delta_{1}$
|
ZeoDepth
[18]
|
0.520
|
0.545
|
0.169
|
0.656
|
0.407
|
0.302
|
0.106
|
0.844
|
0.814
|
0.237
|
Depth Anything
[12]
|
0.500
|
0.660
|
0.150
|
0.714
|
0.363
|
0.361
|
0.085
|
0.913
|
0.794
|
0.288
|
이에 따라, 본 논문에서는 YOLOv8과 Depth Anything V2[11]를 활용한 객체 감지 및 깊이 추정을 기반으로 Point Cloud를 이용하여 객체 거리를 추정하는 방법을 제안한다. 이는 Point Cloud를
통해 추정된 거리 값을 보정하여 더욱 정밀한 Point Cloud 데이터를 생성할 수 있는 가능성을 제시한다.
본 논문의 구성은 다음과 같다. 2장에서는 연구에 사용된 객체 감지 및 깊이 추정 모델을 다룬다. 3장에서는 실험 장비와 방법을 설명하고, 그 결과를
제시한다. 마지막으로, 4장에서는 본 연구의 결론과 향후 연구 방향을 논의한다.
2. 객체 감지 및 깊이 추정 모델
본 논문에서는 Mono Camera를 활용한 객체 감지 및 깊이 추정을 통해 Point Cloud를 생성하고, 이를 거리 값 산출에 적용하는 방법을
제안한다. 객체 감지에는 YOLOv8을, 깊이 추정과 Point Cloud 생성에는 Depth Anything V2를 사용한다.
2.1 객체 감지 모델인 YOLOv8
YOLO[19]는 객체 감지 분야에서 대표적인 1-stage Detector 모델로 알려져 있다. 2015년 첫 버전이 발표된 이후, 많은 연구자들에 의해 지속적으로
개선된 버전들이 발표되었다. 특히, Ultralytics가 발표한 YOLOv5는 기존에 사용되던 DarkNet 프레임워크를 PyTorch로 변경하여
사용자 친화적인 환경을 제공하였으며, 현재까지 널리 사용되고 있다[20-21]. YOLOv8은 YOLOv5의 네트워크 구조 일부를 변경하여 모델 크기를 줄이는 동시에 정확도와 속도를 개선하였고, API 형식으로 배포되어 개발
환경 구축과 사용이 더욱 용이해졌다.
표 2 기본 모델인 YOLOv8s와 INT8로 양자화한 모델인 YOLOv8s(INT8)를 비교
Table 2 Comparison of YOLOv8s, a basic model, and YOLOv8s(INT8), a model quantized
with INT8
구분
|
mAP50-95
|
Speed(ms)
|
YOLOv8s
|
44.7
|
33.1
|
YOLOv8s
(INT8)
|
41.2
|
8.2
|
본 논문에서는 Ultralytics가 2023년에 발표한 YOLOv8을 사용하였다. 높은 정확도와 빠른 추론을 위해 YOLOv8s를 기반으로 INT8
양자화를 적용한 TensorRT 모델을 생성하여 활용하였다. 표 2는 기본 모델인 YOLOv8s와 INT8 양자화 모델인 YOLOv8s(INT8)의 mAP50-95 및 추론 속도를 비교한 결과이다. YOLOv8 모델은
COCO[22] 데이터셋 중 COCO2017의 train 데이터를 사용하여 학습하였으며, 표 2의 평가에는 동일한 데이터셋의 val 데이터가 사용되었다. 모든 실험은 NVIDIA Jetson Orin Nano에서 진행되었다. INT8 양자화
모델은 기본 모델에 비해 mAP50-95에서 3.5의 성능 저하를 보였으나, 추론 속도는 약 4배 향상된 것을 확인할 수 있었다.
2.2 깊이 추정 모델인 Depth Anything V2
깊이 추정은 단일 이미지에서 깊이 정보를 추론하는 작업으로, 객체들의 상대적인 깊이를 구분하는 방식이 주로 사용된다. 본 논문에서는 실제 거리(미터
단위)를 예측해야하므로 절대 깊이를 추정할 수 있는 모델을 필요로 한다.
표 1은 Zero-Shot 절대 깊이 추정 모델인 ZeoDepth와 Depth Anything 모델의 깊이 추론 성능을 비교한 결과이다. 실내 환경의 데이터셋(SUN
RGB-D, iBims-1, HyperSim)과 외부 환경의 데이터셋(Virtual KITTI 2, DIODE Outdoor)을 각각 평가한 결과
Depth Anything 모델이 모든 데이터셋에서 우수한 깊이 추론 성능을 보였다.
본 논문에서 사용하는 Depth Anything V2는 Depth Anything의 개선된 버전으로, 실제 이미지와 컴퓨터 그래픽으로 생성된 합성
이미지를 대량으로 학습한 사전 학습(Pre-trained) 모델을 제공한다. Depth Anything V2는 Zero-Shot 깊이 추정 모델로
단일 이미지나 영상 내 모든 객체의 깊이를 추정할 수 있다. 이를 자율주행 기술에 적용한다면, 복잡한 주행 환경에서 다양한 객체의 깊이를 추정해 Point
Cloud를 생성할 수 있다.
본 논문에서는 실내 환경에서 실제 거리(미터 단위)를 추정하기 위해 Hypersim 데이터셋으로 파인튜닝(fine-tuning)된 모델 중 가장 작은
모델인 “Depth-Anything-V2-Small” 모델을 사용하였다. 이 모델은 논문에서 제안하는 거리 추정 방법의 핵심 요소인 깊이를 추정하고
Point Cloud를 생성하는 역할을 담당한다.
그림 1. a)는 실제 이미지, b)는 a)의 이미지에 Depth Anything V2를 사용해 Point Cloud를 생성한 이미지, c)는 b)가
일반 이미지가 아닌 Point Cloud의 무수한 점들로 이루어져 있으며 거리값을 가지고 있는 것을 보여주는 옆 모습 이미지
Fig. 1. a) is the actual image, Fig. 1 b) shows the Point Cloud generated by applying
Depth Anything V2 to the image in Fig. 1 a), and Fig. 1 c) presents a side view, illustrating
that Fig. 1 b) is not a conventional image but is composed of countless points in
the Point Cloud, each with a corresponding distance value.
그림 2. NVIDIA Jetson Orin Nano Developer Kit 8GB[23]
Fig. 2. NVIDIA Jetson Orin Nano Developer Kit 8GB[23]
그림 1은 단일 이미지에 Depth Anything V2를 적용하여 Point Cloud를 생성하고 이를 시각화한 결과를 나타낸다. 그림 1의 a)는 실제 카메라로 촬영한 이미지이며, b)는 a)의 이미지에 Depth Anything V2를 사용하여 깊이를 추정하고 Point Cloud를 생성한 결과이다. c)는 b)가 일반 이미지가 아닌 Point Cloud의 무수한 점들로 구성되어 있으며, 각 점이 거리 값을 가진다는 것을 보여주는 측면 시각화 이미지이다.
3. 실 험
3.1 실험 장비 및 환경
3.1.1 NVIDIA Jetson Orin Nano
자율주행 로봇과 자동차는 이동 중에 다양한 작업을 수행해야 하므로 경량화된 고성능 장비가 필요하다. 이에 따라, 실시간 데이터 처리가 용이한 엣지
컴퓨팅 기반의 임베디드 보드가 적합하며, 본 논문에서는 그림 2에 제시된 NVIDIA Jetson Orin Nano 보드를 사용하였다. 이 보드는 이전 세대인 Jetson Nano에 비해 AI 성능이 크게 향상된
버전으로, 객체 감지와 깊이 추정을 동시에 처리해야 하는 복잡한 추론 작업에 적합하여 선정되었다.
표 3 NVIDIA Jetson Orin Nano Developer Kit 8GB 사양[23]
Table 3 NVIDIA Jetson Orin Nano Developer Kit 8GB Specification[23]
항목
|
내용
|
AI Performance
|
40 TOPS
|
GPU
|
1024-core NVIDIA Ampere architecture GPU with 32 Tensor Cores
|
CPU
|
6-core Arm Cortex-A78AE v8.2 64-bit CPU, 1.5MB L2 + 4MB L3
|
Memory
|
8GB 128-bit LPDDR5 | 68GB/s
|
Storage
|
External micro SD Card Slot & External NVMe via M.2 Key M
|
3.1.2 ZED2i
자율주행 기술에서 Stereo Camera는 중요한 센서로, 로봇과 자동차의 주변 환경 인식을 담당하며 원활한 이동과 작업 수행을 지원한다. 본 논문에서는
ZED사의 ZED2i Stereo Camera를 사용하였다. 이는 본 논문에서 제안하는 방법과 기존 Stereo Camera를 이용한 거리 측정 방법을
비교하기 위해 선정되었다.
3.1.3 실험 환경
본 논문에서 제안하는 YOLOv8과 Depth Anything V2를 활용한 객체 감지 및 깊이 추정을 기반으로 Point Cloud를 이용하여 객체
거리를 추정하기 위해 실험 환경을 구축했다. ZED2i Stereo Camera를 약 40cm 높이의 박스 끝에 고정하고, 줄자를 사용해 전방의 3m,
5m, 7m, 9m 지점을 측정하여 각각 표시하였다. 그림 4는 각 거리(3m, 5m, 7m, 9m)에 의자를 배치한 후, Stereo Camera로 촬영한 이미지이다. 이때, Stereo Camera로부터
오른쪽 카메라 이미지, 왼쪽 카메라 이미지, 그리고 깊이 값이 저장된다.
3.2 실험 방법
실험은 네 가지로 구분된다. 첫 번째는 3m 지점에 객체를 배치한 환경인 exp1, 두 번째는 5m 지점에 객체를 배치한 환경인 exp2, 세 번째는
7m 지점에 객체를 배치한 환경인 exp3, 마지막 네 번째는 9m 지점에 객체를 배치한 환경인 exp4이다. 이때, 객체는 두 가지 종류로 의자
또는 사람을 배치해서 각각 실험을 진행했다. 실험은 세 가지 Mono Camera 기반 방법과 기존 Stereo Camera를 이용한 방법을 비교하는
형식으로 진행된다. Mono Camera 이미지는 Stereo Camera의 왼쪽 카메라로 촬영한 이미지를 사용한다. 정확한 비교를 위해 동일한 이미지를
기반으로, 본 논문에서 제안하는 Mono Camera 기반의 거리 측정 방법과 기존의 Stereo Camera를 이용한 거리 측정 방법을 비교하였다.
그림 4. 3m, 5m, 7m, 9m 지점에 의자를 놔둔 이미지
Fig. 4. Images of chairs placed at 3m, 5m, 7m, and 9m.
3.2.1 Mono Camera의 이미지 - depth
그림 5는 깊이 (depth) 이미지를 활용하여 거리를 추정하는 과정을 간략히 설명한 이미지이다. 주어진 이미지를 YOLOv8과 Depth Anything
V2에 입력하여 객체를 감지한 후, 깊이 추정 및 Point Cloud를 생성한다. 이 과정에서 감지된 객체의 바운딩 박스중앙 좌표에 해당하는 Point
Cloud 값을 추출하여 거리 값을 산출한다.
그림 5. 이미지를 각각 YOLOv8과 Depth Anything V2에 넣고 추출된 결과를 이용해 거리를 추정하는 과정
Fig. 5. illustrates the process of using YOLOv8 and Depth Anything V2 for image processing
and distance estimation based on the extracted results.
3.2.2 Mono Camera의 이미지 - bbox
수식 (1)은 바운딩 박스를 활용한 거리 추정 방법을 나타낸다. $f$는 카메라의 초점 거리(픽셀 단위)를 의미하며, ZED2i의 HD1080 이미지에 적용된
초점 거리 값인 1066을 사용하였다.$W$는 객체의 실제 너비(미터 단위)로, 실험에서는 감지된 객체에 따라 다르게 적용하였다. 의자는 실제 너비인
0.4m, 사람은 0.5m를 적용하였다. $w$는 바운딩 박스의 너비(픽셀 단위)로, 객체 감지 후 계산된 바운딩 박스의 너비를 사용하였다.
3.2.3 Mono Camera의 이미지 – blend
blend 방법은 앞서 설명한 깊이 이미지를 활용한 방법과 바운딩 박스를 이용한 방법을 결합한 것이다. 두 방법으로 얻어진 거리 값을 평균내어 최종
거리를 계산하였다.
3.2.4 Stereo Camera를 이용한 기존의 방법
Stereo Camera는 두 개의 카메라를 사용하여 물체의 깊이를 계산한다. 서로 다른 두 시점에서 촬영된 이미지를 비교하여 각 픽셀 간 시차를
계산하고, 이를 기반으로 삼각측량 원리를 적용하여 물체와의 거리를 산출한다. 본 연구에서는 ZED사에서 제공하는 레퍼런스를 활용하여 Point Cloud
값을 추출하고, 이를 통해 거리 값을 산출하였다.
3.3 실험 결과
표 4은 3m 거리에 객체를 배치한 실험(exp1), 5m 거리에 객체를 배치한 실험(exp2), 7m 거리에 객체를 배치한 실험(exp3), 9m 거리에
객체를 배치한 실험(exp4)의 결과를 보여준다. 깊이 (depth) 이미지를 이용한 방법은 실제 거리와의 차이가 크게 나타난 반면, 바운딩 박스를
이용한 방법은 깊이 이미지 기반 방법보다 차이가 적었다. Blend 방식을 사용한 경우, 깊이 이미지 방식과 바운딩 박스 방식의 오차를 줄여 실제
거리에 비교적 근접한 결과를 보였다. 그러나 전반적으로는 기존의 Stereo Camera 방식을 이용한 방법에 비해 실제 거리와의 차이가 크게 나타났다.
표 4 실험 결과를 정리한 표
Table 4 A table summarizing the experiment results
구분
|
의자
|
사람
|
exp1
|
exp2
|
exp3
|
exp4
|
exp1
|
exp2
|
exp3
|
exp4
|
Mono
|
depth
|
1.97m
|
4.39m
|
5.97m
|
7.91m
|
3.23m
|
5.42m
|
7.98m
|
9.5m
|
bbox
|
3.4m
|
5.72m
|
7.66m
|
9.83m
|
3.68m
|
5.88m
|
8.15m
|
10.53m
|
blend
|
2.69m
|
5.06m
|
7.13m
|
8.87m
|
3.46m
|
5.65m
|
7.92m
|
10.02m
|
Stereo
|
3.44m
|
5.01m
|
7.03m
|
8.96m
|
2.93m
|
4.77m
|
6.53m
|
8.33m
|
Actual distance
|
3m
|
5m
|
7m
|
9m
|
3m
|
5m
|
7m
|
9m
|
추가로, 실제 카메라에서 실시간으로 적용 가능한지 여부를 검증하기 위한 실험을 진행하였다. 표 5는 실시간 카메라에 적용했을 때의 FPS(Frame Per Second) 성능을 정리한 결과이다. 깊이 이미지를 이용한 방법과 Blend 방법은 추론
속도가 매우 느려 실시간 영상에 적용하기에 적합하지 않았다. 그러나 바운딩 박스를 이용한 방법은 Stereo Camera 방식을 사용한 방법보다 계산
속도가 더 빠른 것을 확인할 수 있었다.
표 5 실시간 카메라에서의 FPS를 정리한 표
Table 5 Table summarizing FPS for real-time cameras
구분
|
FPS
|
Mono
|
depth
|
2.8
|
bbox
|
56
|
blend
|
2.8
|
Stereo
|
38
|
4. 결 론
본 연구는 Mono Camera에서 객체 감지 및 깊이 추정을 기반으로 Point Cloud를 활용한 거리 추정 방법을 제안한다. 이 방법은 Point
Cloud를 생성함으로써 단일 이미지로부터 객체의 3차원 위치 정보를 추출할 수 있어, Mono Camera의 활용 가능성을 높이며, 자율주행 기술이
적용된 로봇과 자동차의 비용 부담을 감소시키는 효과를 제공한다. 그러나 자율주행 기술에서 널리 사용되는 Stereo Camera 기반의 방법에 비해
실제 거리와의 오차가 크다는 한계가 확인되었다. 이는 Depth Estimation 기술이 실제 거리 값을 정확하게 반영하지 못하며, 빛이나 조도와
같은 환경적 요인으로 인해 불안정한 성능을 보이기 때문이다. 이러한 문제는 추가적인 개선이 필요함을 시사한다. 그럼에도 불구하고, 깊이 추정 기반
Point Cloud 방식과 바운딩 박스 기반 거리 추정 방식을 혼합한 방법은 비교적 안정적인 성능을 보여 상호 보완적인 효과를 나타냈다. 이를 개선하여
Point Cloud 방식을 사용한 거리 추정 방식의 거리 보정 값으로 사용한다면 Mono Camera를 이용해 세밀한 Visual SLAM 구현이
가능할 것으로 예상된다.
본 연구 결과를 바탕으로 향후 연구는 다음과 같은 방향으로 진행될 수 있다. 첫째, Depth Estimation 모델의 정확도를 향상시키고, 다양한
환경에서도 안정적인 성능을 발휘할 수 있도록 개선하는 연구가 필요하다. 둘째, 제안된 방법이 실시간으로 적용될 수 있도록 Depth Estimation
모델을 경량화하는 연구가 필요하다.
기존의 Mono Camera 기반 거리 추정 방법들은 거리 추정 이외의 활용도가 제한적이었다. 그러나, 본 연구에서 제안한 방법은 Point Cloud를
활용함으로써 실제 거리와의 오차를 줄이고 추론 속도를 개선한다면, 자율주행의 핵심 센서인 Stereo Camera를 대체하여 자율주행 기술이 적용된
로봇이나 자동차의 비용 부담을 감소시킬 수 있을 것으로 기대된다.
References
Liangkai Liu et al., “Computing Systems for Autonomous Driving: State-of-the-Art and
Challenges,” IEEE Internet Things, vol. 8, no. 8, pp. 6469–6486, 2021. DOI: 10.48550/arXiv.2009.14349

Xuan Wang et al., “Multi-Sensor Fusion Technology for 3D Object Detection in Autonomous
Driving: A Review,” IEEE Transactions on Intelligent Transportation Systems, vol.
25, no. 2, pp. 1148-1165, 2024. DOI: 10.1109/TITS.2023.3317372

E. DANDIL, and K. K. ÇEVİK, “Computer Vision Based Distance Measurement System using
Stereo Camera View,” 2019 3rd International Symposium on Multidisciplinary Studies
and Innovative Technologies (ISMSIT), pp. 1-4, 2019. DOI: 10.1109/ISMSIT.2019.8932817

J. Redmon, and A. Farhadi, “YOLO9000: Better, Faster, Stronger,” 2017 IEEE Conference
on Computer Vision and Pattern Recognition (CVPR), pp. 6517-6525, 2017. DOI: 10.1109/CVPR.2017.690

A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? The KITTI
vision benchmark suite,” 2012 IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), pp. 3354-3361, 2012. DOI: 10.1109/CVPR.2012.6248074

H. Kim, and S. Park, “Monocular Camera based Real-Time Object Detection and Distance
Estimation Using Deep Learning,” The Journal of Korea Robotics Society, vol. 14, no.
4, pp. 357–362, 2019. DOI: 10.7746/jkros.2019.14.4.357

A. Masoumian et al., “Absolute distance prediction based on deep learning object detection
and monocular depth estimation models,” Artificial Intelligence Research and Development,
pp. 325-334, 2021. DOI: 10.3233/FAIA210151

N. Carion et al., “End-to-End object detection with Transformers,” Computer Vision
– ECCV 2020, vol. 12346, pp. 213–229, 2020. DOI: 10.1007/978-3-030-58452-8_13

Tianqi Chen, and Carlos Guestrin, “Xgboost: A scalable tree boosting system,” arXiv,
2016. DOI: 10.48550/arXiv.1603.02754

Seungyoo Lee et al., “Vehicle Distance Estimation from a Monocular Camera for Advanced
Driver Assistance Systems,” Symmetry, vol. 14, no. 12, 2657, 2022. DOI: 10.3390/sym14122657

Yang, Lihe et al., “Depth Anything V2,” arXiv, 2024. DOI: 10.48550/arXiv.2406.09414

Yang, Lihe, and Kang et al., “Depth Anything: Unleashing the Power of Large-Scale
Unlabeled Data,” 2024 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),
pp. 10371-10381, 2024. DOI: 10.48550/arXiv.2401.10891

S. Song et al., “SUN RGB-D: A RGB-D scene understanding benchmark suite,” 2015 IEEE
Conference on Computer Vision and Pattern Recognition (CVPR), pp. 567-576, 2015. DOI:
10.1109/CVPR.2015.7298655

T. Koch et al., “Evaluation of CNN-based Single-Image Depth Estimation Methods,” Proceedings
of the European Conference on Computer Vision (ECCV) Workshops, 2018. DOI: 10.48550/arXiv.1805.01328

Roberts, Mike, and Nathan Paczan, “Hypersim: A Photorealistic Synthetic Dataset for
Holistic Indoor Scene Understanding,” 2021 IEEE/CVF International Conference on Computer
Vision (ICCV), pp. 10912-10922, 2021. DOI: 10.48550/arXiv.2011.02523

Yohann Cabon, Naila Murray, and Martin Humenberger, “Virtual kitti 2,” arXiv, 2020.
DOI: 10.48550/arXiv.2001.10773

Vasiljevic et al., “DIODE: A Dense Indoor and Outdoor DEpth Dataset,” arXiv, 2019.
DOI: 10.48550/arXiv.1908.00463

Shariq Farooq Bhat et al., “Zoedepth: Zero-shot transfer by combining relative and
metric depth,” arXiv, 2023. DOI: 10.48550/arXiv.2302.12288

J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, “You Only Look Once: Unified,
Real-Time Object Detection,” 2016 IEEE Conference on Computer Vision and Pattern Recognition
(CVPR), pp. 779-788, 2016. DOI: 10.1109/CVPR.2016.91

Z. Zou et al., “Object Detection in 20 Years: A Survey,” in Proceedings of the IEEE,
vol. 111, no. 3, pp. 257-276, 2023. DOI: 10.1109/JPROC.2023.3238524

P. Jiang et al., “A Review of YOLO Algorithm Developments,” Procedia Computer Science,
vol. 199, pp. 1066-1073, 2022. DOI: 10.1016/j.procs.2022.01.135

Lin, TY et al., “Microsoft COCO: Common Objects in Context,” Computer Vision – ECCV
2014, vol 8693, pp. 740-755, 2014. DOI: 10.1007/978-3-319-10602-1_48

NVIDIA, “NVIDIA Jetson Orin”, https://www.nvidia.com/en-us/autonomous-machines/embedded-systems/jetson-orin/

stereolabs, “stereolabs Docs: API Reference, Tutorials, and Integration”, https://www.stereolabs.com/docs

저자소개
He received his B.S. degree in Software from Konkuk University GLOCAL Campus in 2024.
He is currently pursuing his M.S. degree in Computer Engineering at Konkuk University.
His research interests include Computer Vision, Robotics, and Natural Language Processing.
He received a Ph.D. in information transfer from Syracuse University, USA, and a Bachelor
of Engineering degree in civil engineering from Yonsei University, South Korea, respectively,
in 2000 and 1988. He was a director of R&D at TextWise, LLC, and a chief scientist
at Solutions-United.com, Inc., in Syracuse, USA, from 1994 to 2001. He also worked
as an assistant professor at the Department of Computer Science at the University
of Massachusetts, Boston, from 2001 to 2004. Since then, he has been with Konkuk University
Glocal Campus as a computer engineering professor. His research interests lie in natural
language processing, computer vision, and software engineering.