박무재
(Mujae Park)
1iD
김윤아
(Yun A Kim)
1iD
차희주
(Heeju Cha)
1iD
이상윤
(Sangyun Lee)
†iD
-
(Division of Information Technology, Sungkonghoe University, Republic of Korea. E-mail
: mujae9837@gmail.com , kyaa0903@gmail.com, chaheeju01@gmail.com )
Copyright © The Korea Institute for Structural Maintenance and Inspection
Key words
Campus tour, Mobile application, Place recognition, Generative models, Commemorative photo
1. 서 론
대학교 캠퍼스 관광 활동은 지역 주민과 예비 학생을 포함한 방문자에게 대학교의 환경 및 제반 시설, 역사 등을 홍보할 수 있는 좋은 기회이다. 최근
스마트 기기의 보급이 확대되고, 비대면 관광이 강조됨에 따라 모바일 애플리케이션을 이용해 방문자가 스스로 견학을 진행하는 캠퍼스 관광 방식이 시도되고
있다[1-4]. 또한 캠퍼스뿐만 아니라 국립공원[5], 박물관[6,7], 지방자치단체[8]에서도 유사한 형태의 관광 방식이 제시되고 있다.
그러나 기존의 관광 애플리케이션들은 GPS 기반의 위치 정보만을 제공하거나, 단순 설명 전달에 그치는 한계를 갖는다. 특히, 증강현실 기술은 사용자의
화면에 디지털 콘텐츠를 중첩하여 제공하는 방식으로, 사용자와 실질적인 상호작용을 하는 데 한계가 있다. 이러한 한계를 극복하고자 게임 콘텐츠를 융합하여
몰입적인 캠퍼스 관광을 도모하는 등의 연구가 이루어지고 있다[1,3,4].
한편, 최근 딥러닝의 발전과 함께 컴퓨터 비전 기술의 혁신을 이루고 있다. 특히, 합성곱 신경망(Convolutional neural network,
CNN) 모델은 장소 인식, 객체 검출, 영상 분할 등 다양한 분야에 활용되고 있으며[9-14], 확산 모델(Diffusion Model, DM)은 영상 생성 기술을 활용한 다양한 서비스에 응용되고 있다[15-17].
이러한 배경에서 본 논문에서는 딥러닝 기반의 비전 기술을 응용한 캠퍼스 관광 애플리케이션 DeepCampus을 제안한다. 제안하는 애플리케이션은 장소
인식 모델을 응용한 사진 촬영 미션 기능과 생성형 모델을 응용한 기념사진 생성 기능을 핵심 기능으로 갖는다. 사진 촬영 미션 기능은 사용자에게 캠퍼스
내 특정 지점에서 정해진 구도로 사진을 촬영하는 것을 미션으로 부여함으로써 사용자가 이를 수행하는 과정에서 능동적인 캠퍼스 탐험을 하도록 유도하는
기능이다. 미션의 성공 여부를 결정하는 과정에서 독자적으로 구축한 캠퍼스 데이터셋으로 훈련한 CNN 기반의 장소 인식 모델이 사용된다. 기념사진 생성
기능은 미션을 성공한 사용자에게 촬영한 사진을 기념사진으로 변환하여 제공하는 기능으로, 개성 있는 스타일로 변환된 사진을 소장하여 특별한 추억을 남길
수 있다. 기념사진으로 변환하는 과정에서 DM 기반 영상 스타일 변환 모델이 사용된다.
본 연구의 기여를 정리하면 아래와 같다.
캠퍼스 관광 모바일 애플리케이션의 전체 아키텍처를 설계 및 구현한다.
CNN 기반의 장소 인식 모델을 개발하여 제안하는 애플리케이션에 적용한다.
캠퍼스 데이터셋을 구축 및 활용하여 장소 인식 모델의 성능을 개선한다.
DM 기반의 영상 스타일 변환 모델을 응용하여 제안하는 애플리케이션에 적용한다.
본 논문은 다음과 같이 구성되어 있다. 2장에서는 관련 연구를 설명한다. 3장에서는 제안하는 애플리케이션의 구조와 딥러닝 기반 핵심 기능을 상세히
설명한다. 4장에서는 캠퍼스 데이터셋에 대한 설명과 실험적 결과를 제시한다. 마지막으로 5장에서 결론을 맺는다.
2. 관련 연구
2.1 관광 모바일 애플리케이션
최근 관광 모바일 애플리케이션은 GPS와 증강현실(AR) 기술을 활용하여 사용자의 편의성을 높이고 능동적인 참여를 유도하기 위한 시도가 이루어지고
있다. 경복궁 모바일 관광 가이드 시스템[18]은 CNN 기반 실시간 문화재 인식 기술을 개발하여 사용자가 카메라로 비추는 특정 문화재에 대한 정보를 화면에 즉시 표시한다. 이 시스템은 AR 기술이
일방향적 정보 제공을 위해 제한적으로 사용된다는 한계를 갖는다. 수원 화성 관광 애플리케이션[19] 또한 AR 기술을 활용하여 특정 건축물이나 장소를 인식해 역사적 정보와 건축적 가치를 이해하도록 돕는다. 이 시스템은 사용자가 다양한 게임 요소를
경험하도록 설계되어 흥미를 유도하는데 도움을 주지만, 사용자가 능동적으로 장소를 탐험하도록 돕는 것에는 제한적이다.
본 논문에서는 이러한 한계를 해소하고 사용자와의 적극적인 상호작용을 이끌어내기 위한 딥러닝 기반 비전 기술이 적용된 관광 애플리케이션을 제안한다.
2.2 장소 인식 기술
장소 인식 기술은 주어진 영상이나 비디오의 장소를 인식하는 기술로, 로봇공학, 자율주행, 증강현실 등 다양한 분야에서 중요한 역할을 한다[11, 12,
20, 21]. 장소 인식 기술 중 기하학적 분석이나 특징점 추출을 이용한 방식은 시점, 조명, 날씨 변화에 취약하다[22]. 이 문제를 해결하기 위해 딥러닝 기반 방법들이 제안되어 왔으며, 이 중 NetVLAD[11]는 인스턴스 수준의 작업에서 성능이 제한적이라는 CNN의 한계[23]를 극복하고 강인한 장소 인식 성능을 달성하기 위해 로컬 디스크립터를 클러스터 중심과 비교한 잔차를 고차원 벡터로 집약하는 방법을 제안하였다.
이후로 PatchNetVLAD[24] 와 ViT 기반 모델[25], [26] 등 많은 장소 인식 모델이 제안되어 왔다. 이 모델들은 환경 변화에 강인하며 높은 인식 성능을 보이지만, 높은 시간 복잡도와 공간 복잡도를 요구하기
때문에 짧은 지연 시간을 보장하는 것이 중요한 애플리케이션 서비스에 적용하기는 어렵다.
한편, 장소 인식 기술을 위한 대표적인 데이터셋으로는 Nordland[22]와 Tokyo 24/7[27]이 있다. Nordland 데이터셋은 계절별 환경 변화를 반영한 장소 인식을 위해 노르웨이 철도 구간에서 4계절 동안 촬영된 28,865장의 영상으로
구성된다. Tokyo 24/7 데이터셋은 다양한 건물이 있는 도쿄의 125개 장소에서 30도 간격으로 12개의 시점에서 영상을 수집하고, 낮, 일몰,
밤의 세 가지 시간대에서 촬영하여 조명 변화에 따른 장소 인식 성능을 평가할 수 있다. 그러나 이 데이터셋들은 장소 인식 모델이 캠퍼스 내 유사한
건물들을 구분하고 미세한 구도 차이를 인식하도록 학습하는 데 불충분하다.
본 논문에서는 자체 캠퍼스 데이터셋을 구축하고 NetVLAD 기반 장소 인식 모델을 개발하여 제안하는 애플리케이션의 핵심 기능 중 하나인 장소 인식
기반 사진 촬영 미션 기능에 사용한다.
2.3 영상 스타일 변환 기술
생성형 모델 기반 영상 변환 기술은 입력 영상을 기반으로 새로운 영상을 생성하는 기술로 영상 복원, 색상화, 초해상화 등 다양한 응용 분야에 활용되고
있다[17,28,29]. 이 중 Diffusion Model은 Sohl-Dickstein의 연구[15]에서 처음 제안된 이후 Ho 등이 발전시킨 Denoising Diffusion Probabilistic Models (DDPM)[16]에 의해 더욱 정교해졌으며, 특히 고해상도 영상을 생성할 수 있는 능력으로 주목을 받고 있다. Stable Diffusion은 DM의 대표적인 응용으로,
Latent Diffusion[17]을 기반으로 하여 UNET[30], VAE[31]와 같은 다양한 모듈을 활용해 고해상도 영상을 생성한다. 사용자는 입력 프롬프트를 사용해 출력 영상을 세밀하게 조정할 수 있다는 장점 덕분에 Stable
Diffusion은 다양한 영상 생성 서비스[32], [33]에서 활용되고 있다.
본 논문에서는 Stable Diffusion을 응용한 기념사진 생성 기능을 제안한다.
3. 제안하는 애플리케이션
이 장에서는 제안하는 DeepCampus 애플리케이션의 설계를 사용자 시나리오 관점에서 소개하고, 더 나아가 두 가지 핵심 기능에 적용된 딥러닝 기반
기술에 대해 상세히 설명한다.
3.1 설계
그림 1은 개발된 캠퍼스 관광 애플리케이션의 전체적인 구성도를 나타낸다. 사용자가 애플리케이션을 실행하면 먼저 온보딩 화면(그림 1(a))이 나타난다. 온보딩 화면에는 애플리케이션의 주요 기능과 사용 방법이 표시되고 일정 시간이 지나면 로그인 화면(그림 1(b))으로 전환된다. 로그인 화면에서 사용자 인증이 완료되면 메인 화면(그림 1(c))으로 전환된다. 메인 화면에는 사용자의 실시간 위치와 주요 건물 위치를 표시하는 마커를 포함하여 렌더링된 캠퍼스 지도가 표시된다. 사용자가 특정
건물의 마커를 선택하면, 해당 건물에 할당된 미션이 그림 1(d)와 같이 제시된다. 제안된 애플리케이션은 그림 1(e)와 같이 사이드바 메뉴를 포함하여 사용자 정보(그림 1(f))와 저장된 사진(그림 1(g))을 조회할 수 있는 기능을 제공한다.
그림 1. 애플리케이션 구성 요소 및 사용자 화면
Fig. 1. The components of the application and user display
그림 2. 애플리케이션 구조
Fig. 2. The architecture of the proposed application
제안된 애플리케이션의 구조는 그림 2와 같다. 그림 2에 표시된 바와 같이, 크게 회원 정보와 관련된 API와 장소 인식 기술과 관련된 API로 구성되어 있다. 회원 정보와 관련된 API는 회원 가입을
위한 Sign up API와 로그인을 위한 Sign in API를 포함하며, User 데이터베이스를 사용하도록 구현된다. 장소 인식 기술과 관련된
API는 장소 인식 모델을 활용해 촬영된 영상이 미션의 성공 조건을 충족하는지 여부를 반환하는 VPR API, 영상을 변환하여 적재하는 Image
conversion API, 적재된 영상을 조회하기 위한 Image view API를 포함하며, Image 데이터베이스를 공유하도록 구현된다.
3.2 장소 인식 모델 기반 사진 촬영 미션
이 절에서는 본 애플리케이션의 핵심 기능 중 하나인 장소 인식 모델에 기반한 사진 촬영 미션 기능을 설명한다. 이 기능에 대한 시나리오는 사용자의
위치 반경 20m 내의 건물에 대한 마커 중 하나를 선택하여 그림 3(a)와 같이 해당 건물에 대한 미션이 제시되는 것으로 시작한다. 미션은 해당 건물이 포함된 특정 구도로 사진을 촬영하는 것이며, 촬영 지침으로 하얀색
윤곽선을 화면에 표시하여 사용자의 미션 수행을 돕는다. 사용자가 촬영한 영상은 서버로 전송되어 CNN 기반 장소 인식 모델의 입력으로 사용된다. 장소
인식 모델은 사용자가 제출한 영상에 대한 특징 벡터를 추출한다. 추출된 특징 벡터와 기 추출된 해당 구도에 대한 특징 벡터와의 유클리디안 거리를 계산함으로써
미션 성공 유무를 판단한다. 다시 말해서, 유클리디안 거리가 사전 설정된 임계값 이하인 경우 미션 성공, 그렇지 않은 경우 미션 실패로 간주한다.
미션 수행 결과는 서버에서 클라이언트로 전송되고 사용자 화면에 표시된다. 그림 3(b)와 같이 미션에 실패한 경우 사용자는 재촬영하거나 미션 수행을 포기할 수 있다. 그림 3(c)는 미션에 성공한 사진의 예시이다. 그림 3(d)는 미션에 성공한 사용자에게 제공되는 기념사진을 보여주며, 기념사진 생성 기능에 대해서는 다음 절에서 자세히 설명한다.
그림 3. 사진 촬영 미션 및 기념사진 생성 예시
Fig. 3. Examples of the photo mission and commemorative photo creation
3.3 생성형 모델 기반 기념사진 생성
3.2장의 결과로 미션을 성공한 경우에 한하여 기념사진 생성 기능이 동작한다. 사진 촬영 미션 과정에서 촬영된 영상은 img2img API[34]에 의해 캐릭터 스타일의 새로운 영상으로 변환된다. Babes v2.0 모델을 사용했으며, API 호출 시 사용된 주요 매개변수는 아래 표 1과 같다. 표 1의 굵게 표시된 부분에서 볼 수 있듯이, 대학 캠퍼스 풍경을 자아내도록 하는 프롬프트와 원본 영상과 변환된 영상간의 인물 수가 일치하도록 하는 프롬프트를
추가 설정하였다. 또한, 서버 지연시간으로 인한 사용자 경험 저하를 방지하기 위해 num_inference_steps를 20으로 낮게 설정하였다.
표 1에 표시되지 않은 매개변수는 기본 값을 사용하였다. 변환된 영상은 서버에서 클라이언트로 전송되어 사용자 화면에 표시된다. 사용자는 변환된 영상을 확인
및 저장할 수 있다.
표 1 기념사진 생성을 위해 사용된 매개변수
Table 1 The parameters for commemorative photo creation
Parameter name
|
Value
|
num_inference_steps
|
20
|
positive_prompt
|
• 8K, 2D with 3D-like depth and shading, university campus atmosphere, game-like stylized
art
• Preserve ALL original elements, structures, and compositions WITHOUT ANY ALTERATIONS
• Maintain exact shapes, sizes, and positions of all buildings, objects, and landscape
features
• CRITICAL: Maintain exact number of people as in original image - if zero people in
original, zero people in result; if N people in original, exactly N people in result
• If people are present: maintain their exact positions, poses, clothing colors and
styles, hair color and style, facial expressions; transform into stylized characters
while keeping individual distinctions
• Emphasize existing university campus features while strictly maintaining original
architecture and layout
|
4. 실 험
이 장에서는 제안하는 DeepCampus 애플리케이션의 핵심 모델인 장소 인식 모델을 훈련하기 위해 구축한 데이터셋을 소개하고 그와 관련한 실험 및
결과를 다룬다.
4.1 캠퍼스 데이터셋
장소 인식 모델을 훈련하기 위한 대표적 데이터셋인Nordland 데이터셋[22]은 28,865장의 많은 수량으로 구성되어 있다는 장점이 있으나 자연 경관에 대한 데이터이기 때문에 주로 건물을 촬영하는 것이 미션으로 주어지는 본
애플리케이션에는 부적합하다. Tokyo 24/7 데이터셋[27]은 건물에 대한 데이터이기는 하나 최소 30도 이상의 촬영 구도의 차이가 있어서 정확한 구도로 촬영해야 하는 미션의 성공 여부를 판단하는 데 부적합하다.
이러한 문제를 해결하고 캠퍼스 환경에서 강인한 성능을 보이는 장소 인식 모델을 개발하기 위해 성공회대학교 캠퍼스를 대상으로 새로운 데이터셋을 구축하였다.
그림 4는 구축된 데이터셋의 예시를 보여준다. 그림 4(a)에 표시된 것과 같이, 캠퍼스 내 총 24개 지점에서 2,500장의 영상을 수집하였으며, 모든 영상은 갤럭시 Z플립3 후면카메라를 이용해 2024년
8월부터 10월 사이에 촬영하였다. 빨간색으로 표시된 21개 지점에서 수집된 데이터는 훈련, 파란색으로 표시된 3개 지점에서 수집된 데이터는 검증에
각각 사용함으로써 훈련 데이터셋와 검증 데이터셋의 장소를 완전히 분리하였다. 그림 4(b)는 서로 다른 세 장소에서 수집된 양성 영상의 예시이다. 그림 4(b)에 표시된 바와 같이 각 장소의 중요한 구조적 요소(예: 지붕 구조, 출입문, 기둥 등)를 사전에 정의하여 해당 요소가 모두 포함된 영상을 양성으로
분류하였다. 반면, 그림 4(c)와 같이 일부 요소가 포함되지 않거나, 구도 변화 및 잘림으로 왜곡된 경우는 음성 영상으로 라벨링하였다.
추가로, 그림 5에 제시된 바와 같이 다양한 시간대와 날씨에서 데이터를 수집하였다. 예를 들어, 그림 5(a)~그림 5(f)의 영상은 밝기, 날씨가 모두 다르지만 건물에 대한 구조적 요소가 모두 포함되어 있으므로 양성 영상으로 라벨링된다. 이러한 데이터셋 구성을 통해 조명,
날씨 등 외부 환경 변화에 강인한 모델이 개발될 수 있도록 하였다.
그림 4. 캠퍼스 데이터셋 예시
Fig. 4. Examples of the campus dataset
그림 5. 캠퍼스 데이터셋 시간대 및 날씨 다양성 예시
Fig. 5. Time of day and weather condition in the campus dataset
4.2 베이스라인 모델
먼저 Nordland 데이터셋, Tokyo 24/7 데이터셋, 캠퍼스 데이터셋으로 각각 훈련한 모델을 베이스라인 모델(Baseline-N, Baseline-T,
Baseline-C)로 개발한다. 본 논문의 모든 실험은 NVIDIA A5000 GPU에서 224×224 크기의 영상으로 수행하였다. ImageNet-1K
데이터셋으로 사전 학습된 ResNet-18[35] 백본 기반의 NetVLAD[11] 모델을 사용하였으며 배치 크기 128, 마진 값 1.0을 가진 Triplet 손실 함수, Adam 옵티마이저를 사용하여 총 30 에폭 훈련하였다.
별도로 기술하지 않는 한, 학습률은 0.01로 설정하였다. 모델의 성능은 4.1장에서 구축한 캠퍼스 데이터셋의 검증 데이터를 이용하여 평가하며, 지표로는
Receiver Operating Characteristic (ROC) curve에 기반한 Area Under the ROC Curve (AUC)
score를 이용한다.
세 베이스라인 모델의 성능은 표 2와 같다. 캠퍼스 데이터셋으로 학습한 Baseline-C 모델의 경우, 훈련 데이터와 검증 데이터의 도메인은 서로 일치하지만 데이터 수량이 부족하여
과적합이 발생하였으며, 성능 또한 0.70 AUC score로 가장 낮다. 반면 정교한 촬영 구도를 조건으로 하는 검증 데이터의 특성으로 인해, Nordland
데이터셋으로 학습한 Baseline-N의 성능이 Tokyo 24/7 데이터셋으로 학습한 Baseline-T보다 0.11 우수했다. 이는 Tokyo
24/7 데이터셋은 같은 건물에 대한 두 영상의 구도 차이가 최소 30도 이상이기 때문에, 보다 세밀한 구도로 촬영하는 것이 요구되는 캠퍼스 데이터셋의
검증 데이터에 대해서는 성능이 저하되기 때문으로 해석된다. 동영상으로부터 영상을 추출하여 구축한 Nordland 데이터셋은 인접한 프레임 간의 구도
차이가 매우 적어 미세한 구도의 변화를 학습하기에 적절하다. 그러나 0.82 AUC score는 여전히 제안하는 애플리케이션에 적용하기에 부족한 성능이다.
표 2 베이스라인 모델의 성능 비교
Table 2 Comparison of baseline models
Model name
|
Training data
|
AUC score
|
Baseline-N
|
Nordland[22]
|
0.82
|
Baseline-T
|
Tokyo 24/7[27]
|
0.71
|
Baseline-C
|
Campus
|
0.70
|
4.3 미세조정
두 베이스라인 모델(Baseline-N, Baseline-T)의 성능을 개선하기 위해 4.1장에서 구축한 캠퍼스 데이터셋의 훈련 데이터를 활용하여
미세조정을 수행하였다. 캠퍼스 데이터셋은 Nordland 데이터셋과 Tokyo 24/7 데이터셋에 비해 그 수량이 적기 때문에 과적합 문제가 발생할
가능성이 높다. 이를 방지하기 위해 다음과 같이 실험을 수행하였다. 먼저, 백본으로 사용된 Resnet-18의 8개의 Residual Block 중
마지막 두 Block만 학습 가능하도록 설정하였으며, 이는 전체 구조에서 마지막 스테이지에 해당한다. 또한 3 에폭을 조기 종료 조건으로 설정하였다.
미세 조정 단계에서는 학습률을 기존보다 낮게 설정하여 미세한 조정을 가능하게 하였다. 이를 위해 기존 학습률(0.01)의 1배, 1/10배, 1/100배,
1/1000배로 설정한 실험을 각각 수행하였다. 또한 각 실험을 5회 이상 반복 수행하더라도 결과의 차이가 무시할 수 있을 정도로 작음을 확인하였다.
표 3 미세조정 모델의 성능 비교
Table 3 Comparison of finetuned models
Pretrained
|
LR = 0.01
|
0.001
|
0.0001
|
0.00001
|
Baseline-N
|
0.82
|
0.90
|
0.87
|
0.85
|
Baseline-T
|
0.82
|
0.74
|
0.72
|
0.72
|
미세조정 실험 결과는 표 3와 같다. Nordland 데이터셋으로 학습된 모델을 미세조정한 모델이 Tokyo 24/7 데이터셋으로 학습된 모델을 미세조정한 경우보다 모든 학습률에
대해서 더 높은 성능을 보였다. 또한, 학습률을 기존 학습률의 1/10배인 0.001로 설정하여 Baseline-N을 미세조정한 모델의 성능이 0.90으로
가장 높았다. 이 결과는 기존 Baseline-N의 성능 0.82보다 0.08 증가한 것이며, 학습률을 낮추어 미세조정을 수행함으로써 과적합을 피하면서도
캠퍼스 도메인에 대한 추가 학습이 효과적으로 이루어진 것을 보여준다. 다만 학습률을 기존 학습률의 1/100배, 1/1000배로 낮추어 미세조정을
수행하더라도 추가적인 성능 개선을 발견할 수 없었는데, 이는 너무 낮은 학습률로 인해 캠퍼스 도메인에 대한 학습이 거의 이루어지지 않았기 때문으로
보인다.
그림 6. 장소 인식 모델 성능 (a) ROC curve (b) 혼동 행렬
Fig. 6. ROC curve (a) and confusion matrix (b) of the place recognition model
4.4 추가 분석
미세조정의 결과로 가장 높은 성능을 보인 모델을 제안하는 애플리케이션에 실제 적용하기 위해서는 미션의 성공 여부를 결정하기 위한 임계값을 설정해야
한다. 이를 위해 널리 사용되는 Youden’s J Statistic[36]을 적용하였으며, 그림 6(a)에서 볼 수 있는 바와 같이 1.13을 임계값으로 설정하였다. 이 임계값이 적용된 모델의 성능을 혼동 행렬을 통해 정량적으로 평가한 결과는 그림 6(b)와 같다. 또한 재현율은 0.87, 정밀도는 0.84로 측정되었다. 따라서 개발된 장소 인식 모델은 양성 샘플을 높은 비율로 올바르게 예측함과 동시에
예측된 양성 샘플 중에서도 높은 정확도로 참 양성을 구분할 수 있음을 보여준다.
5. 결 론
본 논문에서는 사진 촬영 미션과 기념사진 생성이라는 딥러닝 기반 비전 기술이 적용된 두 가지 핵심 기능을 갖는 캠퍼스 관광 모바일 애플리케이션 DeepCampus을
제안한다. 기존의 애플리케이션의 접근 방식이 단편적인 정보 전달에 그치거나 사용자와의 상호작용이 부족하다는 점을 보완하기 위해 제안되었으며, 사진
촬영 미션을 통해 보다 몰입감있는 캠퍼스 관광을 돕고 기념사진 생성을 통해 방문자에게 특별한 경험과 추억을 제공한다는 데 의의가 있다. 또한 캠퍼스
데이터셋 구축하여 애플리케이션에 사용되는 장소 인식 모델에 적용함으로써 서비스 품질 개선을 달성하였다.
제안하는 캠퍼스 관광 모바일 애플리케이션은 성공회대학교 캠퍼스를 대상으로 개발되었으나 다른 캠퍼스 또는 관광지에 폭넓게 적용될 수 있어 향후 서비스
확장을 고려하고 있다. 다만 다양한 환경에서의 강인한 성능을 보장하기 위한 충분한 양의 데이터를 확보하는 것이 중요한 과제로 남아있다. 또한 딥러닝
기반 핵심 기능의 성능과 지연 시간 간의 기회비용을 고려한 모델 최적화에 관한 연구를 수행한다면 사용자 경험을 고도화할 수 있을 것으로 기대된다.
References
C. Andri, M. H. Alkawaz, and A. B. Sallow, “Adoption of Mobile Augmented Reality as
a Campus Tour Application,” International Journal of Engineering and Technology, vol.
7, no. 4.11, pp. 64-69, Oct. 2018. DOI: 10.14419/ijet.v7i4.11.20689

T. L. Chou, and L. J. ChanLin, “Augmented Reality Smartphone Environment Orientation
Application: A Case Study of the Fu-Jen University Mobile Campus Touring System,”
Procedia - Social and Behavioral Sciences, vol. 46, pp. 410-416, 2012. DOI: 10.1016/j.sbspro.2012.05.132

C. Maines, and S. Tang, “An Application of Game Technology to Virtual University Campus
Tour and Interior Navigation,” International Conference on Developments of E-Systems
Engineering, pp. 341-346, Dec. 2015. DOI: 10.1109/DeSE.2015.15

C. Andri, M. H. Alkawaz, and S. R. Waheed, “Examining Effectiveness and User Experiences
in 3D Mobile based Augmented Reality for MSU Virtual Tour,” 2019 IEEE International
Conference on Automatic Control and Intelligent Systems, pp. 161-167, Jun. 2019. DOI:
10.1109/I2CACIS.2019.8825054

H. Ketmaneechairat, P. Yoksiri, and T. Jaisiri, “Searching Application for Southern
Thailand Travel Guide on iPhone,” The Fifth International Conference on the Applications
of Digital Information and Web Technologies, pp. 195-200, Feb. 2014. DOI: 10.1109/ICADIWT.2014.6814684

J. B. Kim, and C. Park, “Development of Mobile AR Tour Application for the National
Palace Museum of Korea,” Virtual and Mixed Reality - New Trends, pp. 55-60, 2011.
DOI: 10.1007/978-3-642-22021-0_7

J. Chen, J. Guo, and Y. Wang, “Mobile Augmented Reality System for Personal Museum
Tour Guide Applications,” IET International Communication Conference on Wireless Mobile
and Computing, pp. 262-265, 2011. DOI: 10.1049/cp.2011.0887

E. P. Noman, and S. Suyoto, “Design a Tourist Guide Mobile Application to Realize
Sustainable Tourism in Kupang, Indonesia,” 2023 International Conference on Informatics
Engineering, Science & Technology, pp. 1-10, Oct. 2023. DOI: 10.1109/INCITEST59455.2023.10397038

H. S. Lee, Y. J. Oh, Y. C. Park, S. J. Lim, and H. C. Cho, “Goral Detection System
using YOLOv4 Object Detection Algorithm,” The Transactions of the Korean Institute
of Electrical Engineers, vol. 71, no. 9, pp. 1308-1314, Sep. 2022. DOI: 10.5370/KIEE.2022.71.9.1308

T. H. Kim, and J. J. Park, “Semantic Segmentation of Teeth using Layered UNet,” The
Transactions of the Korean Institute of Electrical Engineers, vol. 72, no. 11, pp.
1470-1476, Nov. 2023. DOI: 10.5370/KIEE.2023.72.11.1470

R. Arandjelovic, P. Gronat, A. Torii, T. Pajdla, and J. Sivic, “NetVLAD: CNN Architecture
for Weakly Supervised Place Recognition,” 2016 IEEE Conference on Computer Vision
and Pattern Recognition, pp. 5297-5307, Jun. 2016. DOI: 10.1109/CVPR.2016.572

S. Lowry, N. Sünderhauf, P. Newman, J. J. Leonard, D. Cox, P. Corke, and M. J. Milford,
“Visual Place Recognition: A Survey,” IEEE Transactions on Robotics, vol. 32, no.
1, pp. 1-19, Feb. 2016. DOI: 10.1109/TRO.2015.2496823

C. B. Lee, and H. C. Cho, “Application of Deep Learning-based Image Segmentation Algorithm
for Korean Cattle Weight Estimation,” The Transactions of the Korean Institute of
Electrical Engineers, vol. 70, no. 9, pp. 1336-1344, Sep. 2021. DOI: 10.5370/KIEE.2021.70.9.1336

H. Won, S. Kim, E. B. Kim, and O. Lee, “Analysis of a Deep Learning Synchrotron Imaging
Model for Segmentation and Classification of Stroke Animal Models,” The Transactions
of the Korean Institute of Electrical Engineers, vol. 72, no. 7, pp. 863-871, Jul.
2023. DOI: 10.5370/KIEE.2023.72.7.863

J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, and S. Ganguli, “Deep unsupervised
learning using nonequilibrium thermodynamics,” Proceedings of the 33rd International
Conference on Machine Learning, vol. 37, pp. 2256-2265, 2015. DOI: 10.48550/arXiv.1503.03585.

J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” Advances
in neural information processing systems, vol. 33, pp. 6840-6851, 2020. DOI: 10.48550/arXiv.2006.11239

R. Rombach, A. Blattmann, D. Lorenz, P. Esser, and B. Ommer, “High-Resolution Image
Synthesis with Latent Diffusion Models,” 2022 IEEE/CVF Conference on Computer Vision
and Pattern Recognition, pp. 10674-10685, Jun. 2022. DOI: 10.1109/CVPR52688.2022.01042

H. Oh, J. Jung, S. Park, and K. Y. Lee, “Development of a Tour Information System
for Smart Phones using CNN,” Proceedings of the Korean Institute of Information Scientists
and Engineers Conference, pp. 1642-1644, 2019.

J. Y. Kim, S. K. Song, J. G. Heo, and W. J. Yoon, “Development of Augmented Reality
(AR) Smartphone Application for Hwaseong Fortress Tourism,” Architectural Institute
of Korea Conference, vol. 34, no. 8, pp. 87-94, Aug. 2018. DOI: 10.5659/JAIK_PD.2018.34.8.87

V. Swaminathan, S. Arora, R. Bansal, and R. Rajalakshmi, “Autonomous Driving System
with Road Sign Recognition using Convolutional Neural Networks,” 2019 International
Conference on Computational Intelligence in Data Science, pp. 1-4, Feb. 2019. DOI:
10.1109/ICCIDS.2019.8862152

M. M. Ullah, A. Pronobis, B. Caputo, J. Luo, P. Jensfelt, and H. I. Christensen, “Towards
Robust Place Recognition for Robot Localization,” 2008 IEEE International Conference
on Robotics and Automation, pp. 530-537, May 2008. DOI: 10.1109/ROBOT.2008.4543261

D. Olid, J. M. Fácil, and J. Civera, “Single-view Place Recognition under Seasonal
Changes,” arXiv preprint arXiv:1808.06516, 2018. DOI: 10.48550/arXiv.1808.06516

H. Azizpour, A. S. Razavian, J. Sullivan, A. Maki, and S. Carlsson, “From Generic
to Specific Deep Representations for Visual Recognition,” 2015 IEEE Conference on
Computer Vision and Pattern Recognition Workshops, pp. 36-45, Jun. 2015. DOI: 10.1109/CVPRW.2015.7301270

S. Hausler, S. Garg, M. Xu, M. Milford, and T. Fischer, “Patch-NetVLAD: Multi-scale
Fusion of Locally-global Descriptors for Place Recognition,” 2021 IEEE/CVF Conference
on Computer Vision and Pattern Recognition, pp. 14141-14152, Jun. 2021. DOI: 10.1109/CVPR46437.2021.01392

F. Lu, L. Zhang, X. Lan, S. Dong, Y. Wang, and C. Yuan, “Towards Seamless Adaptation
of Pre-trained Models for Visual Place Recognition,” arXiv preprint arXiv:2402.14505,
2024. DOI: 10.48550/arXiv.2402.14505

T. Tzachor, A. Shoshan, A. Shashua, and S. Mazor, “EffoVPR: Effective Foundation Model
Utilization for Visual Place Recognition,” arXiv preprint arXiv:2405.18065, 2024.
DOI: 10.48550/arXiv.2405.18065

A. Torii, R. Arandjelović, J. Sivic, M. Okutomi, and T. Pajdla, “24/7 Place Recognition
by View Synthesis,” 2015 IEEE Conference on Computer Vision and Pattern Recognition,
pp. 1808-1817, Jun. 2015. DOI: 10.1109/CVPR.2015.7298790

S. Parida, V. Srinivas, B. Jain, R. Naik, and N. Rao, “Survey on Diverse Image Inpainting
using Diffusion Models,” 2023 2nd International Conference on Paradigm Shifts in Communications
Embedded Systems, Machine Learning and Signal Processing, pp. 1-5, Apr. 2023. DOI:
10.1109/PCEMS58491.2023.10136091

W. Long, W. Zhao, and Z. Li, “Diverse Image Colorization Based on Diffusion Model,”
2023 6th International Conference on Artificial Intelligence and Big Data, pp. 860-865,
May 2023. DOI: 10.1109/ICAIBD57115.2023.10206235

O. Ronneberger, P. Fischer, and T. Brox, “U-Net: Convolutional Networks for Biomedical
Image Segmentation,” Medical Image Computing and Computer-Assisted Intervention, pp.
234-241, 2015. DOI: 10.1007/978-3-319-24574-4_28

D. P. Kingma, and M. Welling, “Auto-Encoding Variational Bayes,” arXiv preprint arXiv:1312.6114,
2013. DOI: 10.48550/arXiv.1312.6114

T. Zhang, Z. Wang, J. Huang, M. M. Tasnim, and W. Shi, “A Survey of Diffusion Based
Image Generation Models: Issues and Their Solutions,” arXiv preprint arXiv:2308.13142,
2023. DOI: 10.48550/arXiv.2308.13142

T. Samajdar, J. Hellendoorn, M. B. Papamarkou, L. Buesing, and A. Romero, “Stable
Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets,” arXiv preprint
arXiv:2311.15127, 2023. DOI: 10.48550/arXiv.2311.15127

C. Saharia, W. Chan, H. Chang, C. Lee, J. Ho, T. Salimans, D. Fleet, and M. Norouzi,
“Palette: Image-to-image Diffusion Models,” Special Interest Group on Computer Graphics
and Interactive Techniques Conference Proceedings, pp. 1-10, Aug. 2022. DOI: 10.1145/3528233.3530757

K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,”
2016 IEEE Conference on Computer Vision and Pattern Recognition, pp. 770-778, Jun.
2016. DOI: 10.1109/CVPR.2016.90

R. Fluss, D. Faraggi, and B. Reiser, “Estimation of the Youden Index and its Associated
Cutoff Point,” Biometrical Journal, vol. 47, no. 4, pp. 458-472, Aug. 2005. DOI: 10.1002/bimj.200410135

저자소개
He received the B.S. degress in Software Engineering from Sungkonghoe University,
Seoul, Korea, in 2024. His current research interests include natural language processing,
computer vision, and multimodal learning.
She is currently an undergraduate student in the Division of Convergent Computer Science,
Sungkonghoe University, South Korea. Her current research interests include artificial
intelligence, computer vision, and their various applications.
She is currently an undergraduate student in Artificial Intelligence and Software
Engineering at Sungkonghoe University, Seoul, Korea. Her current research interests
include Artificial Intelligence, Computer Vision, and their various applications.
He received the B.S. and Ph.D. degrees in Electrical and Electronic Engineering from
Yonsei University, Seoul, Korea, in 2011 and 2018, respectively. From 2018 to 2021,
he was a Senior Researcher in Samsung Electronics Co., Ltd. Since 2021, he has been
with the faculty of the Division of Future Convergence, Sungkonghoe University, Seoul,
Korea, where he is currently a Assistant Professor. His current research interests
include artificial intelligence, computer vision, and their various applications.