박종영
(Jong-young Park)
†iD
권경빈
(Kyung-bin Kwon)
1
홍수민
(Sumin Hong)
1
황일서
(Il-Seo Hwang)
1
허재행
(Jae-Haeng Heo)
1
정호성
(Hosung Jung)
2
-
(RaonFriends Co., Ltd., Korea)
-
(Electrification System Research Department, Korea Railroad Research Institute, Korea)
Copyright © The Korea Institute for Structural Maintenance and Inspection
Key words
Railway Air Quality, Regulating Particulae Matter, Deep Q-Network, Energy Management System, Photovoltaic Power
1. 서 론
미세먼지는 세계보건기구(WHO) 산하의 국제 암 연구소에서 사람에게 발암이 확인된 1군 발암물질로 지정한 대기오염물질이다[1]. 미세먼지는 그 크기에 따라 직경 10㎛ 미만의 미세먼지(PM10)와 직경 2.5㎛ 미만의 초미세먼지(PM2.5)로 나눌 수 있는데, 실외 뿐 아니라
실내의 경우에도 환기를 실시하지 않으면 미세먼지와 초미세먼지가 축적되어 실내 공기질이 급격하게 나빠질 수 있다[2]. 특히 역사의 경우 철로의 마모 입자, 이용객의 혼잡도, 열차풍에 의한 비산, 터널의 유지 보수 작업 등 다양한 오염원이 함께 존재하며[3-4], 따라서 환기가 어려운 구조 특성 상 미세먼지를 포함한 대기오염에 취약하다. 이를 위해선 송풍기, 공조기 등을 사용하여 역사 내외의 공기를 필터를
통과함과 동시에 순환시킴으로써 미세먼지 농도를 낮출 수 있다[5]. 이와 관련하여 역사 내 미세먼지 농도를 관리하기 위하여 역사의 미세먼지 농도를 예측하는 연구 [6-7] 및 저감 제어시스템 구축에 관한 연구 [8] 등이 활발하게 진행되고 있다.
하지만 각 역사별 역사 심도, 혼잡도, 구조 등에 따라 송풍기 및 공조기의 제어에 따른 미세먼지 농도 변화가 달라지는데[9], 이를 고려하여 제어시스템을 구축하기 위해선 미세먼지 저감 설비와 환경과의 상호작용을 역사 별로 직접 모델링을 해야 하는 문제가 있다. 이러한 문제는
환경과의 상호작용 모델을 직접 구축하지 않은 상태에서도 최적 정책을 찾을 수 있는 기계학습을 적용함으로써 해결할 수 있다.이때 미세먼지 감소를 위해
공조기 및 송풍기를 제어함에 따라 전력비용이 증가하게 되므로, 전력비용과 이로 인한 미세먼지 절감을 함께 고려할 수 있는 기계학습 기반의 에너지 관리
에이전트가 필요하다. 또한, 역사 내 에너지 효율 향상을 위해 태양광 발전과 연계된 에너지 저장장치(Energy Storage System; ESS)를
활용할 수 있다. 에너지 저장장치는 태양광 발전으로 생산된 전기 에너지를 저장하거나, 전력 가격이 저렴한 시간대에 충전한 후 전력 가격이 높은 시간대에
방전함으로써 전력비용을 절감할 수 있다. 따라서 에너지 관리 에이전트는 미세먼지 저감 설비와 태양광 발전 연계 에너지 저장장치의 제어를 동시에 고려하여,
미세먼지 농도를 효과적으로 조절하면서도 전력비용을 관리하는 역할을 수행해야 한다.
기계학습(Machine learning)은 “특정한 작업을 수행하기 위해 데이터를 사용하고 분석하여 요청된 작업을 수행할 수 있는 알고리즘”을 의미한다[10]. 기계학습은 크게 주어진 데이터와 레이블을 이용해서 미지의 상태나 값을 예측하는 지도학습(Supervised learning), 데이터 자체에서
유용한 패턴을 찾아내는 비지도학습(Unsupervised learning), 에이전트가 환경과의 상호작용을 통해 장기적으로 얻는 이득을 최대화 하는
강화학습(Reinforcement learning)으로 나눌 수 있다[11]. 이 중 지도학습은 주로 예측모델을 생성하는 데, 강화학습은 제어 문제에 있어서 최적 정책을 찾는 데 활용된다.
특히 강화학습은 에이전트의 행동과 주어진 환경과의 상호작용 관계를 모르는 상황에서 최적 정책을 구할 수 있다는 장점이 있다[10]. 따라서 불확실성이 존재하는 역사 내 미세먼지 관리 문제를 구성할 때 기계학습을 활용한다면, 불확실성을 별도의 확률 분포로 모델링하지 않고 데이터를
직접 활용하여 최적 정책을 찾을 수 있다.
이와 관련하여 [11]에서는 선행 연구로 강화학습 기반의 에너지 관리 에이전트를 구축하였다. 에이전트 구축을 위하여 역사 내 미세먼지 농도와 선형관계에 있는 요소를 현재
상태(state)의 구성 요소로 선택하여 선형 전이함수 및 보상함수를 개발하였으며, 이를 토대로 Deep-Q network (DQN) 알고리즘 기반의
에이전트를 개발하였다. 하지만 전이함수 개발 시 선형이라는 가정에 기초하여 선형 관계를 이루지 않는 요소를 현재 상태에서 제외하였으며 이에 따라 역사
내 미세먼지 농도를 예측하는 전이함수의 정확도가 감소하는 문제가 있었다.
본 연구에서는 이를 해결하기 위해 선형 전이함수 대신 지도학습에 기반한 인공신경망을 학습시켜 전이함수로 활용하는 방안을 제안하고, 이를 기존의 DQN
기반 에이전트 모델과 연결하였다. 이를 위하여 2장에서는 마르코브 의사결정 과정에 기초한 시스템 모델링을 구성하였다. 3장에서는 지도학습 기반 인공신경망을
활용하여 미세먼지 저감 설비의 제어에 따른 역사 내 미세먼지 농도 변화 예측 모델을 개발하였고, 4장에서는 3장에서 개발한 인공신경망을 전이함수로
사용하여 DQN 기반 에이전트를 개발하고 이를 통해 최적 정책을 구하였다. 5장에서는 남광주역의 실측 데이터를 기반으로 사례연구를 통해 학습된 에이전트의
성능을 분석하였으며, 6장에서는 본 연구의 결론을 서술하였다.
2. 마르코브 결정 과정 기반 시스템 모델링
강화학습 기반의 에너지 관리 에이전트를 구축하기 위해서 먼저 마르코브 성질(Markov property)을 가정하고 이를 기반으로 마르코브 결정 과정(Markov
Decision Process) 기반의 시스템 모델링을 구성하였다[12].
마르코브 결정 과정은 상태(State), 행동(Action), 전이함수(Transition kernel), 보상(Reward), 감가율(Discount
factor)을 정의하여 구성할 수 있다. 시스템에 맞춰 각각을 아래와 같이 정의할 수 있다.
먼저 상태(State)는 시간($t$) 및 역사 내, 외 미세먼지 농도($I_{t}^{(1)},\: I_{t}^{(2)}/O_{t}^{(1)},\:
O_{t}^{(2)}$), 습도($H_{t}^{i},\: H_{t}^{o}$), 온도($T_{t}^{i},\: T_{t}^{o}$), 에너지 저장장치
충·방전 신호($B_{t}$)를 통해 정의할 수 있다. 이때 미세먼지 농도는 지름이 2.5㎛보다 작은 미세먼지(PM2.5) 농도와 지름이 10㎛보다
작은 미세먼지 농도로 나타낼 수 있다. 즉 시간 $t$에서의 상태 $s_{t}$는 다음과 같이 나타낼 수 있다.
다음으로 행동(action)은 주어진 상태에서 정책(policy)에 기반하여 하는 선택으로, 여기서는 송풍기와 공조기의 전력사용량 및 에너지 저장장치의
충·방전량을 의미한다. 총 $K$ 개의 송풍기와 $L$ 개의 공조기가 있다고 할 때, 시간 $t$에서의 행동 $a_{t}$는 다음과 같다.
이때 각 행동은 제어방식에 따라 이산값 또는 연속값이 될 수 있으며, 본 논문에서는 송풍기와 공조기 제어 시 단계적으로 제어한다는 사실에 기초하여
이산값을 가지는 것으로 모델링하였다.
다음으로 전이함수(transition kernel)은 현재 상태 $s_{t}$에서 행동 $a_{t}$를 수행하였을 때 다음 상태인 $s_{t+1}$으로
이동하는 확률을 의미한다. 이때 마르코브 성질은 식 (3)에서와 같이 $s_{t+1}$으로 이동할 확률은 현재 상태 $s_{t}$에 대한 조건부 확률로 나타낼 수 있으며, $s_{t}$ 이전의 모든 상태로부터
영향을 받지 않는다는 것을 의미한다[13].
본 논문에서는 일반적인 강화학습 방식처럼 시행착오를 통해 역사 내 송풍기와 공조기의 최적 정책을 구할 수 없으므로, 기존 데이터를 토대로 송풍기와
공조기 제어에 따른 역사 내 미세먼지 농도를 예측하는 인공신경망을 구축하고, 이를 전이함수로 이용하였다. 이에 대한 자세한 내용은 3장에서 자세히
설명한다.
보상(Reward)는 상태 $s_{t}$에서 행동 $a_{t}$를 취하였을 때 얻게 되는 보상을 의미한다. 시간 $t$에서의 보상 $r_{t}$는
$s_{t}$와 $a_{t}$의 함수로 나타내어지며, 본 논문에서는 미세먼지 저감 설비 및 에너지 저장장치의 제어로 인한 전력비용과 미세먼지 농도
감소를 보상으로 고려하였다. 먼저 시간 $t$의 전력 가격이 $p_{t}$로 주어졌을 때, 총 전력비용 $c_{t}$는 아래와 같다.
이어서 위의 전력사용을 통한 송풍기 및 공조기 제어로 인한 PM2.5 및 PM10 미세먼지 농도의 감소량은 각각 $\triangle_{t}^{(1)}=i_{t}^{(1)}-i_{t-1}^{(1)}$,
$\triangle_{t}^{(2)}=i_{t}^{(2)}-i_{t-1}^{(2)}$로 나타낼 수 있다. 그 결과 보상함수는 아래와 같이 나타낼 수
있다.
이때 $\rho$는 미세먼지 농도 감소로 인한 보상과 총 전력비용 간의 비를 나타내며, $\rho$의 값이 커질수록 미세먼지 농도의 감소로 인한 보상을
더 크게 평가한다는 의미를 가진다.
마지막으로 감가율(discount factor) $\gamma$는 현재 얻는 보상과 미래에 얻을 수 있는 보상 간의 비를 의미하며, $(0,\: 1]$
범위의 값으로 결정한다. $\gamma$의 값이 작을수록 현재의 보상을 미래에 얻는 보상의 가치보다 더 가치있게 여김을 의미하며, 본 논문에서는 유한한
시간을 고려하였기 때문에 $\gamma =1$로 설정하였다.
3. 역사 내 미세먼지 농도 예측 모델 개발
앞서 논의한 바와 같이, 송풍기 및 공조기의 제어에 따른 역사 내 미세먼지 농도 변화를 예측하기 위하여 인공신경망을 활용한 지도학습(Supervised
learning) 기반의 예측 모델을 개발하였다.
예측모델의 인공신경망은 현재 상태의 원소들과 행동을 입력값으로 하여 다음 시간의 역사 내 미세먼지 농도(PM2.5, PM10)를 출력값으로 가지는
형태를 가진다. 이때 $k$번째 층에서의 입력 벡터값을 $X_{k}$, 이어진 $k+1$번째 층에서의 출력 벡터값을 $Y_{k+1}$라고 하면, $Y_{k+1}$는
다음과 같이 계산할 수 있다[14].
여기서 $W_{k}$와 $b_{k}$는 각각 $k$번째 층과 $k+1$번째 층 사이의 가중치 행렬과 바이어스(Bias)값을 의미하며, $\sigma(·)$은
$k+1$번째 층의 활성화 함수(Activation function)를 의미한다. 지도학습에서는 식 (6)의 과정을 통해 순전파(forward propagation) 알고리즘을 진행하여 마지막 출력층에서 최종 예측값 $Y$를 출력하며, 이를 실제값인 $O$와
비교하게 된다. 이때 손실함수 $\ell$은 다음의 MSE(Mean-squared Error) 값으로 정의된다[15].
식 (7)과 같이 손실함수가 계산되면, 이어서 가중치 업데이트를 위해 역전파(backward propagation) 알고리즘을 진행하게 된다. 예측 정확도를
높이기 위해선 $\ell$값을 최소화해야 하므로, 가중치 행렬의 각 요소 $w_{i}$는 경사하강법을 이용하여 값을 업데이트하게 된다. 즉, $n+1$번째
반복학습에서 $w_{i}$의 값은 식 (8)과 같이 계산할 수 있다.
즉, 가중치 행렬의 각 요소는 손실함수 $\ell$값을 감소시키는 방향으로 업데이트를 하며, 이를 통해 반복학습이 진행될수록 손실함수의 값은 최소값에
다가가게 된다. 이는 인공신경망 모델의 예측값과 실제값의 차이가 최소가 됨을 의미한다.
4. 에너지 관리 에이전트 개발
4.1 Deep Q-Network 기반 에이전트 개발
2장에서 정의한 보상함수 및 감가율에 기초하여, 송풍기 및 공조기 제어를 위한 최적 정책 $\pi$는 다음의 최적화 문제로 나타낼 수 있다.
즉, 감가율을 고려하였을 때 최적 정책은 시간 $t=1$부터 $t=T$ 까지 각 시간대별 보상 $r_{t}$의 총합의 평균을 최대화하는 정책으로 정의할
수 있다. 위 최적화 문제는 정책 $\pi$를 파라미터 $\theta$로 매개변수화 함으로써 다음의 문제로 변형시킬 수 있다.
즉, 매개변수화를 통해 최적 정책을 직접 구하는 대신, 정책을 매개변수 $\theta$로 표현하고 최적 $\theta$를 찾음으로써 정책을 구할 수
있다. 본 논문에서는 인공신경망에 기초한 Deep-Q Network (DQN) 알고리즘을 활용하므로, 매개변수 $\theta$는 Q-network의
가중치 행렬을 의미한다[16]. DQN 알고리즘에서 인공신경망은 입력값 $s_{t}$에 대하여 각 행동 $a_{t}$에 대한 Q함수의 근사값 $Q(s_{t},\: a_{t})$를
예측하게 된다.
식 (11)의 $Q(s_{t},\: a_{t})$는 시간 $t$에서의 상태 $s_{t}$에서 행동 $a_{t}$를 실행하였을 때 이후 총 보상의 기댓값을 의미한다.
따라서 위 값에 기초하여 최적 정책 $\pi$는 총 보상의 기댓값을 최대화하는 행동을 선택하는 것으로 다음과 같이 정의할 수 있다.
한편 Q함수는 식 (13)의 벨만 방정식(Bellman equation)을 만족한다[17].
즉, Q함수 값을 예측하는 Q-network의 예측값이 정확할수록 식 (13)의 좌변과 우변의 차는 감소하게 된다. 따라서 아래 식 (14)의 손실함수를 최소화하도록 최적 파라미터 $\theta$값을 찾음으로써 Q함수 값을 예측하는 Q-network를 구성할 수 있다.
이때 파라미터 $\theta$, $\theta'$은 각각 Train network와 Target network의 파라미터를 의미하며, 본 논문에서
적용한 알고리즘에서는 최적화 과정 시 수렴의 불안정성 문제를 해결하기 위해 Fixed target network 방식을 적용하였다[18]. 이는 Target network의 파라미터 $\theta'$는 업데이트 시 Train network의 파라미터 $\theta$처럼 반복학습 시
매번 적용하는 대신 $\theta^{-}$값으로 고정하고, $N_{O}$번의 업데이트에 1번씩 $\theta^{-}$를 업데이트하는 방식이다. 파라미터
$\theta$가 손실함수 값을 감소시키기 위해 식 (13)의 좌변 값을 업데이트하는 동안 우변의 파라미터 $\theta'$은 고정되어있기 때문에, 더욱 안정적으로 수렴이 일어나게 된다.
식 (14)를 최소화하기 위해 경사하강법을 적용하여 최적 파라미터 $\theta$를 구할 수 있다. 이때 손실함수를 파라미터 $\theta$에 대하여 편미분한
기울기(gradient)는 아래와 같다.
이때 모든 $\left\{s_{t},\: a_{t},\: s_{t+1}\right\}$ 조합에 대하여 기댓값을 구하는 것은 어렵기 때문에, 대신
식 (16)와 같이 현재 정책을 기준으로 샘플링을 통해 경로(trajectory)를 구성하고, 이에 대한 평균값을 계산하여 기울기의 근사값을 구한다.
이때 알고리즘 초반에서 충분한 탐색(exploration)을 보장하기 위해 $\epsilon$-greedy 방법을 적용하였다. $\epsilon$-greedy
방법은 $(1-\epsilon)$의 확률로 식 (12)에서 정의한 최적 행동을 선택하고, $\epsilon$의 확률로 무작위 행동을 선택한다[13]. $\epsilon$값은 반복학습이 진행됨에 따라 감소하게 되고 따라서 최종 정책은 식 (12)를 따라가게 된다. 이에 더하여 Experience replay 방법을 적용하였다[20]. 먼저 Experience replay 방법은 이전에 샘플링 결과를 메모리 $\Phi =\left\{(s_{t},\: a_{t},\: s_{t+1},\:
r_{t})\right\}$에 저장하고, 손실함수를 계산할 때 메모리 $\Phi$에 저장한 샘플을 무작위로 선택하여 mini-batch $\psi$를
만들어 식 (14)를 계산하게 된다. 이는 $\mu$를 업데이트할 때마다 새로운 샘플을 만들 필요 없이 이전의 샘플을 활용하여 효율적으로 손실함수의 기울기를 구할 수
있게 한다.
4.2 인공신경망 예측모델을 활용한 DQN 기반 에너지 관리 에이전트
최종적으로 3장에서 개발한 역사 내 미세먼지 농도 예측모델을 전이함수로 활용하는 DQN 기반 에너지 관리 에이전트는 그림 1과 같은 과정을 통해 동작하게 된다.
그림 1. 에너지 관리 에이전트 동작 과정
Fig. 1. Operation Process of the Energy Management Agent
본 연구에서는 그림 1과 같이 크게 두 개의 모델을 통하여 최적 행동을 구하게 된다. 그림 1에서 위의 부분은 DQN 알고리즘을 통하여 행동 $a_{t}$를 결정하는 부분이다. 그리고 아래의 부분은 상태 $s_{t}$와 행동 $a_{t}$에
대하여 그 다음 상태 $s_{t+1}$이 어떻게 되는지에 대한 예측 모델 부분인데, 설비의 운전에 따른 미세먼지의 변화에 대한 정식화된 모델이 없으므로
과거의 데이터를 통하여 예측 모델을 학습을 시키게 된다.
먼저 시간 $t$에 주어진 현재 상태 $s_{t}$에 대하여 DQN 알고리즘을 통해 행동 $a_{t}$를 결정하게 된다. 다음으로 $s_{t}$와
$a_{t}$는 역사 내 미세먼지 농도 예측모델의 입력값으로 사용되어, 그 결과 시간 $t+1$의 역사 내 미세먼지 농도값인 $s_{t+1}$이 예측값으로
나오게 된다. 이 값은 다시 시간 $t+1$에서 DQN의 입력값이 된다.
최종적으로 역사 내 미세먼지 농도 예측 모델 및 DQN 방법을 활용한 송풍기 및 공조기 제어 알고리즘은 그림 2와 같다.
그림 2. 인공신경망 예측모델을 활용한 DQN 기반 에너지 관리 에이전트 최적 운영 알고리즘
Fig. 2. Optimal Operation Algorithm of DQN-based Energy Management Agent Using Artificial
Neural Network Prediction Model
5. 사례연구
5.1 대상 시스템
그림 2에서 제시한 알고리즘의 효과를 입증하기 위하여 [8]의 사례연구와 같이 광주 남광주역의 데이터를 토대로 사례연구를 진행하였다. 먼저 현재 상태는 식 (1)의 정의를 활용하였다. 다음으로 행동의 경우 송풍기 3개($K=3$), 공조기 2개($L=2$)에 대하여 송풍기는 총 3개의 운전 모드, 공조기는
총 2개의 운전 모드를 선택할 수 있다고 가정하였다. 이에 따라 선택 가능한 총 행동 수는 $3^{3}\times 2^{2}=108$개로 설정하였다.
추가로 에너지 저장장치는 최대 충·방전, 50% 충·방전, 충·방전을 실시하지 않는 총 5가지의 제어 신호를 사용하였다. 그 결과 총 선택 가능한
행동 수는 $3^{3}\times 2^{2}\times 5=540$개로 설정하였다. 이에 따라 역사 내 미세먼지 예측모델의 인공신경망 입력노드는 현재
상태에 포함된 9개와 행동에 포함된 5개를 더한 총 14개, 출력 노드는 2개로 구성하였으며, DQN의 경우 입력 노드는 9개, 출력 노드는 5개로
구성하였다. 예측모델과 DQN에 필요한 인공신경망은 Python과 Keras 패키지를 이용하여 구성한 후 훈련을 진행하였다[21]. 표 1은 예측모델과 DQN의 하이퍼 매개변수 세팅을 나타낸다. 그림 2에서 제시한 알고리즘을 토대로 Python을 기초로 Tensorflow, Keras를 활용하여 예측모델과 DQN 알고리즘을 적용하였다.
본 논문에서는 태양광 발전설비를 설치하여 역사부하에 활용하는 경우를 가정하였다. 태양광에 대한 정보는 표 1 및 그림 3과 같다. 태양광 발전의 전력은 논문에서 다루고 있는 공조설비에서 사용하는 것으로 가정하였다.
표 1 태양광 발전 정보
Table 1 Solar Power Generation Information
모듈 개수
|
7(직렬) × 3(병렬) = 총 21
|
모듈 당 용량
|
460 W / 모듈
|
총 용량
|
9.66 kW
|
그림 3. 시간별 태양광 발전량
Fig. 3. Hourly Solar Power Generation
학습 시 15분 단위로 업데이트된 한 달간의 데이터를 활용하여 학습을 진행하였다. ($T=2880$). 먼저 인공신경망을 이용하여 진행한 학습 결과는
다음과 같다. 먼저 그림 4는 학습과정 중 총 보상값의 변화를 나타내며, 학습이 진행됨에 따라 총 보상이 증가하는 것을 확인할 수 있다. 이는 손실함수의 값이 감소하도록 DQN의
매개변수를 업데이트함에 따라 DQN의 Q함수 예측값이 더 정확해지고, 각각의 상태에 대하여 Q값을 최대화하도록 행동을 결정하는 정책을 따르므로 총
보상의 값도 증가하기 때문이다. 이는 DQN 방법을 활용한 강화학습을 통해 최적 정책으로 수렴함을 의미한다.
이어서 학습된 인공신경망을 토대로 테스트를 진행하였다. 비교를 위하여 송풍기와 공조기 출력을 1로 고정한 경우(Case 1)와, 각각 2와 1로 고정한
경우(Case 2)를 학습된 모델의 경우와 비교하였다. 표 2는 각 경우에 대한 보상값을 나타낸다. 그림 5는 정규화된 하루 중의 미세먼지 농도의 변화를 나타내고 있고 그림 6에서 정규화된 배터리의 SoC와 전력단가를 볼 수 있다. 이 값이 학습에 사용되었으며, 제안된 방법에 의해 배터리가 효율적으로 활용되고 있음을 확인할
수 있다.
그림 4. 학습 과정 중 보상값의 변화
Fig. 4. Changes in Reward Values during the Learning Process
표 2 각 경우의 보상값
Table 2 Reward Values for Each Case
|
Total
|
Control
|
Battery
|
PM
|
Propose
|
-2941.2
|
-183.92
|
324.23
|
-3081.52
|
Case 1
|
-3671.9
|
-243.19
|
-213.24
|
-3215.5
|
Case 2
|
-3120.3
|
-420.06
|
377.58
|
-3077.86
|
그림 5. 미세먼지 농도 정규화 수치의 변화
Fig. 5. Changes in Normalized Values of Fine Dust Concentration
그림 6. 배터리 SoC와 전력단가 정규화 수치의 변화
Fig. 6. Changes in Normalized Values of Battery SoC and Power Price
6. 결 론
본 논문에서는 태양광 발전이 설치된 역사 내의 PM 2.5, PM 10 농도를 제어하기 위해 인공신경망의 지도학습과 DQN 알고리즘을 이용한 강화학습
기반의 에너지 관리 에이전트를 개발하였다. 이를 위해 역사 내 미세먼지 농도와 이에 변화를 주는 시간, 온도, 습도 등을 현재 상태로, 송풍기와 공조기
및 에너지 저장장치의 제어를 행동으로 하는 마르코브 의사결정 모델을 구성하였다. 이때 송풍기와 공조기 및 에너지 저장장치의 제어에 따른 역사 내 미세먼지
농도 변화를 예측하기 위해 지도학습에 기초한 인공신경망을 구성하고 이를 학습하여 전이함수로 사용하였다. 이에 더하여 현재 상태에 따른 송풍기와 공조기
및 에너지 저장장치의 제어를 DQN 알고리즘에 기초한 인공신경망을 구성하여 현재 상태에 따른 최적 정책을 따라 미세먼지 저감장치 및 에너지 저장장치를
제어하는 에이전트를 개발하였다. 사례연구에서는 남광주역에서 측정한 실제 데이터를 활용하여 에이전트는 미세먼지 감소에 따른 보상과 총 전력비용 사이의
비가 증가할수록 송풍기와 공조기의 전력사용량을 증가시켜 역사 내 미세먼지 농도를 더 크게 감소시키고 에너지 저장장치의 제어를 통해 총 전력비용을 감소시키는
것을 확인하였다.
현재 남광주역사에서 시스템을 적용, 검증하고 있다. 전일 데이터를 입력하고 학습이 완료된 에이전트를 적용하여 나온 결과를 당일 제어 스케줄에 적용하고
있다. 추후 자동제어를 위해서는 이러한 에이전트의 제어 출력을 설비 제어에 자동으로 적용할 수 있는 빌딩자동화 관련 시스템이 필요할 것이다. 또한
지상역사와 지하역사에 따른 패턴이나 미세먼지 분포 등 철도역사의 여러 특성에 따라 적합한 에이전트를 개발 적용하는 데에 대한 추가 연구가 필요할 것으로
보인다. 그리고 태양광 발전을 포함한 여러 가지 전력원과 전력요금의 상관관계를 분석할 수 있을 것으로 보인다.
Acknowledgements
This research was supported by a grant from the R&D program (Development of smart
energy management and performance evaluation technology for railway stations based
on virtualization, PK2403C1) of the Korea Railroad Research Institute, Republic of
Korea.
References
M. J. Yeo, and Y. P. Kim, “Trends of the PM 10 Concentrations and High PM 10 Concentration
Cases in Korea,” Journal of Korean Society for Atmospheric Environment, vol. 35, no.
2, pp. 249-264, April 2019.

J. Baek, S. Lee, B, Lee, D. Kang, M. Yeo, and K, Kim, “A Study on the Relationship
between the Indoor and Outdoor Particulate Matter Concentration by Infiltration in
the Winter,” Journal of the Architectural Institute of Korea, vol. 31, no. 9, pp.
137-144, September, 2015.

Querol, X., Moreno, T., Karanasiou, A., Reche, C., Alastuey, A., Viana, M., Font,
O., de Miguel, E., Capdevila, M., “Variability of levels and composition of PM10 and
PM2.5 in the Barcelona metro system,” Atmospheric Chemistry and Physics, vol. 12,
no. 11, pp. 5055-507, 2012.

Moreno, T., Perez, N., Reche, C., Martins, V., de Miguel, E., Capdevila, M., Centelles,
S., Minguillon, M.C., Amato, F., Alastuey, A., Querol, X., Gibbons, W., “Subway platform
air quality: assessing the influences of tunnel ventilation, train piston effect and
station design,” Atmospheric Environment, vol. 92, pp. 461-468, 2014.

H. Lim, T. Yin, and Y. Kwon, “A Study on the Optimization of the Particulate Matter
Reduction Device in Underground Subway Station,” 2019 Spring Conference of the Korean
Institute of Industrial Engineers, pp. 3786-3786, Apr. 2019.

S. Park, Y. Lee, Y. Yoon, M. Oh, M. Kim, and S. Kwon, “Prediction of Particulate Matter(PM)
using Machine Learning,” Proceeding of the Korea Society for Railway Conference, pp.
499-500, May 2018.

Y. Kim, B. Kim, and S. Ahn, “Application of spatiotemporal transformer model to improve
prediction performance of particulate matter concentration,” Journal of Intelligent
Information System, vol. 28, no. 1, pp. 329-352, 2022.

J. Kim, K. Lee, J. Bae, “Construction of real-time Measurement and Device of reducting
fine dust in Urban Railway,” Proceeding of the Korea Society for Railway Conference,
pp. 101-102, 2020.

Y. Lee, Y. Kim, H. Lee, Y. J. Kim, B, H, and H. Kim, “Analysis of the Correlation
between the Concentration of PM 2.5 in the Outside Atmosphere and the Concentration
of PM 2.5 in the Subway Station,” Journal of Korean Society for Atmospheric, vol.
38, no. 1, pp. 1-12, 2022.

M. S. Kim, “Research & Trends for Converged AI Technology based on Unsupervised Reinforcement
Learning,” Journal of Korean Society of Computer Information, vol. 28, no. 1, June
2020.

R. S. Michalski, J. G. Carbonell, and T. M. Mitchell, “Machine Learning: An Artificial
Intelligence Approach,” 1983rd edition, Springer, 2013.

K. Kwon, S. Hong, J. Heo, H. Jung, and J. Park, “Reinforcement Learning-based HVAC
Control Agent for Optimal Control of Particulate Matter in Railway Stations,” The
Transactions of the Korean Institute of Electrical Engineers, vol. 70, no. 10, pp.
1594-1600, 2021.

R. S. Sutton, and A. G. Barto, Reinforcement Learning: An Introduction, 2nd ed. The
MIT Press, 2018.

J. R. Norris, “Markov Chains.” Cambridge University Press, 1997.

M. Minsky, S. A. Papert, “Perceptrons: An Introduction to Computational Geometry.”
MIT Press, 1987.

C. M. Bishop, “Neural Networks for Pattern Recognition.” Clarendon: Oxford, 1995.

V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves, I. Antonoglou, D. Wierstra and M. Riedmiller,
“Playing Atari with Deep Reinforcement Learning,” arXiv preprint arXiv:1312.5602,
2013.

B. Recht, “A tour of reinforcement learning: The view from continuous control,” Annual
Review of Control, Robotics, and Autonomous Systems, vol. 2, no. 1, pp. 253-279, 2019.

V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, A. Graves,
M. Riedmiller, A. K. Fidjeland, G. Ostrovski, S. Petersen, C. Beattie, A. Sadik, I.
Antonoglou, H. King, D. Kumaran, D. Wierstra, S. Legg, and D. Hassabis, “Human-level
control through deep reinforcement learning,” Nature, vol. 518, no. 7540, pp. 529-533,
Feb 2015.

L.-J. Lin, “Self-improving reactive agents based on reinforcement learning, planning
and teaching,” Machine Learning, vol. 8, no. 3, pp. 293-321, May 1992.

Keras. https://github.com/fchollet/keras. Accessed: 2021-08-27.

저자소개
Jong-young Park received the B.S., M.S., and Ph.D. degrees from Seoul National University,
Seoul, Korea, in 1999, 2001, and 2007, respectively. He was a Senior Researcher at
LS Electric Co., Ltd., Korea from 2009 to 2013. Currently, he is a Senior Researcher
at Korea Railroad Research Institute (KRRI) since 2013. His recent research interests
include the optimal operation of power systems in railway with the smart grid technology.
He received a B.S. and M.S. degree in Electrical and computer engineering from Seoul
National University, Republic of Korea, in 2012 and 2014, respectively. He is currently
pursuing a Ph.D. degree from The University of Texas at Austin from 2019. He is currently
on an internship in R&D department of Raon Friends, Anyang, South Korea.
He received a B.S degree in Naval Architecture and Ocean Engineering from Seoul National
University, Republic of Korea, in 2008. Currently, He is a team leader at RaonFriends
Co., Ltd., Korea from 2019. He recent research interests include the Power system,
Urban railroad and AI.
He received a B.S degree in Electric System Engineering from HanYang University, Republic
of Korea, in 2017. Currently, He is a development Manager in the AI Algorithm Development
at RaonFriends Co., Ltd., Korea from 2020. He recent research interests include Battery
Management System, and Battery Performance Diagnostics.
He was born in Korea in 1978. He received his Ph.D. degree in Electrical Engineering
from Seoul National University, Korea. Currently, he works at the RaonFriends Co.
that is a consulting company for the power system and power system economics. His
research field of interest includes power system reliability, equipment maintenance
and urban railroad.
He received a B.S and M.S. degree in Electrical engineering from Sungkyunkwan University,
Republic of Korea, in 1995 and 1998, respectively. He received a Ph.D. degree from
the Electrical Electronic and Computer Engineering from Sungkyunkwan University in
2002. He is currently a chief Researcher with the Smart Electrical & Signaling Division,
Korea Railroad Research Institute, Uiwang, South Korea.