2.1 시스템 모델과 외란 정의
2.1.1 1기 무한모선 시스템
본 논문에서는 그림 1과 같은 1기 무한모선 시스템(Single Machine Infinite Bus System, SMIB)을 고려한다. 무한모선은 전압의 크기가 일정하고
위상은 0이며, 언제나 충분한 양의 발전량과 부하량을 가진다[3]. 그림 1에서 $F$로 표시된 곳은 고장 발생 지점이다. 본 논문에서는 고장 발생으로 인한 임피던스의 변화를 외란으로 정의한다.
그림. 1. 1기 무한모선 시스템
Fig. 1. Single Machine Infinite Bus System
1기 무한모선 시스템은 다음과 같은 비선형 2계 미분 방정식을 통해 해석이 가능하다[1-4].
위 식에서 $H$는 단위 관성 계수, $f_{0}$는 동기 주파수, $\delta$는 전력각, $P_{m}$은 발전기에 인가되는 기계적 입력, $P_{e}$는
발전기의 전기적 출력, $P_{d}$는 고장 발생으로 인한 추가적인 외란이다. 이 때 발전기의 전기적 출력은 아래와 같이 다시 쓸 수 있다[1].
위 식의 $X$는 발전기와 무한모선 사이의 리액턴스, $E$는 발전기 유기 기전력, $V$는 무한모선 전압이다.
식 (1)-(2)를 상태 공간 방정식으로 다시 쓰면 아래와 같다.
위 식에서 $\omega_{\Delta}$는 동기 주파수에 대한 각주파수 편차이고, 고장 발생 이전에는 동기 주파수를 유지하고 있다고 가정한다. 선로에
고장이 발생하기 전에는 발전기의 기계적 출력과 전기적 출력이 평형을 이루고 있고, 동기 각속도로 회전하므로 전력각 $\delta$는 일정 값으로 평형
운전을 한다. 따라서 사고 발생 직전($P_{d}= 0$)의 초기 상태는 아래와 같다.
선로에 고장이 발생하면 발전기와 무한모선 사이의 리액턴스 $X$가 변하고, 식(2)에 따라 $P_{\max}$가 바뀌므로 발전기의 전기적 출력($P_{e}$)이 변화하게 된다. 이후 계통은 동기를 유지할 경우 새로운 평형점으로 수렴하게
된다. 이와 같은 과정을 표현하기 위해 식(3)에 댐핑항을 추가하여 다시 쓰면 아래와 같다.
위 식에서 $D$는 댐핑 계수이고, 일반적으로 0 ~ 2[pu] 범위의 값을 가진다[4]. 다음 절에서는 고장 위치에 따른 외란 $P_{d}$를 정의한다.
$\quad$
2.1.2 고장 위치에 따른 외란의 크기
선로에 고장이 발생하면 발전기와 무한모선 사이의 리액턴스 $X$가 변하게 되는데, $X$의 변화량은 고장 지점에 따라 다르다. 그림 1의 발전 모선(1번 모선)에서 고장 지점까지의 거리 비율을 $\lambda(0\le\lambda\le 1)$라고 하면 고장 지점이 발전 모선과 가까울수록
$\lambda$는 0에 가깝고 멀수록 1에 가깝다. 3상 단락 고장시 고장 후의 $X$를 $X_{post}$라고 정의하면 다음과 같이 쓸 수 있다[1].
위 식에서 $X_{s}$는 변압기 및 발전기 d축 과도 리액턴스, $X_{L1}$과 $X_{L2}$는 각각 건전 선로 및 고장 선로의 리액턴스이다.
고장 거리 비율 $\lambda$가 0에 가까우면 $X_{post}$가 무한대의 값을 가지므로 고장 지점이 발전 모선 근처이면 $P_{\max}$는
0에 가까워 전력을 거의 공급하지 못하는 상황이 된다. 반대로 고장 지점이 무한 모선에 가까울수록($\lambda\approx 1$) $X_{post}$는
$X_{s}+X_{L1}$$+ X_{s}X_{L1}/X_{L2}$에 가깝다. 한편 고장 선로가 차단된 후의 $X_{post}$는 $X_{s}+X_{L1}$이므로
고장 중의 $P_{\max}$는 차단 후의 $P_{\max}$보다 커질 수 없다.
본 논문은 고장으로 인한 $P_{\max}$의 변화량을 외란의 크기($d$)로 가정한다. 식(2)에서 고장 전후 $E$와 $V$는 동일하고 고장 전후의 리액턴스가 각각 $X_{pre}$ 및 $X_{post}$라면 $P_{\max}$의 크기 변화량
$d$와 외란 $P_{d}$는 아래 식과 같다.
따라서 본 논문에서 고려하는 SMIB 계통은 아래와 같다.
한편, 식(6)와 식 (7a)로부터 $\lambda$와 $d$의 관계식을 구하면 아래와 같다. 이는 관측기가 추정한 외란이 참값과 유사하다면 근사적으로 고장 위치를 결정할 수
있음을 의미한다.
다음 절에서는 외란의 크기 $d$를 추정하기 위한 강화학습 기반 외란 관측기를 설계한다.
2.2 강화학습 기반 외란 관측기 설계
2.2.1 강화학습
강화학습은 행동(Action)에 따른 보상(Reward)을 주며 행위자(Agent)를 학습시키는 방법이다. 즉, 행위자의 행동은 환경(Environment)에
영향을 미치고, 특정 행동은 환경의 상태(State)를 변화시켜 이에 따른 보상을 받게 된다[16]. 이를 단순화하면 그림 2와 같이 나타낼 수 있다.
강화학습은 지도학습(Supervised learning)과 달리 입력 값과 미리 획득한 출력 값이 필요하지 않다는 장점이 있다. 반면에 강화학습 알고리즘에서는
행위자의 행동과 그에 따른 보상이 명확하게 제시되어 있어야한다. 하지만 보상을 최대로 받을 수 있는 행동에 대한 정보는 가지고 있지 않기 때문에,
행위자는 어떤 행동이 큰 보상을 받을 수 있을지 에피소드를 반복하며 스스로 학습해야 한다. 이렇게 가장 큰 보상을 받을 수 있는 최적의 행동을 찾는
것을 기대보상의 최적화라고 하며, 강화학습은 한 에피소드 안에서의 총 보상이 가장 커지는 방향으로 학습이 진행된다. 본 논문은 강화학습의 여러 가지
알고리즘 중 Deep Q-Network을 이용하였다.
그림. 2. 강화학습의 기본 구조 [18]
Fig. 2. Structure of reinforcement learning [18]
2.2.2 Deep Q-Network
Deep Q-Network는 Q-Learning 알고리즘 중 하나로 주어진 환경에서 현재 상태와 행동을 입력으로 주면 다음 행동에 대한 기댓값을 출력해주는
Q함수를 학습시켜 최적의 행동을 구하는 알고리즘이다[25]. 이 때 Q함수는 아래 그림과 같은 deep neural network를 사용한다.
그림. 3. Deep neural network
Fig. 3. Deep neural network
그림 3에서 입력은 현재 행동을 통해 도달한 현재 상태들이고, 출력은 현재 상태에서 취할 수 있는 다음 행동들에 대한 기댓값들이다.
그림 3과 같은 deep neural network의 학습은 참고문헌 [25]를 참고하여 아래 식과 같은 비용 함수를 최소화 하는 방향으로 진행한다.
위 식에서 $s_{t}$는 현재 상태이고 $a_{t}$와 $a'$은 각각 현재 행동과 다음 상태에서 취할 수 있는 행동들이다. $r_{t}$는 현재
행동으로 인해 받은 보상이다. $\theta$와 $\overline{\theta}$는 각각 main network와 target network에 포함되어
학습 중에 최적이라고 가정한 $Q\left(s_{t},\: a_{t}\right)$가 변하는 문제를 해결하였다. 또한 사용하는 데이터들 간의 관계에
의해 network의 학습이 다른 방향으로 진행되는 문제를 해결하기 위해 아래와 같이 메모리에 저장된 상태, 행동, 보상, 다음 상태 중 임의의 값을
선택하여 network를 학습시킨다.
위 식에서 $D_{train}$은 식(10)에서 사용할 데이터이다. $S$, $A$, $R$, $NS$는 매 스텝 데이터를 저장하는 버퍼로 각각 현재의 상태, 현재의 행동, 현재 행동을 취함으로써
받은 보상, 다음 상태의 행렬이다. ${rand}$는 행렬 $\left[\begin{matrix}S,\: &A,\: &R,\: &NS\end{matrix}]\right.$의
임의의 열 데이터를 반환하는 함수이다.
Deep neural network의 학습은 위와 같은 방식으로 이뤄지고, deep neural network를 통해 구한 기댓값 Q를 이용하여 최적의
행동을 선택하는 방법은 아래와 같다.
위 식에서 $\pi(s)$는 정책(policy)으로 현재 상태에서 취할 수 있는 행동 중 가장 큰 기댓값(Q값)을 가지는 행동으로 결정된다. 이 때
식(12)의 정책만을 사용하면 지역 최적값에 빠져 전역 최적값을 찾을 수 없을 확률이 커지기 때문에 본 논문은 식(12)에 아래와 같은 $\epsilon$-greedy한 정책을 추가하여 사용하였다.
위 식에서 $E$는 일정한 값을 가지는 상수이고, $\epsilon$은 무작위 값으로 학습이 진행됨에 따라 점점 작아진다. 즉, 학습이 되지 않았을
초반 상태는 deep neural network의 기댓값을 확률에 따라 사용하지 않고 무작위 행동을 취함으로써 다양한 경우를 경험하여 안정적인 학습이
가능하도록 한다.
Deep Q-Network의 학습과 최적의 행동을 선택하는 과정을 정리하면 다음 그림과 같다.
그림. 4. Deep Q-Network 흐름도
Fig. 4. Deep Q-Network flowchart
다음 절에서는 Deep Q-Network를 이용하여 외란의 크기를 추정하는 외란관측기를 설계한다.
$\quad$
2.2.3 Deep Q-Network기반 외란관측기
본 절에서는 참고문헌 [15]를 참고하여 외란의 크기 $d$를 추정하는 DQN 기반 외란관측기를 아래 식과 같이 설계한다. 이때 1기 무한모선 시스템과 설계할 외란 관측기는 그림 4의 ‘Environment’에 해당하며 1기 무한모선의 전력각 $\delta$는 측정 가능하다고 가정한다[9].
위 식에서 $\hat\delta$, $\hat\omega$, $\hat d$은 추정 값이다. $L_{A}=\left[l_{a l}, l_{a 2},
l_{a 3}\right]^{T}$는 관측기 이득으로 Deep Q-Network의 행동에 해당하고 식(13)을 통해 결정된다. 이 때 기존의 Deep Q-Network의 경우 하나의 행동만을 출력할 수 있지만, 본 논문의 외란관측기는 3가지의 독립적인 행동을
필요로 하므로, 아래 그림과 같이 Deep Q-Network를 확장하여 사용하는 방법을 제안한다.
그림. 5. 제안하는 Deep Q-Network
Fig. 5. Proposed Deep Q-Network
위 그림과 같이 Deep Q-Network를 확장하여 사용하게 되면 현재 상태에서 취할 수 있는 다음 행동을 각각 독립적으로 학습할 수 있다.
Deep Q-Network의 상태 $s_{1}$, $s_{2}$는 아래와 같다.
위 식에서 $\overline{\omega}_{\Delta}$는 아래 식과 같은 슬라이딩모드 미분기를 이용하여 구한 1기 무한모선의 동기주파수에 대한
각주파수 편차이다. 이 때 $\lambda$와 $\alpha$는 슬라이딩모드 미분기의 이득이다[11].
다음 절에서는 제안하는 Deep Q-Network기반 외란관측기의 성능확인을 위해 모의실험을 진행한다.
2.3 모의실험
본 절에서는 표 1([Ex. 11.5, 2])의 파라미터를 가진 시스템에 대해 앞 절에서 설계한 관측기의 추정 성능을 모의실험 한다. 표 1의 파라미터에 의한 초기 상태 (4)는 [0.46055 0]$^{T}$이다.
표 1. 모의실험 파라미터
Table 1. Simulation Parameters
$P_{\max}$
|
$1.8[{pu}]$
|
$P_{m}$
|
$0.8[{pu}]$
|
$D$
|
12.5
|
$H$
|
$5[{MJ}/{MVA}]$
|
$| E |$
|
$1.17[{pu}]$
|
$| V |$
|
$1[{pu}]$
|
$\omega_{0}$
|
$120\pi[{rad}/\sec]$
|
$f_{0}$
|
$60[{Hz}]$
|
$X_{s}$
|
$j0.5[{ohm}]$
|
$X_{L1},\: X_{L2}$
|
$j0.3[{ohm}]$
|
Deep Q-Network의 학습을 진행하기 위해 현재 행동에 따른 reward($r_{t}$)는 아래와 같은 규칙으로 정의하였다.
위 식에서 $s_{1,\: t}$, $s_{2,\: t}$는 현재 상태이고 $s_{1,\: t-1}$, $s_{2,\: t-1}$는 이전 상태이다.
$L_{A,\: t}$는 현재의 관측기 이득(현재 행동)이고 $L_{A,\: t-1}$은 이전의 관측기 이득(이전 행동)이다. $r_{1}$과 $r_{2}$는
각각 minus reward와 plus reward이고 $\nu_{1}$, $\nu_{2}$, $\kappa$는 보상 상수이다. $\xi$는 허용
오차이며 충분히 작은 값을 가진다.
그림. 6. 에피소드 당 받은 보상의 총합
Fig. 6. Total reward per episode
그림. 7. Deep Q-Network 기반 외란관측기
Fig. 7. Deep Q-Network based disturbance observer
그림. 8. Deep Q-Network 기반 외란관측기
Fig. 8. Deep Q-Network based disturbance observer
$\quad\quad\quad\quad$ (a) 실제값 $\delta$ 및 추정치 $\hat\delta$
$\quad\quad\quad\quad$ (b) 실제값 $\omega_{\Delta}$ 및 추정치 $\hat\omega_{\Delta}$
$\quad\quad\quad\quad$ (c) 외란 $d$ 및 추정치 $\hat d$
Deep neural network의 초기화는 일반적으로 널리 사용되는 Glorot uniform initializer[22]를 사용하였다. Deep neural network의 업데이트는 다양한 network에서 좋은 성능을 보이는 Adam (Adaptive Moment
Estimation) optimizer[24]를 사용하였다. Deep Q-Network의 학습을 진행하면 그림 6과 같이 에피소드가 반복될수록 더 많은 보상을 받는 것을 확인할 수 있다.
다음으로 학습이 진행된 Deep Q-Network를 이용하여 외란의 크기를 추정하였다. 학습을 마친 Deep Q-Network를 사용하면 아래와 같이
Agent가 포함된 외란관측기를 설계할 수 있다.
그림 7의 Deep Q-Network 기반 외란관측기의 성능시험은 그림 1의 발전모선(1번 모선)의 50% 지점($\lambda = 0.5$)에서 3상 단락 고장이 발생한 상황을 가정하였다. 식(6)과 (7a)에 의하여 $\lambda = 0.5$일 경우 발생하는 외란은 1.15[pu]이다.
그림 8을 통해 제안하는 관측기가 상태 및 외란을 잘 추정하고 있음을 확인할 수 있다. 그림 8(c) 추정 과정에서 볼 수 있듯이 외란은 1초 이후에 증가하기 시작해서 1.15초 이전에 1.15[pu]로 수렴한다. 이때 수렴 여부 판단은 추정치의
변화율이 충분히 작아지는 순간으로 결정한다. 그림 8에서 차단기는 1.2초에 동작하여 계통은 일시적인 동요를 거쳐 새로운 평형점으로 수렴함을 확인할 수 있다. 결과적으로 제안하는 강화학습 기반 외란관측기로
추정한 외란의 크기를 바탕으로 선로 고장판별이 가능함을 알 수 있다.