• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Electrical Engineering, Konkuk University, Seoul, Korea.)



Probabilistic load forecasting Gradient boosting machine Quantile regression, Laplace distribution

1. 서 론

전력계통의 중요한 운영 목표 중 하나는 발전 비용 최소화다. 이 목표는 전력계통의 세 가지 한계점을 고려하면서 이루어져야 한다. 첫째, 이미 발전된 전기 에너지는 대규모 용량으로 저장할 수 없다. 둘째, 전기 사용자는 탄력적으로 전력을 사용할 수 있다고 발전사와 사용자 모두 암묵적으로 동의해 왔다. 셋째, 전력계통의 물리적 특성상 발전사와 사용자는 항상 같은 전력을 교환해야 한다. 따라서 발전 비용을 최소화하기 위해서는 필요한 전력수요를 정확히 예측하고 예측된 전력수요만큼만 발전해야 한다.

수요관리란 수요예측을 기반으로 공급계획 및 경영목표 등을 고려해서 수요계획을 생성하고 형성하며 그것을 다른 부문들과 합의해 실행한 후 수행 결과에 대해 모니터링하고 분석해 수요예측 정확도를 개선해나가는 일련의 과정을 일컫는다. 이런 수요관리를 할 때에는 단순히 미래의 시장수요를 정확히 예측하기 위해 예측기능 자체만을 강화하는데 집중할 수 있는데 그 부문만을 고려해서는 안 된다. 이러한 수요관리의 가장 큰 문제점은 강제성이 없기 때문에 고객의 전력수요에 대한 불확실성이 항상 존재한다는 것이다. 정확한 수요관리를 하려면 전력계통 운영자는 고객의 불확실한 행동을 고려한 확률적 수요예측을 해야 한다. 하지만 최근에 나타난 다양한 변화는 수요관리를 더 어렵게 하고 있다(1). 첫째, 전기자동차를 비롯한 다양한 수요가 등장하여 과거의 전력수요 파형이 달라지고 있다. 둘째, 태양광 발전 설비들이 전기 고객측(behind the meter)에 많이 확대되면서, 수요의 변동성이 커지고 있다. 셋째, 전기 사용자들도 수요를 사고 파는 수요관리 시장에 적극적으로 참여함으로써 전력수요의 불확실성이 커지고 있다. 이 세 가지 이유로 인해 커진 전력수요의 변동성과 불확실성이 전력수요 예측을 어렵게 하고 있다(2).

이를 해결하기 위한 근본적인 해결책은 전력수요 예측 알고리즘의 정확도를 향상하고, 전력수요 예측값에 대한 더 많은 정보를 제공하는 것이다(3). 첫째, 전력수요 예측 알고리즘의 정확도 향상을 위해서는 전력수요 예측 오차를 최소화해야 한다. 둘째, 우리는 예측된 전력수요의 확률분포를 제공하는 확률적 예측 (Probabilistic forecasting)을 통해 예측 오차의 범위를 제시함으로써 단순한 예측값 제공보다 더 많은 정보를 제공할 수 있다. 그뿐만 아니라 전력계통 운영자 또한 미래의 주어진 시각에 있을 수 있는 전력수요의 범위를 구하기 위해서 확률적 예측을 필요로 한다(4). 따라서, 정확한 예측 알고리즘과 예측값에 대한 확률분포를 바탕으로 한 전력계통의 운영은 최적화된 비용으로 전력을 안정화 시킬 수 있다.(5)

확률적 예측의 핵심은 예측값의 확률분포를 구하는 것이다. 본 논문에서 우리는 변수 방법과 비변수 방법을 이용해서 확률분포를 구한다. 먼저 변수 방법에서는 교차 검증 (CV : Cross Validation)을 통한 오차 검증 방법으로 예측값의 확률 분포를 구하고, 그 확률 분포를 라플라스(Laplace) 분포나 정규분포로 구체화하는 새로운 확률적 전력수요 예측 방법을 제시한다. 이 과정에서 점 단위 수요예측을 위해서 우리는 기상 관측값과 Gradient Boosting Machine (GBM)을 이용한다. GBM 방법을 사용하는 이유는 예측 오차에 가중치를 부여하여 오류를 개선해 나가면서 학습하므로 예측의 정확도를 높일 수 있기 때문이다. 그 후 교차 검증 과정을 통해 얻은 오차 데이터를 라플라스 분포에 대입한 뒤에 오차 분포를 생성한다. 이를 점 단위 수요예측에 적용하여 최종적인 확률적 예측 결과를 얻어낸다. 두 번째, 비변수 방법에서는 분위수 회귀분석(Quantile regression)을 이용해서 확률분포를 구한다. 변수 방법과 비변수 방법의 예측 성능을 비교하여 어떤 예측방법이 정확도가 높은지 분석한다. 본 논문을 통한 전력수요예측은 다섯 가지 측면의 기여도가 있다.

최신 머신러닝 기법인 GBM을 활용하여 전력수요의 점 단위 예측과 확률분포 예측의 정확도를 높인다.

전력수요의 확률분포에서 예측 오차가 특정 분포를 따르는 것으로 가정하고, 확률 분포를 평균과 분산으로 표현하여 예측하는 새로운 확률적 전력수요 예측 방법을 제시한다.

라플라스 분포를 통해 전력수요 오차를 수준별로 정확한 확률 분포로 모형화하여 정확하게 확률적으로 전력수요를 예측한다.

교차검증 방법을 사용하여 전력수요의 구간을 나눈뒤 오차 분포를 세분화하여 전력수요의 조건부 확률분포를 예측 했을 때 GBM을 통한 전력수요 예측 정확도를 향상시키는데 기여를 한다.

GBM 기반 분위수 회귀분석을 사용하는 비변수 방법을 제시하여 새로운 전력수요의 경험적인 확률분포를 제시한다.

본 논문의 순서는 다음과 같다. 2장에서는 확률적 전력수요 예측에 관한 사례조사를 소개한다. 3장에서는 수요예측 알고리즘을 변수 방법과 비변수 방법으로 구분하여 설명한다. 4장에서는 개별 알고리즘의 성능 평가를 통해 시사점을 제시한다. 5장에서는 위의 결과를 바탕으로 결론을 도출한다.

2. 사례조사

확률적 전력수요 예측에 대한 연구 방향은 국내 사례와 해외 사례로 분류된다.

2.1 국내사례

국내에서는 전력수요 예측의 정확도를 높이기 위한 다양한 방법이 있다. 첫째, 하루 전 전력 사용량을 가우시안 프로세스에 기반 하여 예측한 사례이다(6). 이는 데이터의 양과 질에 따라서 신뢰성이 크게 차이난다(7). 정확한 예측을 위해서는 오차 데이터 분석을 통해 실제 오차가 가우시안 분포를 따르는지 확인을 하여 신뢰성 향상이 필요하다(8). 둘째, 지역전력수요예측 알고리즘을 다중회귀분석법을 통해 개선한 사례이다.(9) 하지만 선형회귀모형만을 이용하여 오차검증을 하기 때문에 비선형적인 특징을 잡아내지 못해서 오차가 크다는 한계가 있다. 오차를 줄이기 위해서는 교차 검증을 통해 수집한 데이터의 비선형적인 특징도 학습해야 한다. 셋째, 발전 시스템의 발전량을 수요 예측한 사례이다. 발전량 수요 예측에는 네 가지의 네트워크에 다른 시점의 과거 전력 사용량 데이터를 입력하여 최종 예측치를 얻는 방법(10), 요일이나 휴일의 패턴을 고려한 방법(11), 기온 정보를 가지고 가중치를 두어 전력량을 예측하는 방법(12) 등이 있다. 이러한 방법들은 예측의 정확도는 높지만 오차를 고려하지 않았다는 한계점이 있다.(13)

2.2 해외사례

해외에서는 전력수요 예측에 대한 대표적인 연구 방향으로 세 가지 확률 예측 방법이 있다. 첫째, 예측 지점에 대해 양자 회귀 평균화(Quantum regression averaging)를 수행하여 예측의 정확도를 높인다(14). 이는 다수의 입력 시나리오를 제작한 뒤, 시나리오별로 점 단위 예측을 하고, 예측값을 모아서 확률 분포를 구하는 방법이다. 다수의 온도 시나리오를 생성하고, 시나리오별로 회귀 모델을 학습시켜 얻은 점 단위 예측값들을 경험 확률 밀도 함수로 제시하는 것이다(15). 하지만 이 방법은 시나리오의 제작 시간과 계산 시간이 오래 걸리고 오차가 전파될 수 있다는 단점이 있다. (16)에서는 10년간의 온도 및 전력수요 데이터의 일부만을 변형하여 시나리오로 삼아 전력수요의 확률분포를 예측했다. 이는 단순히 과거의 데이터의 일부만을 변형 사용하는 것에 불과하여 시나리오 사이의 독립성을 유지할 수 없다. 또한 예측된 데이터가 아닌 관측된 데이터를 이용하기 때문에 예측 결과의 신뢰성이 떨어진다.

둘째, 점 단위 예측을 통해 얻은 결과를 실측값과 비교해서 얻은 예측 오차로부터 오차 분포를 생성한 후 점 단위 예측값에 더하는 방법이 있다. 단기 전력수요를 측정할 때 시나리오를 바탕으로 확률적 예측을 수행하되 각 시나리오를 통해 얻은 예측 확률 분포표에 가우시안 함수를 이용해 다양한 오차 데이터를 샘플링해 정확도를 높이는 방법이 대표적이다(17). 하지만 통계적 검증을 통해서 전력수요의 오차를 표현하는 적절한 확률 밀도 함수를 선정하는 절차가 반드시 필요하다.

셋째, 분위수 회귀분석을 통해 확률 분포를 직접 구하는 방법이다. 분위수 회귀분석을 활용한 비변수 확률 예측 방법을 연구한 (18)에서는 중기 전력수요 예측 과정에 있어서 다수의 온도 시나리오를 예측 변수로 활용하고, 이를 다시 분위수 회귀분석으로 분포를 예측한 뒤 온도 시나리오별 예측 분포를 평균하여 확률적으로 전력수요를 예측한다. 하지만 분위수 예측 방법은 높은 연산 시간을 요구한다는 단점이 있다. 반면 라플라스 분포로 정형화하면 오차에 대한 별도의 계산 시간이 필요 없기 때문에 더욱 경제적이다. 뿐만 아니라 확정적인 확률분포를 평균과 분산만으로 표현이 가능해서 다음 단계에서 넘겨줄 정보 숫자가 적고, 다음 단계에서도 분석한 데이터의 활용이 용이하다. 따라서 분위수 회귀분석과 라플라스 분포를 비교, 분석하여 예측 정확도가 더 높은 방법을 택해야 한다.

3. 확률적 전력수요 예측 알고리즘

변수 방법은 예측 오차가 가우시안 분포, 라플라스 분포, 코시 분포 등의 확률밀도함수를 따른다고 가정하는 방법이다. 비변수 방법은 예측 오차들의 경험 확률 분포 함수를 그대로 활용하는 방법이다. 본 장에서는 확률 분포를 변수 방법으로 구체화하고, 기존 예측 방법보다 정확한 전력수요 예측 알고리즘 개발을 위해 새로운 라플라스 분포 방법을 제안한다. 이때 교차검증 방법을 사용하여 예측값을 구간으로 나누어 예측 오차의 조건부 확률분포를 구한다. 라플라스 분포의 성능은 가우시안 분포와 비교한다. 이후 비변수 방법의 확률적 예측 알고리즘을 제시한다.

3.1 변수 방법(Parametric Approach) 확률적 수요예측

변수 방법의 확률 예측에서는 전력수요 예측값의 확률 분포를 기존에 잘 알려진 확률 밀도 함수로 표현한다. 알려진 확률밀도함수는 변수를 이용해서 닫힘계(closed form)로 표현이 가능하기 때문에 변수 방법이라 부른다. 따라서 어떤 확률 밀도함수를 선택하느냐에 따라서 확률 예측의 정확도가 결정된다. 본 논문에서는 일반적으로 확률밀도함수로 가정되는 가우시안 분포 함수와 라플라스 분포 함수를 비교한다.

변수 방법 기반의 확률적 전력수요 예측 알고리즘은 다음과 같은 순서로 진행된다. 먼저 일반적으로 점 단위로 샘플링된 데이터를 가지고 수요를 예측한다. 이를 통해 먼저 1차적인 예측을 수행하고, 예측값과 실측값의 차이를 통해 개별 오차의 관측값을 수집하고, 교차 검증을 통해 오차 데이터를 누적한다. 이를 통해 얻은 오차 분포를 통해 가장 오차 분포를 적절히 표현할 수 있는 확률 밀도함수를 가져온다. 이때 확률 밀도함수의 평균이 시간대별 미래 전력수요 예측값이 되며, 확률 밀도함수의 확률 구간을 통해 실제 전력수요가 위치할 수 있는 확률 분포 또는 구간을 제시한다. 본 논문에서는 총 9개의 구간 즉 10%~20%, 20%~30%, ……, 80%~90%의 구간의 임계값들을 제시한다. 변수 방법 확률 수요예측의 전체적인 순서도는 아래의 그림 2과 같다. 교차 검증 방법은 KFold 방법을 10회 사용하였다. 이러한 예측값을 통해 실측값과의 차이를 비교하여 오차 데이터를 수집한다. 오차 데이터를 오차 분표표로 만들어서 가우시안, 라플라스, 분위수 회귀분석을 통해 예측값을 구한다. 이후 핀볼함수를 통해 어떤 모델의 예측 성능이 가장 좋은지 분석한다.

그림. 1. 변수 방법 확률 예측 흐름도

Fig. 1. Flow chart of parametric approach

../../Resources/kiee/KIEE.2021.70.11.1625/fig1.png

3.1.1 Gradient Boosting Machine

점 단위 전력수요 예측은 GBM을 사용한다. GBM은 결정 트리방법의 머신러닝 기법중 하나로 m번째 회귀분석 함수인 $F_{m}(x)$를 업데이트 하는 알고리즘이다. 이는 Gradient Descent 방법을 활용하여 개별 결정 트리를 반복하여 형성하며 개별 결정 트리 모델의 오차를 반영한 새로운 모델을 형성하는 것을 반복하는 알고리즘이다. 각각의 결정 트리는 가중치가 존재하며, 이들을 가중 평균하여 단일 예측을 한다. 이때 $m$은 모델의 반복 강화 횟수이며, $i$는 관측값의 단위이다.

(1)
$L(y_{i},\:F_{m-1}(x_{i}))=\dfrac{(y_{i}- F_{m-1}(x_{i}))^{2}}{2}$

실측값과 예측값의 제곱 오차 형태인 식(1)은 GBM의 오차 함수로 활용하며, 오차함수를 미분해 얻어지는 기울기는 Gradient Descent 방법을 통해 새로운 모델을 결정하도록 활용한다. 이때 식(1)의 미분에 의해 단순히 m번째 단계의 예측값과 실측값 차이에 오차를 맞추도록 아래와 같이 모델 기울기를 결정하게 된다.

(2)
$r_{im}= -[\dfrac{\partial L(y_{i},\:F(x_{i}))}{\partial F(x_{i})}]_{F(x)= F_{m-1}(x)}$

식(2)에서 $r_{im}$은 $i$번째 관측값에 대한 $m$번째 모델 보강을 위한 기울기이며, 관측값 $x_{i}$와 $r_{im}$이 짝을 이루어 학습하여 결정 트리를 아래와 같이 형성한다.

(3)
$h_{m}(x)=\sum_{j = 1}^{J_{m}}b_{jm}I(x\in R_{jm})$

식(3)에서 $h_{m}$은 $m$번째 결정 트리이며, $j$는 $m$번째 결정 트리 잎의 개수이다. $R_{jm}$은 관측 값들의 구역을 나눈 것이며, $I$는 손실함수이고, 각 구역에 속한 관측값 $x$에 대한 결과값은 구역의 평균으로 한다. 최종 예측 모델은 아래와 같다.

(4)
$\gamma_{jm}=\arg\min_{\gamma}\sum_{x_{i}\in R_{jm}}L(y_{i},\:F_{m-1}(x)+\gamma h_{m}(x_{i}))$

(5)
$F_{m}(x)= F_{m-1}(x)+\sum_{j=1}^{J}\gamma_{jm}I(x\in R_{jm})$

식(4)에서 $m$번째 결정 트리의 $j$번째 트리의 잎마다 가중치 $\gamma_{jm}$ 을 결정하고 매 반복마다 전체 회귀 함수 $F_{m}$을 식(5)와 같이 개정한다. GBM 알고리즘의 전체 구조를 그림 3에 나타내었다.

그림. 2. Gradient Boosting Machine

Fig. 2. Gradient Boosting Machine

../../Resources/kiee/KIEE.2021.70.11.1625/fig2.png

3.1.2 오차 데이터 생성

우리는 앞에서 설명한 GBM을 이용해서 10번의 교차 검증을 통해서 오차 데이터를 생성한다. 이때 오차 데이터는 점 단위 실측값과 예측값의 차이로 정의한다. 교차 검증이란 수요예측의 신뢰성 및 성능 평가를 위해 가지고 있는 학습 데이터의 구획을 나누어, 일부는 그대로 학습에 활용하고, 일부는 성능 평가에 활용하도록 데이터를 구분하는 것을 의미한다. 본 논문에서는 10개의 구획으로 나누어 예측 모델을 만들었고 각각의 구획에 따라 10번의 성능 평가 과정을 거쳐 오차 데이터를 누적한다.

전력수요 예측값의 크기에 따라 오차 분포도 영항을 받는다. 예를 들어 구간을 나누어 오차를 계산하면 구간의 제일 작은 값 이하로는 하방오차가 나올 수 없고, 가장 높은 값 이상으로는 상방오차가 나올 수 없다. 그러므로 오차 데이터의 수집 과정에서, 예측 전력수요 예측값의 크기를 10개의 구간으로 나누어 개별적으로 오차 데이터를 수집하면 오차 분포를 더 정확히 예측 가능하다. 데이터는 ISONE에서 제공하는 7년 동안의 데이터를 토대로 분석한다. 이 데이터를 10개의 구간으로 나누고 각각의 분위의 오차 데이터의 평균과 표준편차를 활용하여 확률 밀도 함수에 대입한다. 아래의 표 1은 수집한 오차 분포의 구간별 평균 및 표준편차를 나타낸 것이다.

표 1. 분위별 오차 데이터의 평균 및 표준편차

Table 1. Mean and standard deviation of error interval

구간[MW]

평균

표준편차

1100[MW]이하

1.5073

20.8335

1100~1200[MW]

0.8995

28.1055

1200~1300[MW]

1.5109

29.5192

1300~1400[MW]

2.0652

27.5272

1400~1500[MW]

-0.4328

26.6842

1500~1600[MW]

-1.1191

28.4644

1600~1700[MW]

-4.2629

29.3182

1700~1800[MW]

-6.0464

30.1581

1800~1900[MW]

-4.6691

31.9105

1900[MW]이상

-10.9235

29.7730

3.1.3 확률밀도함수 선정

우리는 수요의 오차를 가장 잘 표현해줄 수 있는 라플라스 분포를 제시한다. 먼저 관측값들의 분포 경향을 판단할 수 있는 첨도(Kurtosis)를 계산한다. 첨도 계산식은 식(6)에 나와 있다.

(6)
$K =\dfrac{1}{n}\sum_{i =1}^{n}(\dfrac{X_{i}-\overline{X}}{s})^{4}$

$K$는 첨도, $N$은 오차 관측 값들의 개수, $X_{i}$는 관측값,$\overline{X}$는 관측값의 평균, $s$는 관측값의 표준편차를 의미한다. 첨도는 관측값들의 분포가 평균에 밀집해 있는 정도에 대한 정량적 값을 제시해주며, 이 값이 3이상이면 정규 분포에 비해 뾰족한 분포를 의미한다. 앞서 얻어낸 전체 오차 데이터들의 첨도는 6.04로 이 기준에서 많이 벗어난다. 그림 4을 통해 확인할 수 있듯 평균 주변의 밀도가 높다. 따라서 오차 분포를 적절히 나타내는 확률 밀도함수를 설정할 때에는 평균에서의 확률밀도가 충분히 높은 것이어야 한다.

그림. 3. 오차 분포

Fig. 3. Error Distribution

../../Resources/kiee/KIEE.2021.70.11.1625/fig3.png

본 논문에서는 첨도가 높은 관측값을 활용할 수 있는 라플라스 분포를 선정한다. 대표적인 확률밀도 함수인 가우시안 분포도 비교한다. 가우시안 분포와 라플라스 분포의 확률밀도함수는 각각 식(7)식(8)과 같다. 표 1의 오차 데이터의 평균과 표준편차를 활용하여 오차 데이터의 각각 구간에 해당하는 수학적 형태를 결정한다. 여기서 $\mu$는 평균, $\sigma^{2}$은 분산, $b$는 스케일 매개변수이다.

(7)
$f(x)=\dfrac{1}{\sigma\sqrt[2]{2\pi}}e^{(-\dfrac{(x-\mu)^{2}}{2\sigma^{2}})}$

(8)
$f(x;\mu ,\:\sigma^{2})=\dfrac{1}{2b}e^{(-\dfrac{| x-\mu |}{\sigma^{2}})}$

3.1.4 분위별 예측값 제시

여기서는 분위별 예측값을 계산한다. 분위별 예측값이 필요한 이유는 우리는 본 논문에서 핀볼함수(Pinball Loss Function)를 이용해서 라플라스 분포 방법과 가우시안 분포 방법의 성능을 계산하기 때문이다. 분위별 예측값은 누적분포함수(Culmulative Distribution Function)를 통해서 계산한다.

확률 예측의 목표는 설명변수로부터 응답변수의 확률 분포를 예측하는 일이다. 다시 말해 $N$개의 관측값의 설명변수 $X$와 응답변수 Y를 통한 학습을 통해 조건부 확률밀도함수(Conditional Probability Density Function) 또는 조건부 누적분포함수를 얻어내는 일이다. 이는 아래의 식(9)와 같이 표현된다. 이때 $F$는 누적분포함수를 의미한다.

(9)
$F_{Y\vert X}(y)= P(Y\le y\vert X = x)$

10%와 90%의 분위수로 제시한 확률구간에 해당하는 임계값은 누적분포함수에서 구한다. 임계값들을 핀볼함수에 대입하면 라플라스 분포와 가우시안 분포의 성능이 나온다.

3.2 비변수 방법 (Non-parametic Approach) 확률 수요예측

비변수 방법의 확률 전력수요 예측은 변수 방법과는 달리 특정한 확률밀도함수의 분포를 따른다고 가정하지 않는다. 비변수 방법의 확률 예측에는 경험 분포 함수(Empirical Distribution Function)를 활용하는 방법과 분위수 회귀분석(Quantile Regression)을 활용하는 방법이 대표적이다. 본 논문에서는 앞서 설명한 GBM을 바탕으로 한 GBM 분위수 회귀분석을 바탕으로 전력수요를 확률적으로 예측한다.

3.2.1 선형 분위수 회귀분석(Linear Quantile Regression)

선형 분위수 회귀분석은 GBM 회귀분석에 대한 개념을 설명하기 위한 목적으로 짧게 설명만 하였고, 본 논문에서는 다루지 않는다. ‘Quantile’란 분위를 의미하며, 이는 확률 변수 $Y$에 관련한 누적분포함수의 역함수에서 주어진 예측구간의 값으로 정의할 수 있으며, 이를 식(10)에 표현한다. 이때, $q$는 주어진 예측구간의 값이다.

(10)
$y_{q}= F^{-1}(q)$

회귀 함수의 관측 분위별 파라미터 $\beta_{q}$를 얻어내기 위한 목적함수를 식(11)에 나타낸다.

(11)
$Q(\beta_{q})=\sum_{i:y_{i}\ge x_{i}^{'}\beta_{q}}^{N}q\left | y_{i}-x_{i}^{'}\beta_{q}\right | +\sum_{i:y_{i}<x_{i}^{'}\beta_{q}}^{N}(1-q)\left | y_{i}-x_{i}^{'}\beta_{q}\right |$

식(11)에서 $q$와 $1-q$의 가중치를 부여하여, Least absolute deviation을 얻어내는 과정이라고 할 수 있다. 종합적으로 분위수 회귀분석을 통해 전력수요 예측값의 확률 분포를 예측할 수 있다.

3.2.2 GBM 분위수 회귀분석

GBM 분위수 회귀분석(GQR : GBM Quantile Regression)은 확률 예측 분야에서 최신 알고리즘이다. 기존 예측 알고리즘보다 예측 정확도가 매우 높다. GQR은 분위수 별로 각각의 모델을 생성해야 하므로 연산 시간이 큰 편이나, 높은 예측 성능을 갖고 있다. GQR은 GBM과 비교했을 때, 편차를 구하기 위한 손실 함수와 기울기 함수 계산 부분에서만 차이를 갖는다. GQR의 손실함수는 식(12)에 나와 있다.

(12)
\begin{align*} (q\sum_{(y_{i>}f(x_{i}))}(y_{i}-f(x_{i}))+\\ (1-q)\sum_{(y_{i\le}f(x_{i}))}(f(x_{i})-y_{i})) \end{align*}

식(12)에서 $q$와 $(1-q)$로 설정된 분위수는 가중치로 이용되어 실측값과 예측값의 차이의 계수가 된다. GQR의 모델 강화 기울기가 식(12)에서 나온 손실 함수를 이용해서 계산된다는 점을 제외하고 나머지 과정은 GBM의 알고리즘과 동일하다.

4. 해석 결과

본 장에서는 핀볼함수를 이용하여 우리가 새롭게 제시한 라플라스 분포 방법을 가우시안 분포 방법과 분위수 회귀분석 방법과 비교한다. 예측에 사용된 데이터는 ISONE가 제공하는 7년간의 온도 및 습도 등의 데이터이고, 이를 전력수요 예측의 파라미터로 이용하여 후년의 전력수요를 예측한다. 핀볼함수는 확률적 예측값을 비교하는 방법이다. 많은 예측 논문들에서도 핀볼 손실을 통한 평가를 수행한다. 대표적으로 평균 예측 외에 예측 구간을 제공하는데 많이 쓰인다. 따라서 전 장에서 오차들을 분석하여 얻은 예측값, 분위수 회귀분석을 통해 얻은 예측값을 평가하기 위해 핀볼 손실 함수를 사용한다.

4.1 핀볼함수

핀볼 손실 함수는 손실값에 가중치를 두어 예측값의 정확도를 추론하는 함수이다. 이 함수는 식(13)으로 표현한다. 이때 a는 표본 분위를, $q_{a}$는 분위별 예측을 의미한다.

(13)
$L(q_{a},\:y)=\left\{\begin{aligned}(1-\dfrac{a}{100})\times(q_{a}-y)\enspace{if}\enspace y \enspace q_{a}\\ \dfrac{a}{100}\times(q_{a}-y)\enspace{if}\enspace y\ge q_{a}\end{aligned}\right\}$

본 절에서는 P90 (Probability90), P10 (Probability10)을 사용해 가우시안 분포, 라플라스 분포, 분위수 회귀분석을 통해 예측한 값과 비교한다. P90은 발생 빈도수 90%, P10은 발생 빈도수 10%를 의미한다. 따라서 예측값이 핀볼 손실 함수 사이에 있을 때 예측 정확도가 높다. 예측 정확도는 RMSE 비교 대신 핀볼 함수를 이용하여 비교하였다.

4.2 예측 결과

아래 그림 5, 그림 6, 그림 7에서는 P10, P90 그래프로 예측 범위를 나타낸다. P10은 그래프상 위측 검은선, P90은 그래프상 아래측 검은선, 예측값은 붉은 점선으로 표기하였다. 점선은 각 함수별 예측값을 나타내며, P10과 P90 그래프 사이에 있을수록 정확도가 높다.

그래프 내에서 P10과 P90 사이에 예측값이 있을수록 예측의 정확도가 높다. 먼저 가우시안 분포를 이용해서 전력수요를 예측한다.

그림. 4. 가우시안 분포 전력수요 예측

Fig. 4. Gaussian Distribution Load Forecast

../../Resources/kiee/KIEE.2021.70.11.1625/fig4.png

가우시안 분포는 확률 예측의 확률구간의 폭이 좁아 적절한 확률 예측을 수행했을 때 정확도는 높지만, 다수의 구간에서 예측값이 실측값을 벗어나고 있다. 핀볼 함수값은 23.33이 나왔다. 이는 세 가지 예측 모델 중 성능이 제일 낮다.

그림. 5. 라플라스 분포 전력수요 예측

Fig. 5. Laplace Distribution Load Forecast

../../Resources/kiee/KIEE.2021.70.11.1625/fig5.png

라플라스 분포가 가장 높은 성능의 예측값을 구할 수 있다. 그래프를 보면 P10, P90, 점선이 대부분의 구간에서 일치하는 것을 확인할 수 있다. 핀볼 함수값은 21.25가 나왔다. 이는 세 가지 예측 모델 중 가장 성능이 좋다는 것을 의미한다.

그림. 6. 분위수 회귀분석 전력수요 예측

Fig. 6. Quantile Regression Load Forecast

../../Resources/kiee/KIEE.2021.70.11.1625/fig6.png

분위수 회귀분석 방법의 전력수요 예측값 그래프 개형은 P10에서 P90 사이에 있지만 예측 범위가 넓어 결과의 정확도가 떨어진다. 핀볼 함수값은 22.35가 나왔다. 세 가지 모델 중 중간 정도의 성능이다.

위의 세 가지 확률 전력수요 예측 그래프를 보면 확률 예측의 예측 구간 내에 실제 수요가 포함되고 있음을 알 수 있다. 이에 따라 예측값이 실측값과 크게 차이나는 부분이 있다. 이를 핀볼 함수를 이용하여 분석한다.

모델별 성능비교를 정량적인 방법으로 평가하기 위해 핀볼함수를 토대로 가우시안 분포 기반 변수 방법, 라플라스 분포 기반 변수 방법, GBM 활용 분위수 회귀분석 기반 비변수 방법, 이렇게 세 가지의 성능을 비교한다. 결과는 표 3와 같이 가우시안 분포 기반 변수법일 때 23.33, 라플라스 분포 기반 변수법일 때 21.25, GBM 활용 분위수 회귀분석 기반 비변수법일 때 22.35가 나와, 라플라스 분포 기반 변수법이 가장 성능이 높은 것을 알 수 있다.

표 2. 세 가지 예측 모델의 확률적 예측 성능 비교

Table 2. Comparison between three probabilistic forecasting models

Model

가우시안 분포 기반 변수법

라플라스 분포 기반 변수법

분위수 회귀분석

Pinball

23.33

21.25

22.35

4.3 확률적 전력수요 예측값 비교

라플라스 분포를 활용한 확률적 예측의 결과가 가장 정확하다. 그림 5는 10%와 90%의 분위수로 제시한 확률구간으로 제시한 확률적 예측 결과이다. 대부분의 시간대에서 비변수 방법을 통한 확률구간 내에 실제 수요가 포함되고 있음을 확인할 수 있다. 반면 변수 방법의 확률구간의 폭이 좁아 적절한 확률 예측을 수행했을 때 그 정확도는 높지만, 많은 구간에서 실제 수요가 벗어나고 있음을 그림 5, 그림 6, 그림 7을 통해 확인할 수 있다.

라플라스 분포 방법이 가우시안 분포 방법보다 높은 성능을 보이는데 이를 통해 오차 분포의 데이터를 가공하여 사 용하는 변수 방법이 오차 분포를 잘 표현하는 확률 모델에 의존한다는 사실을 확인할 수 있다. 표 2의 핀볼함수값 비교를 통해 알 수 있듯, 정확한 전력수요 예측을 위해 본 논문에서 제안하는 방법인 라플라스 분포 기반 변수 방법을 통한 전력수요 예측이 확률적으로 가장 전력수요 예측 성능이 높다.

5. 결 론

본 논문에서는 확률 전력수요 예측을 위해서 라플라스 분포와 GBM을 이용한 새로운 변수 방법을 제시한다. 라플라스 분포 방법은 기존의 가우시안 분포 방법과 GBM 분위수 회귀분석에 비해 더 낮은 핀볼함수값을 가진다. 단순 라플라스 방법만 이용하는 것이 아닌 GBM으로 예측 정확도를 높이고, 오차의 교차 검증을 통해 예측값과 실측값의 차이를 줄인다. 이를 통해 라플라스 분포 방법이 더욱 정확한 전력수요 예측이 가능함을 알 수 있다.

본 논문은 비변수 방법에 있어 GBM 분위수 회귀분석을 통한 활용만을 보였기 때문에 이와 더불어 빈번히 활용되는 Random Forest 기반의 비변수 확률 전력수요 예측과 경험 분포 함수를 활용한 예측과 함께 비교하는 것이 필요하다. 추후 연구를 통해 이러한 비교를 보완할 필요가 있다. 뿐만 아니라 국내 전력 계통에서 이러한 확률 전력수요 예측의 적절한 활용 방안을 제시하는 것 또한 반드시 다루어야 할 것이다.

Acknowledgements

이 논문은 2020년도 정부(과학기술정보통신부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업임. (No. 2020R1C1C 1015111) 본 연구는 2018년도 산업통상자원부의 재원으로 한국에너지기술평가원(KETEP)의 에너지기술개발사업으로 지원받아 수행한 성과임. (No.20181210301320)

References

1 
Hye Jung Park, 2009, Quantile regression using asymmetric Laplace distribution, Journal of the Korean Data & Information Science Society. 2009, Vol. 20, No. 6, pp. 1093-1101Google Search
2 
Byung-Hoon Ahn, Hoe-Ryeon Choi, Hong-chul Lee, 2015/12, Regional Long-term/Mid-term Load Forecasting using SARIMA in South Korea, The Korea Academia-Industrial cooperation Society, pp. 8576-8584DOI
3 
M. Baek, D.H. Lee, 2017, Spatial and Temporal Day-Ahead Total Daily Solar Irradiation Forecasting: Ensemble Forecasting Based on the Empirical BiasingGoogle Search
4 
Yukseltan Ergun, Yucekaya Ahmat, Humeyra Bilge Ayse, 2020.09., Hourly electricity demand forecasting using Fourier analysis with feedbackDOI
5 
Jin-Tae Kim, Seung-Yong Lee, Ji-Young Kim, 2020.9., Design of ESS Power Energy Capacity for Mitigation of Long-term Intermittent Wind Power Fluctuation, THE TRANSACTION OF THE KOREAN INSTITUTE OF ELECTRICAL ENGINEERS P 69P(3), pp. 175-180Google Search
6 
Junho Song, Seungwook Yoon, Kanggu Park, Euiseok Hwang, 2017.11., Hybrid Day-ahead Prediction of Power Consumption based on Linear Prediction and Gaussian Process with Atypical Residual of Meteorological Information, The Korean Institute of Electrical Engineers, pp. 33-35DOI
7 
Gyoung-Do Kim, Yong-Hyuk Kim, 2017, A Survey on Oil Spill and Weather Forecast Using Machine Learning Based on Neural Networks and Statistical Methods, Journal of the Korea Convergence Society, Vol. 8, No. 10, pp. 1-8DOI
8 
R. Andrade José, Filipe Jorge, Reis Marisa, J. Bessa Ricardo, 2017/10, Probabilistic Price Forecasting for Day-Ahead and Intraday Markets: Beyond the Statistical ModelDOI
9 
Nam BongWoo, Song KyungBin, Kim KyuHo, Cha JunMin, 2008, The Spatial Electric Load Forecasting Algorithm using the Multiple Regression Analysis Method, Journal of the Korean Institute of Illuminating and Electrical Installation Engineers, Vol. 22, No. 2, pp. 63-70DOI
10 
P. P. K. Chan, W. C. Chen, W. W. Y. Ng, D. S.Yeung., 2011, Multiple classifier system for short term load forecast of Microgrid, 2011 International Conference on Machine Learning and Cybernetics(ICMLC), Vol. 3DOI
11 
H. M. Hwang, S. H. Lee, J. B. Park, Y. G. Park, S. Y. Son, 2015, Load Forecasting using Hierarchical Clustering Method for Building, The Transactions of the Korean Institute of Electrical Engineers, Vol. 64, No. 1, pp. 41-47DOI
12 
K. B. Song, 2014, Development of Short-Term Load Forecasting Algorithm Using Hourly Temperature, The Transactions of the Korean Institute of Electrical Engineers, Vol. 63, No. 4, pp. 451-454DOI
13 
Jinwoong Park, Jihoon Moon, Yongsung Kim, Eenjun Hwang, 2016/04, Electric Power Consumption Forecasting Method using Data ClusteringDOI
14 
Liu Bidong, Nowotarski Jakub, Hong Tao, 2015/06, Probabilistic Load Forecasting via Quantile Regression Averaging on Sister Forecasts, IEEE Transcacsions on Smart Grid, pp. 730-737DOI
15 
Ben Taieb Souhaib, Huser Raphaei, G. Genton Marc, 2016/03, Forecasting Uncertainty in Electricity Smart Meter Data by Boosting Additive Quantile Regression, IEEE Transcacsions on Smart Grid, pp. 2448-2455DOI
16 
Xie Jingrui, Hong Tao, 2016/08, Temperature Scenario Generation for Probabilistic Load Forecasting, IEEE Transcacsions on Smart Grid, pp. 1680-1687DOI
17 
Wenjia Yang, Chongqing Kang, Qing Xia, Runsheng Liu, Taonan Tang, Peng Wang, 2016/08, Short Term Probabilistic Load Forecasting Baded on Statistics of Probability Distribution of Forecasting Errors, IEEE Transcacsions on Smart Grid, pp. 1680-1687Google Search
18 
Yang Yandong, Li Shufang, Li Wenqi, Qu Meijun, 2018/03, Power Load Probability Density Forecasting Gaussian Process Quantile Regression, Applied Energy, pp. 499-509DOI

저자소개

박세준(Sejun Park)
../../Resources/kiee/KIEE.2021.70.11.1625/au1.png

He is currently studying at Konkuk University's AI Energy System Laboratory.

His research interests are electric vehicles, ESS, and prediction.

김현진(Hyunjin Kim)
../../Resources/kiee/KIEE.2021.70.11.1625/au2.png

He received the B.S. degree in electrical engineering in 2019 from Konkuk University, Seoul, Korea.

His research interests are power system economics and energy forecasting including electricity demand and sola power.

이두희(Duehee Lee)
../../Resources/kiee/KIEE.2021.70.11.1625/au3.png

He received the B.S. degree in electronic and electrical engineering in 2004 from Pohang University of Science and Technology, Pohang, Korea.

He received the M.S. and Ph.D. degrees in the electrical and computer engineering at The University of Texas at Austin, Austin, TX, USA, in 2009 and 2015, respectively.

He is currently an assistant professor in the electrical engineering department at the Konkuk University, Seoul, Korea.