• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (School of Electrical Engineering, Chungnam National University, Korea.)
  2. (Smart Power Distribution Lab., KEPCO Research Institute, Korea.)



Distribution planning, Load forecasting model, Ensemble learning, Input variable, Correlation analysis

1. 서 론

재생에너지(Wind turbine, photovoltaic), ESS(Energy Storage System) 등의 분산전원에 의해 배전계통의 변화가 커짐에 따라 전통적인 배전시스템이 변화하고 있다. 분산형 전원의 수용과 마이크로그리드와 같은 새로운 배전계통이 출현하고 도시화에 따른 부하 집중 현상으로 배전설비 신설의 한계에도 불구하고 수용가들은 지속적으로 전력품질과 신뢰도가 높은 전력을 공급받기 원하고 있다. 이에 따라 배전설비에 대한 투자비용은 지속적으로 증가하여 이를 최적으로 고려할 수 있는 배전계획의 중요성이 더욱 커지고 있다. 최적의 배전계획을 위해서는 무엇보다 정확한 부하예측이 선행되어야 한다. 더불어, 과거와 달리 현재의 배전계획은 신재생에너지의 예측과 부하 예측의 결과를 합성하여 배전설비의 확장 계획을 수립해야 하기 때문에 배전선로의 부하 예측 정확도가 더욱 중요해지고 있으며 이것이 효율적이고 경제적인 계획을 세울 수 있는 기반이 된다.

과거 정확한 부하예측을 위하여 회귀 분석이나 시계열 분석과 같은 통계적 방법(Statistical Methods)이 적용되었다. 즉, 과거에는 부하예측 모델로 Regression model, ARIMA(Auto-Regressive Integrated Moving Average) model 등과 같은 통계학적 모델을 사용하였다. 이후 인공지능 기술이 발전함에 따라 ANN(Artificail Netural Network), SVM(Support Vector Machine) 등과 같은 기계학습(Machine Learning) 모델을 부하예측에 활용하고 있다. 더욱이 최근에는 기계학습 모델의 편향성 감소와 예측정확도 향상을 위해 2개 이상의 모델을 결합하는 Hybrid 모델, 즉 Ensemble model을 적용하는 부하예측 기술이 현재 개발되고 있다(1-2).

과거 배전계획에서 부하예측은 회귀분석을 통해 부하의 일정한 증가를 가정하였으나, 중장기와 같이 예측 기간이 길어질수록 비선형적인 특성을 가지고 있어 예측정확도의 개선이 필요하다. 현재 한국의 전력회사인 한전은 배전선로의 부하예측 정확도를 향상시키기 위해 앙상블 학습에 기반한 배전선로 부하예측 모델 및 시스템을 개발하고 있다. 하지만, 기계학습 기반의 부하예측 모델에서는 입력변수의 조합에 따라 성능이 상이하다(3).

따라서 본 논문에서는 앙상블 모델 기반의 부하예측을 위한 입력변수의 선정 프로세스를 제안하였다. 예측가능한 입력변수의 상관관계 분석을 통해 배전선로 부하예측 모델의 입력변수를 선정하고 부하예측 모델의 예측값과 실제값의 비교를 통해 입력변수의 예측 성능 기여도를 분석하였다. 또한, XAI(eXplainable AI) 분석을 통해 부하예측에 있어 선정된 입력변수의 중요도와 제안한 입력변수 선정 프로세스의 적정성을 고찰하였다.

2. 배전선로 부하예측을 위한 입력변수 데이터 분석

기계학습은 입력변수, 은닉층, 그리고 출력값 사이의 가중치와 편향을 학습시켜 실제와 유사한 출력값을 도출하거나 결정 트리와 같이 입력변수 값의 범위에 따라 출력값을 선정한다(4). 배전선로 부하예측 모델에서는 일반적으로 입력변수로 사회, 경제, 기상 변수 등을 활용한다(2). 그림 1은 한전의 배전선로 최대부하 예측 모델이다. 이때, 입력변수는 과거 배전선로 부하 데이터와 사회, 경제지표 및 기상 인자이며, 출력값은 배전선로의 최대부하 데이터이다.

그림. 1. 앙상블 기반 배전선로 최대부하 예측 모델

Fig. 1. Peak load forecasting model of distribution line based on ensemble learning

../../Resources/kiee/KIEE.2022.71.8.1092/fig1.png

일반적으로 예측에서는 사용할 수 있는 자원, 데이터 및 비교 모델의 정확도에 따라 사용할 모델이 달라진다. 따라서, 배전계통에서 취득할 수 있는 전력 데이터와 외부 데이터를 정의하고, 프로파일 분석을 통해 부하예측 모델 구현을 위한 변수들을 선정하는 과정이 선행되어야 한다.

2.1 예측을 위한 배전계획 데이터 정의

예측은 기본적으로 입력변수와 출력변수 간의 상관관계를 기반으로 이뤄진다. 해당 상관관계를 정확히 알아낼수록 정확한 예측이 가능하다. 따라서, 배전계획을 위해 배전계통에서 취득 가능한 데이터를 정의하고, 사회, 경제, 기상 등 다양한 측면에서 입력변수 요소를 고려할 필요가 있다.

한전의 배전선로의 부하 데이터 목록은 표 1과 같다. 이것은 한전의 SCADA(Supervisory Control and Data Acqusition System)을 통해 측정하고 취득한 데이터로써, 배전선로 최대부하 예측 모델 학습을 위해 활용된다. 즉, 기계학습을 이용한 배전선로 최대부하 예측 모델에서는 과거 배전선로 최대부하 데이터를 활용한다. SCADA에서 시간별, 일별, 월별로 제공하는 배전선로 부하 데이터에서 시간별 부하 데이터의 전처리 과정을 통해 예측 모델에 적용한다.

배전선로 부하 예측에서는 사회, 경제, 기상 변수 등의 외부변수가 활용되어야 한다. 사회, 경제 변수는 국가통계포털에서 데이터를 취득하고, 기상정보는 한국의 기상자료개방포털에서 취득하였다. 사회, 경제 변수 수집의 조건은 기계학습 모델의 시계열 학습을 위해 시계열 형태의 데이터이어야 하고 구성한 모델을 지속적으로 활용할 수 있도록 최근까지 업데이트 중인 데이터이어야 한다. 즉, 현재 시점 이후의 부하 예측을 위해 최대한 많은 데이터가 필요하며 추후 예측 모델을 지속적으로 활용하기 위해서는 매년 새로운 데이터를 취득할 수 있어야 한다. 이러한 조건을 만족한 입력변수 아래 표 2와 같이 총 597개를 수집하였다.

표 1. 부하데이터 목록

Table 1. Data list of load

구분

지역

선로 데이터

시간별

전국 사업본부

(서울, 남서울, 경기, 인천, 강원, 충북, 대전세종충남, 대구, 전북, 광주전남, 경남, 부산울산, 제주)

일별

월별

표 2. 부하예측을 위한 입력변수 목록

Table 2. Data list of input variables for load forecasting

데이터명

입력변수 개수

GDP 관련 개수

52

GDP deflator, 실질 GRDP, 명목GRDP

3

경제활동별 지역내 총생산

84

1인당 지역내 총생산

4

SMP, 정산단가

2

전사업생산지수(원지수)

5

전산업생산지수(계절조정지수)

5

인구수(연령, 성별)

72

경지종합지수

22

설비투자지수

40

지출목적별 소비자 물가지수

13

품목성질별 소비자 물가지수

26

생산자물가지수

260

기상

9

합계

597

2.2 입력변수 데이터의 전처리

사회, 경제, 기상 변수는 제공되는 데이터에 따라 시계열의 단위가 다르다. 기계학습 모델의 입력값으로 활용하기 위해서 월별 데이터 형태로 전처리 과정이 필요하다. 기상 데이터와 같이 세세한 주기로 제공되는 데이터의 경우에는 월별 데이터를 선택하여 수집할 수 있다. 하지만 GDP(Gross Domestic Product), 인구수와 같이 연도별로 제공되는 데이터는 3차 곡선 보간(Cubic spline interpolation)으로 월별 값을 추정한다. 3차 곡선 보간을 통해 월별 데이터 추정하여 보간한 명목 GRDP(Gross Regional Domestic Product)는 그림 2에서 보는 것과 같다.

그림. 2. 입력변수 데이터 보간

Fig. 2. Interpolation of input variable data

../../Resources/kiee/KIEE.2022.71.8.1092/fig2.png

3. 배전선로 부하예측을 위한 입력변수 선정

기계학습 기반 부하예측에서 다양한 입력변수를 수집하고 분석하여 예측 모델을 구성해야 한다. 입력변수를 통해 출력값을 예측하기 위해서는 예측 가능한 입력변수를 적용해야 한다. 또한, 입력변수 분석을 통해 상관관계가 높은 데이터를 입력변수로 선정해야 한다. 최종적으로는 입력변수 조합에 따른 예측모델의 성능을 비교하여 배전선로 부하예측을 위한 최종 입력변수로 선정해야 한다.

3.1 예측 가능한 입력변수 도출

입력변수와 출력값 사이의 관계를 학습하는 기계학습 모델을 이용하기 위해서는 미래 시점의 입력변수를 입력해야 출력값을 얻을 수 있다. 즉, 입력변수 값도 예측 가능해야 출력값인 최대부하도 예측할 수 있다. 입력변수의 예측은 시계열 기계학습의 알고리즘인 LSTM(Long Shot Term Memory)을 적용하였다. 이때, 입력변수 예측은 다른 외부 입력변수 없이 단순 시계열 모델로 구성하였다. 또한, 데이터마다 제공되는 기간이 다르므로 각자 제공되는 최대 시계열 데이터를 통해 학습기간을 구성하고 예측하였다. 예측 가능성 판단 지표는 nRMSE(normalized Root Meen Squared Error)을 이용하였다. nRMSE는 서로 다른 단위와 스케일을 가진 변수들 사이의 오차 정도를 비교할 수 있는 지표이다(5). 이를 식으로 나타내면 다음과 같다.

$ nRMSE(\%)=\dfrac{1}{\max( {y})-\min( {y})}\sqrt{\sum_{ {i}=1}^{ {n}}\left(\dfrac{(\hat {y}_{ {i}}- {y}_{ {i}})^{2}}{ {n}}\right)}\times 100$

그림 3그림 4는 예측 불가능한 입력변수와 예측 가능한 입력변수의 예시이다. 그림 3의 광업지수는 비선형적, 비주기적 데이터로서 nRMSE가 10% 이상인 예측하기 어려운 변수이다. 하지만 그림 4의 금속가공제품제조업 지수는 선형적인 추세를 가지고 있어 예측 가능하며 LSTM을 통해 여러 번 학습하더라도 10% 이내의 결과가 나타난다. 8년의 부하예측이 필요한 경우, nRMSE를 통한 검증을 통해 597개의 데이터 중에서 8년 예측 가능한 변수 23개가 도출되었으며 이는 표 3에서 보는 것과 같다.

그림. 3. 예측 불가능한 입력변수

Fig. 3. Example of unpredictable input variable

../../Resources/kiee/KIEE.2022.71.8.1092/fig3.png

그림. 4. 예측 가능한 입력변수

Fig. 4. Example of predictable input variable

../../Resources/kiee/KIEE.2022.71.8.1092/fig4.png

표 3. 8년 예측가능한 입력변수 목록

Table 3. Data list of input variables for 8 years load forecasting

데이터명

입력변수 개수

GDP 관련 개수

1

GDP deflator, 실질 GRDP, 명목GRDP

1

경제활동별 지역내 총생산

10

1인당 지역내 총생산

1

인구수(연령, 성별)

2

품목성질별 소비자 물가지수

6

기상

2

합계

23

3.2 입출력 상관관계 분석

예측 가능한 입력변수를 도출한 뒤 입출력 상관관계 분석을 통해 기계학습 기반의 예측 모델의 입력변수를 선정해야 한다. 이를 위해선 입력과 출력변수인 지역 내 배전선로 최대부하 합계와 상관관계 분석을 통해 목표 지역의 배전선로 최대부하와 입력변수 사이의 특성 관계를 파악해야 한다. 피어슨 상관계수, 스피어맨 상관계수, Mutual information을 통해 상관관계를 분석한다. 일반적으로 상관관계 분석에 적용하는 피어슨 상관계수는 선형 상관관계를 분석하고, 스피어맨 상관계수는 순위 상관관계를 분석한다. 또한, Mutual information은 상호의존정보라고 하며 두 데이터 간의 주기적인 연관 정도를 파악할 수 있는 지표이다(6-8).

한전의 김제지사 내 배전선로의 최대부하 합계와 8년 예측 가능한 23개의 입력변수의 상관계수를 분석한 결과, 그림 5그림 6에서 보는 것과 같은 결과를 나타낸다. 상관계수 도표는 $n\times n$ 행렬로 나타나는데, 최대부하 합계, 최대부하의 $t-1$ 시계열 변수와 입력변수 23개로 인해 행 또는 열 개수는 총 25개 이다. 그림 5그림 6에서 보는 것과 같이 첫 번째 행 또는 열이 월 최대부하와 다른 입력변수 사이의 상관관계를 나타내고 있다. 진한 파란색이 나타나는 변수들이 상관계수가 높은 변수들이다. 또한, 배전선로 최대부하와 23개의 입력변수 사이에 주기적인 상관관계가 있는지 파악하기 위해 Mutual information을 수행한 결과는 그림 7과 같다. 이와 같이 상관관계 분석을 수행한 최대부하의 $t-1$ 시계열 변수와 23개의 입력변수, 즉 총 24개의 변수에 대해 상관관계 분석결과는 표 4와 같다.

그림. 5. 8년 예측가능한 23개 입력변수의 피어슨 상관계수

Fig. 5. Pearson correlation coefficient of 23 input variables for 8 years forecasting

../../Resources/kiee/KIEE.2022.71.8.1092/fig5.png

그림. 6. 8년 예측가능한 23개 입력변수의 스피어맨 상관계수

Fig. 6. Spearman correlation coefficient of 23 input variables for 8 years forecasting

../../Resources/kiee/KIEE.2022.71.8.1092/fig6.png

그림. 7. 8년 예측가능한 23개 입력변수의 Mutual information 분석

Fig. 7. Analysis of mutual information for 23 input variables for 8 years forecasting

../../Resources/kiee/KIEE.2022.71.8.1092/fig7.png

일반적으로 상관계수가 0.7 미만이면 상관관계가 적다고 할 수 있다. 즉, 피어슨 상관계수 또는 스피어맨 상관계수가 0.7 이상이면 선형 상관관계가 높다고 할 수 있고, Mutual information 값이 0.7 이상이면 주기적 상관관계가 높다고 할 수 있다(9).

표 4에서 보는 것과 같이, 피어슨 상관계수의 경우, ‘섬유 의목 및 가죽 제품 제조업 실질 기여도’, ‘금속포장용기 소비자 물가지수’, ‘LCD평판디스플레이 소비자 물가지수’, ‘축전기, 저항기, 전자코일 및 변성기 소비자 물가지수’, ‘월평균 최고기온’, ‘월 최고기온’과 같이 5개의 입력변수가 낮았으며, 스피어맨 상관계수의 경우, ‘섬유 의목 및 가죽 제품 제조업 실질 기여도’, ‘월평균 최고기온’, ‘월 최고기온’과 같이 3개의 입력변수가 낮았다. 또한, Mutual information의 경우, ‘섬유 의목 및 가죽 제품 제조업 실질 기여도’만 낮았다. 특히, ‘섬유 의목 및 가죽 제품 제조업 실질 기여도’의 경우, 3개의 상관관계 분석에서 모두 낮은 값을 나타냈으며, ‘월평균 최고기온’, ‘월 최고기온’과 같은 기상 변수의 경우, 선형 상관관계는 낮으나, 주기적 상관관계는 높은 것으로 분석되었다.

표 4. 8년 예측가능한 23개 입력변수의 상관관계 분석 결과

Table 4. Results of correlation analysis for 23 input variables for 8 years forecasting

데이터 분류

데이터 명

피어슨

스피어맨

M / I

GDP 관련 계수

공공행정, 국방 및 사회보장

0.81

0.85

6.12

GRDP

명목GRDP(전북)

0.81

0.85

6.12

경제활동별 지역 내 총생산

지역내총생산

(시장가격)명목

0.81

0.85

6.12

지역내총생산

(시장가격)실질

0.80

0.84

6.12

섬유 의복 및 가죽 제품

제조업실질기여도

0.10

0.23

0

서비스업명목

0.81

0.85

6.12

서비스업실질

0.81

0.85

6.12

도매 및 소매업실질

0.80

0.84

6.10

부동산업명목

0.81

0.85

6.12

부동산업실질

0.78

0.83

6.07

교육 서비스업명목

0.81

0.85

6.09

보건업 및 사회복지

서비스업실질

0.81

0.85

6.12

1인당

지역 내 총생산

1인당 지역내총생산

(시도별)

0.81

0.85

6.12

인구수

(성별, 연령)

계-30 - 34세

0.78

0.80

5.60

여자-80 - 84세

0.80

0.84

6.11

품목성질별 소비자 물가지수

서비스

0.80

0.85

3.41

개인서비스

0.81

0.85

3.59

금속포장용기

0.69

0.84

4.23

개별소자

0.74

0.83

3.81

LCD평판디스플레이

0.68

0.84

4.96

축전기,저항기,

전자코일 및 변성기

0.68

0.85

4.64

기상

월평균최고기온

0.39

0.33

3.46

월최고기온

0.30

0.29

3.69

최대부하

t-1 시계열 값

0.84

0.87

4.73

이를 통해 표 5와 같이 입력변수에 따른 부하예측 모델의 성능을 비교하였다. 입력변수를 변경하여 그림 1의 한전의 부하예측 모델을 구현하였다. 한전 김제변전소에 연결된 22개의 배전선로에 대해 2013년부터 2020년까지 8년에 대한 부하예측 값과 실제값을 비교하여 성능을 분석하였다. 23개의 입력변수를 모두 적용했을 때 MAE(Mean Absolute Error), MSE(Mean Squared Error) 및 오차율(%) 측면에서 성능이 가장 우수하였다. 하지만, 피어스, 스피어맨 상관계수 0.7 미만인 입력변수를 제외하고 부하예측을 한 경우, 부하예측 모델의 성능이 매우 저하되며 이것은 선형 상관관계가 적어 제외된 기상 변수가 주기적 상관관계가 높고 이것이 중장기 배전선로 최대 부하예측 성능에 작용함을 알 수 있다. 이것은 mutual information 0.7 미만인 ‘섬유 의목 및 가죽 제품 제조업 실질 기여도’를 제외한 경우, 모든 입력변수를 적용한 부하예측 성능과 차이가 크지 않음에서 알 수 있다.

이와 같은 입력변수 상관관계 분석에 따라, 성능 향상을 위한 기계학습 기반의 부하예측 모델의 입력선정 프로세스는 그림 8과 같다. 배전선로 최대부하 예측이 중장기를 대상으로 함에 따라 비선형적인 특성을 가지게 된다. 따라서선형 상관관계가 우수한 입력변수 뿐만 아니라, 기상 지표와 같은 주기적인 입력변수를 모두 포함하여 선형과 주기성의 복합적인 입력변수의 조합을 부하예측 모델의 적용하는 것이 배전선로의 최대부하의 중장기 예측에 적합할 것이다.

표 5. 입력변수에 따른 배전선로 부하예측 결과

Table 5. Results of distribution line load forecasting related to input variables

실험

MAE

MSE

오차율(%)

피어슨, 스피어맨 ≥ 0.7

2.8659

27.4718

33.9238

Mutual Information ≥ 0.7

1.3485

2.9347

14.0580

피어슨, 스피어맨, M/I ≤ 1.0

1.2227

2.7609

13.6837

그림. 8. 배전선로 부하예측 모델의 입력변수 선정 프로세스

Fig. 8. Input variable selection process of distribution load forecasting model

../../Resources/kiee/KIEE.2022.71.8.1092/fig8.png

3.3 선정된 입력변수의 중요도 고찰

XAI 분석은 기계학습 모델의 내부 구조를 사용자가 이해할 수 없다는 단점을 극복하기 위해 예측모델이 구성된 이후에 입력변수가 출력값에 얼마나 중요하게 작용했는지를 분석하는 방법이다. 그림 1에서 보는 것과 같이, 한전의 배전선로 최대부하 예측모델은 결정트리 기반의 Random forest 모델을 포함하고 있다. XAI 분석은 결정트리 기반의 모델에서 적용이 용이하다. 이때, Shapley value를 도출할 수 있는데, Shapley value는 입력변수를 실제 측정값이 아닌 무작위 값을 입력하였을 때 모델을 통해 출력된 값이 얼마나 변동되는지 측정하는 지표이다. 즉, 예측모델 내에서 중요한 변수일수록 무작위 값이 입력되면 출력값이 크게 변하고 중요하지 않은 경우 출력값에 큰 영향을 주지 않는다는 개념을 기반으로 한다.

김제지사 내 김제변전소에 연결된 22개 배전선로에 대해 결정트리 기반인 Random forest과 LSBoost 모델에 대해 XAI 분석을 통해 Shapley value를 도출한 결과가 그림 9, 그림 10표 6과 같다. 이때, 분석한 입력변수는 $t-1$ 시계열 변수와 23개의 입력변수로 총 24개이다. 그림 9, 그림 10표 6에서 보는 것과 같이 기상 변수와 t-1 시계열 변수도 동일하게 모든 모델에서 높은 중요도를 보인다. 또한, 앞선 상관관계 분석에서 낮은 상관관계를 나타냈던 ‘섬유 의목 및 가죽 제품 제조업 실질 기여도’, ‘금속포장용기 소비자 물가지수’, ‘LCD평판디스플레이 소비자 물가지수’, ‘축전기, 저항기, 전자코일 및 변성기 소비자 물가지수’의 경우, 모두 높은 중요도를 보였다.

그림. 9. Random forest 모델 입력변수의 Shapley value

Fig. 9. Shapley value of input variables for random forest load forecasting model

../../Resources/kiee/KIEE.2022.71.8.1092/fig9.png

그림. 10. LSBoost 모델 입력변수의 Shapley value

Fig. 10. Shapley value of input variables for LSBoost load forecasting model

../../Resources/kiee/KIEE.2022.71.8.1092/fig10.png

표 6. 입력변수의 예측모델별 Shapley value 결과

Table 6. Results of shapley value for input variables of single load forecasting model

데이터 분류

데이터 명

Shapley Value

Random Forest

LSBoost

GDP 관련 계수

공공행정, 국방 및 사회보장

20.24

265.17

GRDP

명목GRDP(전북)

19.41

11.05

경제활동별 지역 내 총생산

지역내총생산

(시장가격)명목

24.07

11.05

지역내총생산

(시장가격)실질

27.79

11.05

섬유 의복 및 가죽 제품

제조업실질기여도

56.48

407.87

서비스업명목

18.31

11.05

서비스업실질

20.15

11.05

도매 및 소매업실질

59.55

331.30

부동산업명목

20.60

11.05

부동산업실질

24.71

11.05

교육 서비스업명목

36.16

121.39

보건업 및 사회복지

서비스업실질

21.82

11.05

1인당

지역 내 총생산

1인당 지역내총생산

(시도별)

21.35

11.05

인구수

(성별, 연령)

계-30 - 34세

79.59

351.86

여자-80 - 84세

66.36

153.83

품목성질별 소비자 물가지수

서비스

46.67

51.88

개인서비스

60.80

209.40

금속포장용기

58.09

363.60

개별소자

90.72

296.11

LCD평판디스플레이

57.60

289.69

축전기,저항기,

전자코일 및 변성기

65.24

178.20

기상

월평균최고기온

165.54

474.38

월최고기온

190.70

564.60

최대부하

t-1 시계열 값

144.48

491.89

표 7은 예측모델별 Shapley value 값에 따라 입력변수를 제외하고 부하예측 모델을 구현하여 성능을 비교한 결과이다. 입력변수 중요성이 상대적으로 낮은 Shapley value 30 미만의 입력변수를 적용하여 Random forest 및 LSBoost 예측 모델을 구현한 경우, 표 5에서 보았던 앙상블 부하예측 모델의 성능과 비교시 크게 저하되지 않았다. 하지만, 두 가지 예측모델에서 입력변수 중요성이 가장 높은 $t-1$ 시계열 변수와 기상 변수를 제외한 경우, 부하예측 모델의 성능이 크게 저하되는 것을 확인할 수 있었다.

그림 1의 앙상블 모델 중 결정트리 기반의 모델에 대해서만 입력변수 중요도를 분석하였음에도 불구하고, 그림 8의 입력변수 선정 프로세스가 중요한 입력변수를 모두 포함하는 방법임을 확인할 수 있었다. 향후 본 논문에서 제안한 기계학습 기반 부하예측 모델의 입력변수 선정 프로세스를 적용할 경우, 지역마다 사회, 경제 및 기상 지표가 다르므로대상 지역을 구분하여 적용해야 할 것이다.

표 7. 입력변수 중요도에 따른 배전선로 부하예측 결과

Table 7. Results of distribution line load forecasting related to input variable importance

실험

MAE

MSE

오차율(%)

Random forest

Shapley Value < 30

1.4805

3.8902

15.0363

Shapley Value > 150

5.6147

245.7006

68.8955

LSBoost

Shapley Value < 30

1.6027

4.0605

17.3503

Shapley Value > 450

5.6147

245.7006

68.8955

4. 결 론

현재 배전시스템 환경 변화로 인해 부하예측의 정확도가 배전계획에 있어 매우 중요하다. 기계학습 기반의 배전선로 부하예측 모델이 개발되고 적용되고 있으나, 입력변수의 조합이 성능을 향상시키거나 저해시킬 수 있다. 본 논문에서는 배전선로 부하예측 모델의 최적 성능을 위한 입력변수 선정 프로세스에 대해 제안하였다. 입력변수의 상관관계 분석을 통해 최적의 입력변수를 선정하였으며, 선정된 입력변수를 통한 부하예측 결과를 통해 성능에 미치는 영향을 분석하였다. 또한, XAI 분석을 통해 선정된 입력변수의 부하예측 모델에서의 중요도와 입력변수 선정 프로세스의 적정성을 고찰하였다. 제안한 입력변수 선정 프로세스는 기계학습 기반의 부하예측 모델의 성능 개선에 기여할 수 있을 것이며, 이를 통해 효율적인 배전계획에 활용할 수 있을 것으로 예상된다.

Acknowledgements

This work was supported by the KEPCO Research Institute under the project entitled by “A Research of Advanced Distribution Planning System for Mid-Long term (R20DA16)”.

References

1 
J. Cho., H. Kim., H. Ryu., Y. Yoon., S. Choi., 2021, A Study on the Mid-Long Term Load Forecasting Method for Power Distribution Planning, The Transactions of the Korean Institute of Electrical Engineers, Vol. 70, No. 9, pp. 1239-1247DOI
2 
J. Cho., H. Kim., H. Ryu., Y. Son., S. Choi., 2021, Analysis of Distributed Power Generation Forecasting Model for Power Distribution Planning, The Transactions of the Korean Institute of Electrical Engineers, Vol. 70, No. 9, pp. 1248-1262DOI
3 
F. Pan, H. Zhang, M. Xia, 2009, A Hybrid Time-Series Forecasting Model Using Extreme Learning Machines, 2009 Second International Conference on Intelligent Computation Technology and Automation, pp. 933-936DOI
4 
H. Yiling, H. Shaofeng, 2020, A Short-Term Load Forecasting Model Based on Improved Random Forest Algorithm, 2020 7th International Forum on Electrical Engineering and Automation (IFEEA), pp. 928-931DOI
5 
T. Anwar, 2018, Introduction to Load Forecasting, International Journal of Pure and Applied MathematicsGoogle Search
6 
K. A. Keitsch, T. Bruckner, 2016, Input data analysis for optimized short term load forecasts, 2016 IEEE Innovative Smart Grid Technologies - Asia (ISGT-Asia), pp. 1-6DOI
7 
J. Cheng, 2016, Evaluating the spatial correlations of multi-area load forecasting errors, 2016 International Conference on Probabilistic Methods Applied to Power Systems (PMAPS), pp. 1-6DOI
8 
C. Alzate, M. Sinn, 2013, Improved Electricity Load Forecasting via Kernel Spectral Clustering of Smart Meters, 2013 IEEE 13th International Conference on Data Mining, pp. 943-948DOI
9 
J. Chen, T. Li, Y. Zou, G. Wang, H. Ye, F. Lv, 2019, An Ensemble Feature Selection Method for Short-Term Electrical Load Forecasting, 2019 IEEE 3rd Conference on Energy Internet and Energy System Integration (EI2), pp. 1429-1432DOI
10 
Care, Ridwan Aldila Melania Frisky, Sugeng Subagio Bambang, 2018, Porous concrete basic property criteria as rigid pavement base layer in indonesia., MATEC Web of Conferences, Vol. 147, No. EDP SciencesDOI

저자소개

김준오(Jun Oh Kim)
../../Resources/kiee/KIEE.2022.71.8.1092/au1.png

He received the B.S. and M.S. degrees in Electrical Engineering from Korea University, Seoul, Korea, in 1988 and 1991, respectively.

He is working as the head of Safety & Health Dept. of KEPCO.

He joined KEPCO in 1991 and has worked in the power distribution field.

He has work careers in head office, site, and KEPCO Research Institute.

조진태(Jin Tae Cho)
../../Resources/kiee/KIEE.2022.71.8.1092/au2.png

He received the B.S. and M.S. degrees in Electrical Engineering from Korea University, Seoul, Korea, in 2006 and 2008, respectively.

He is currently pursuing an Ph.D. degree in Electrical Engineering at Korea University.

He joined KEPCO Research Institute in 2009.

He is the Senior researcher at Distribution Planning Research Group in Smart Power Distribution Lab. of KEPCO Research Institute, Daejeon, Korea.

His research interests include load forecasting and distribution power system planning included renewable energy resources.

김승완(Seung Wan Kim)
../../Resources/kiee/KIEE.2022.71.8.1092/au3.png

He received the B.S. and Ph.D. degrees in Electrical Engineering from Seoul National University, Seoul, Korea, in 2012, and 2018, respectively.

He has been an Assistant Professor, Dept. of Electrical Engineering, Chungnam National University, Daejeon, Korea, since 2018.