• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Department of Electrical and Computer Engineering, Inha University.)



Classification, Fault, High voltage direct current (HVDC) transmission system, Non-fault disturbance, Power system response.

1. 서 론

전력계통은 전 세계 지역 사회에 전기를 공급하는 중요한 인프라이다. 그러나 전력계통 내 외란으로 인하여 전력 공급이 중단되거나 심각할 경우 정전이 발생하여 경제적 손실과 잠재적인 안전사고가 이어질 수 있다. 그러므로, 전력계통에 외란이 발생했을 때, 적절한 대처 및 대응을 통하여 전력계통의 안정도를 회복하는 것이 중요하다. 전력계통 내 외란은 급격한 부하 변동, 발전기 오작동, 개폐기 오작동, 서지 및 정전 등 다양한 사고로 인해 정상적인 상태를 벗어나는 현상을 통칭하여 부르는 말이다. 특히, 전력계통 고장은 전력계통의 내에서 발생할 수 있는 비정상적인 상황으로 정의할 수 있고, 지락 및 단락 사고 등으로 구성된다 (1). 즉, 전력계통의 외란은 고장 (즉, 지락 및 단락 사고)을 포함하는 큰 범주의 표현이다. 본 연구는 전력계통의 외란을 고장과 비고장 외란으로 구분함으로써, 단락 및 지락 사고를 제외한 전력계통 내에서의 비정상적인 상태로 비고장 외란의 범위를 제한하였다.

이처럼, 전력계통의 고장과 비고장 외란을 구별하는 것은 계통의 변동 완화할 뿐만 아니라 고장 및 외란에 대한 서로 다른 응답 및 대처를 위해 중요한 부분이다. 비고장 외란을 고장으로 또는 고장을 비고장 외란으로 잘못 식별할 경우, 잘못된 응답으로 이어져 불필요한 계통의 차단 등으로 인하여 더 큰 파급 효과 및 더 높은 처리 비용이 요구될 수 있다. 예를 들어, 고장과 비고장 외란을 구별하는 것은 정전을 방지하고 전력계통의 신뢰성을 개선하는 데 도움이 될 수 있다. 구체적으로, 고장이 발생한 경우, 온라인 상태 (즉, 계통에 연결된 상태)로 전환하기 전에 고장을 차단하기 위해 고장 위치를 분리하는 작업이 선행된다 (2). 그러나 비고장 외란이 고장으로 잘못 인식되면 계통을 불필요하게 차단하여, 오히려 더 큰 파급과 경제적 손실을 유발할 수 있다. 따라서, 전력계통 문제의 근본적인 원인을 파악하고 시정조치를 취하며 파급과 손실을 줄이기 위해서는 고장 및 비고장 외란을 정확하게 식별하는 것이 중요하다.

고장과 비고장 외란을 정확하게 구별하기 위해서, 그들이 발생했을 때 계통의 다양한 변수들에 기반 비정상적인 상태임을 인지함으로써 상태를 진단할 수 있어야 한다. 많은 선행 연구는 고장과 비고장 외란을 진단하기 위해 다양한 방법을 도입하였다. 한 연구는 전력계통의 고장을 감지하고 식별한 후 위치를 파악하는 문제를 통합적으로 해결하기 위하여 시간-주파수 영역에서 데이터를 수집하고, 하이브리드 클러스터링 알고리즘을 개발하여 그 성능을 평가하였다 (3). 또한, 다른 연구에서는 다양한 기계학습 기술을 이용하여 고장을 진단하고 정상과 비정상상태를 분류하였다 (4)-(5). 또한, 대표적인 분류 방법론인 K-Nearest Neighbor (KNN)를 이용해 전력계통의 외란을 감지하고, 제안한 방법론의 유효성을 검증하는 연구도 진행되었다 (6). 이외에도 전력계통의 안정성 및 품질을 개선하기 위해서 계통 내에서 발생할 수 있는 외란 및 고장을 감지하기 위한 다양한 방법론 기반 연구가 진행되었다 (7)-(8).

그러나 분산전원의 침투와 더불어 교류 계통에 직류 발전원 및 직류 송전을 위한 장치들이 교류 계통에 설치되었다. 교류 발전기, 부하, 변압기 등으로 구성된 교류 기반의 비교적 단순한 전력계통과 High Voltage Direct Current transmission (HVDC)을 통해 연결된 직류-교류 혼합 전력계통은 외란에 대한 계통의 과도반응이 다를 수 있다. 즉, 고장 및 비고장 외란 진단의 경우에도 HVDC가 없는 계통과 있는 계통을 구분할 필요가 있다. 따라서 계통 내 HVDC의 영향을 반영하기 위해서, HVDC가 설치된 계통에 대한 고장 진단에 관한 많은 추가 연구가 진행되어왔다. 한 선행 연구는 HVDC 링크의 직류 전송선의 고장을 식별하고 감지하는 방법을 검토하며 전압 파생 및 웨이블릿 변환을 유용한 방법론으로 제시하였다 (9). 또 다른 연구는 HVDC가 있는 전력계통에서의 고장 진단 및 분석을 위해 다양한 인공지능 기술을 활용하고 그 성능을 확인하였다 (10). 이외에도 HVDC가 설치된 전력계통의 고장 및 외란을 진단하기 위해 다양한 선행 연구가 이루어져 왔다 (11)-(13). 즉, 선행 연구들을 통해 교류 및 직류-교류 혼합 계통에서 외란에 대한 비정상상태 진단이 가능해졌다.

하지만 선행 연구들은 정상상태에서 고장 또는 외란이 발생했을 때 비정상상태가 되었음을 진단하는 분류 기법을 밝히고 성능을 검증하였다. 즉, 선행 연구는 고장과 비고장 외란에 대해 구분하지 않았고 그들을 통합적으로 외란이라는 상태 이상으로 고려하였으며 그로 인해, 고장과 비고장 외란에 대한 분류의 중요성 및 가능성 평가를 제시하지 않았다. 다시 말해, 기존의 선행 연구들은 주로 전력계통의 고장이나 외란의 발생을 감지하고 정상상태에서 과도상태로 넘어가는 과도기를 인지하였고, 본 연구는 선행 연구들과 달리 과도기 상태에서 고장과 비고장 외란을 분류하는 것을 목표로 하였다. 또한, 본 연구는 한가지 분류 모델이 아닌 여러 개의 분류 모델을 사용하여 고장과 비고장 외란의 분류에 대해 통합적으로 고려함으로써 선행 연구에서 채우지 못한 부분을 채우는 것을 목표로 한다.

그런데 분류 모델을 훈련 시키기 위해서 학습을 하고 결정을 내릴 수 있는 충분한 데이터가 필요하다. 그러나 전력계통의 특성상 고장 및 비고장 외란이 계통에서 발생하였을 때, 실시간으로 계통이 어떻게 변화해 나가는지 즉, 계통의 과도반응을 모니터한 빅데이터를 수집하는 것은 쉽지 않으며 이는 전력계통의 주요한 한계이다. 이러한 한계를 극복하기 위해서, 본 연구는 DIgSILENT PowerFactory 소프트웨어를 이용해 IEEE 30-bus system을 모델링 하였고 이를 테스트 계통으로 선정하였다. 또한, 전력계통에서 HVDC의 설치 증가 추세를 반영하기 위하여 IEEE 30-bus system에 Line Commutated Converter (LCC) 타입의 HVDC를 추가 설치하였다. 본 연구는 이로써 만들어진 HVDC가 설치된 직류-교류 통합형 IEEE 30-bus system에 대해서 고장 및 비고장 외란 시뮬레이션하여 120개 경우의 소규모 데이터 세트를 수집하였고 이를 학습 및 테스트에 사용하였다.

또한, 많은 선행 연구는 분류 알고리즘의 훈련을 위하여 대규모 데이터 세트에 의존하였다. 예를 들어, 한 연구는 전류와 전압의 크기를 이용해 지락 및 단락 고장을 분류하기 위해서 11,300개의 데이터를 생성 및 수집하여 학습 및 평가를 진행했다 (14). 또 다른 연구는 20,000개 이상의 데이터 세트를 사용하여 서로 다른 고장에 대한 파라미터 값의 특징을 훈련 및 학습하였다 (15). 이외에도, 많은 선행 연구들은 대규모의 데이터 세트를 이용하여 충분한 훈련 데이터 세트를 가지고 학습을 한 후 테스트 데이터를 이용하여 분류 성능을 검증하였다 (16)-(17). 즉, 많은 선행 연구는 대규모 데이터 세트에 기반하여 충분한 학습을 거친 후 분류를 수행하였다. 그러나 본 연구는 데이터 수집의 제한성이 있는 경우에 분류 성능을 제시 및 분석하는 데 초점을 두고자 하였다. 다시 말해, 본 연구는 전력계통 (즉, HVDC가 설치된 IEEE 30-bus system)에서 직접 수집한 소규모의 데이터 세트를 사용하여 다양한 분류 알고리즘을 이용해 분류를 수행하고, 제한적인 데이터 세트를 가지고 있을 때 분류 결과 제시와 방법론 별 비교 분석을 통해 소규모 데이터 기반 분류의 유용성 및 잠재력을 제안하였다. 선행 연구들과 달리 소규모 데이터 기반 연구의 가능성을 제시하였다는 점에서 차별성이 있다.

2. 본 론

HVDC가 설치된 전력계통에서 고장과 비고장 외란을 정확하게 분류함으로써 계통의 과도 안정도 개선에 기여할 필요가 있다. 따라서, 본 연구는 DIgSILENT PowerFactory 소프트웨어를 이용해 IEEE 30-bus system을 모델링하고 2번과 6번 모선 사이에 LCC-HVDC를 설치하여 직류-교류 하이브리드 전력계통을 모델링 하였다. 그림 1은 본 연구에서 사용하는 테스트 계통을 나타낸 단일 선로 다이어그램이고, 2번과 6번 모선 사이의 HVDC 링크는 빨간색으로 표시되어 있다. HVDC 설치 외에 네트워크의 구성, 임피던스 및 부하의 크기 등 모든 요소는 IEEE 30-bus system과 동일하다. 즉, 본 연구는 해당 계통에서 얻어진 소규모의 데이터를 가지고 학습 및 테스트를 수행하였을 때 다양한 분류 모델의 성능을 평가하고자 한다.

본 연구는 DIgSILENT PowerFactory 소프트웨어를 이용해 시뮬레이션 및 데이터 수집을 위한 계통 (즉, HVDC가 설치된 IEEE 30-bus system)을 직접 모델링 하였다. 또한, Root Mean Square / Electromagnetic Transients (RMS/EMT) 시뮬레이션 기능을 이용해 고장 및 비고장 외란 시뮬레이션하여 120가지의 소규모 데이터 세트를 수집하였다. 고장과 비고장 외란 모두에 대해 동일한 수의 데이터를 수집함으로써 균형 있고 편향되지 않은 데이터 세트를 만들었고, 즉, 고장과 비고장 외란에 대한 데이터는 각각 60개 사례를 포함한다.

그림 2는 본 연구에서 다루는 고장과 비고장 외란에 대한 특성을 구분한 것이다. 즉, 본 연구는 고장 시나리오에 대한 데이터를 수집하기 위해, 네 가지의 고장 중 하나를 무작위 선택적으로 발생시키고 차단하는 과정을 반복하였고, 다양한 고장 위치 및 차단 시간을 시뮬레이션함으로써 서로 다른 60개의 고장 데이터를 습득하였다. 또한, 본 연구는 발전기 오작동, 개폐기 오작동, 큰 부하 변동, 불평형 등 다양한 비고장 외란 요소에 대해 시간 및 위치를 달리하여 계통의 과도반응을 모니터함으로써 60개의 서로 다른 비고장 외란 데이터를 수집하였다. 다양한 파라미터에 대한 값을 종합적으로 판단하여 고장과 비고장 외란을 구분하는 것이 본 연구의 목적이다.

그림. 1. HVDC가 설치된 IEEE 30-bus system

Fig. 1. IEEE 30-bus system with an HVDC

../../Resources/kiee/KIEE.2023.72.9.1018/fig1.png

그림. 2. 고장과 비고장 외란 구분

Fig. 2. Classification of fault and non-cault disturbance

../../Resources/kiee/KIEE.2023.72.9.1018/fig2.png

2.1 학습을 위한 전력계통 파라미터 선정

본 연구에서 시뮬레이션을 수행하여 수집한 데이터 세트는 120개로 선행 연구들의 대규모 데이터 세트보다 비교적 적다. 소규모 데이터를 가지고 학습을 수행할 경우 데이터 및 패턴의 특징을 제대로 학습할 수 없어 테스트 데이터를 가지고 테스트를 수행했을 때 예측 성능이 좋지 않을 수 있다. 즉, 소규모 데이터 세트를 이용해 학습을 수행하더라도 고장과 비고장 외란을 정확히 구분해내기 위한 다른 접근법이 필요하다. 이를 위해, 본 연구는 고장 및 비고장 외란이 발생하였을 때 전력계통의 다양한 파라미터에 대한 값을 입력 정보로 제공함으로써, 그들의 관계성을 파악해 학습의 성능을 개선하고자 하였다. 즉, 계통에 고장이 발생했을 때 단순히 3상의 전류나 전압을 관찰하던 대규모 데이터 기반의 선행 연구와 달리, 소규모 데이터이지만 하나의 사례당 수집하는 파라미터의 개수를 늘림으로써 많은 정보를 제공하고자 하였다. 표 1은 본 연구에서 모니터하여 수집한 20가지의 전력계통 파라미터를 나타낸다.

전압과 전류의 초기값은 고장 및 비고장 외란에 대한 변동 범위를 계산하는 데 필수적이지만 고장 및 비고장 외란이 발생하기 전 값이므로 분류에는 영향을 미치지 않는 요소이다. 본 연구는 고장 및 비고장 외란 중에 전압 및 전류의 최댓값과 최솟값의 증가 및 감소 현상이 과도기에 얼마나 큰 폭으로 변동하는지를 나타낼 수 있는 지표이기 때문에, 고장 및 비고장 외란을 정확하게 분류하기 위하여 모니터 파라미터로 선정하였다. 그리고 영상분 전압 및 전류는 평형 시스템에서는 일반적으로 0이지만 1선 지락 및 2선 지락 등 불평형 고장 시 증가할 수 있으므로 해당 값을 모니터하여 분류를 위한 파라미터로 포함하였다. 또한, 주파수와 로터 스피드는 전력계통의 안정도를 결정하는 중요한 지표이다. 예를 들어, 주파수가 공칭 값에서 벗어나면 불안정성을 감지할 수 있으므로 주파수는 전력계통 안정성을 결정하는 데 중요한 매개변수가 될 수 있다. 마찬가지로, 로터 스피드는 계통의 동적 안정성을 판단하는 데 유용한 정보가 될 수 있으며, 로터 스피드가 공칭 값에서 벗어났을 때 빠르게 정상상태 값으로 수렴하지 못하면 잠재적인 고장으로 이어질 수 있다. 그러므로 본 연구는 주파수와 로터 스피드 파라미터를 모니터 지표로 포함하였다. 마지막으로, HVDC가 설치된 계통은 HVDC와 관련된 파라미터를 확인하는 것이 중요하다. 이러한 파라미터를 모니터함으로써 전력계통에 설치된 HVDC의 상태 및 영향에 대한 필수 정보를 얻을 수 있다. 따라서, 본 연구는 HVDC와 관련한 네 가지의 파라미터를 조사하여 학습을 위한 파라미터로 선정하였다.

요약하면, 본 연구는 전압, 전류, 주파수, 로터 스피드, HVDC 파라미터에 대해 표 1의 20가지의 지표를 모니터하여 데이터 세트를 구성하였다. 즉, 120개 경우의 시뮬레이션에 대해 각각 20개의 파라미터 데이터를 수집함으로써, 120$\times$20의 형태를 가지는 데이터 세트를 생성하였다.

표 1. 학습을 위해 모니터한 파라미터

Table 1. Parameters monitored for learning

파라미터

1

정상분 전압의 초기값

2

정상분 전압의 최댓값

3

정상분 전압의 최솟값

4

정상분 전압의 최대 변동 폭

5

영상분 전압의 최댓값

6

정상분 전류의 초기값

7

정상분 전류의 최댓값

8

정상분 전류의 최솟값

9

정상분 전류의 최대 변동 폭

10

영상분 전류의 최댓값

11

주파수의 최댓값

12

주파수의 최솟값

13

주파수 편차의 최댓값

14

로터 스피드의 최댓값

15

로터 스피드의 최솟값

16

로터 스피드 편차의 최댓값

17

HVDC 링크에 흐르는 전류 미분의 최댓값

18

HVDC 링크의 정상분 전압의 최댓값

19

HVDC 링크의 정상분 전압의 최솟값

20

HVDC 링크의 영상분 전압의 최댓값

2.2 분류 방법론

분류 모델의 성능은 데이터의 크기와 특성에 크게 좌우될 수 있다. 그러므로 다양한 분류 모델을 이용해 분류를 수행하여, 모델별 특성을 이해하고 최상의 분류 결과를 도출하는 과정이 필요하다. 이를 위해 본 연구는 표 2에 나열된 일곱 가지의 서로 다른 분류 모델을 사용하여 고장 및 비고장 외란을 분류하였고 다양한 평가 메트릭을 활용해 본 연구에서 사용한 데이터 세트의 특성에 가장 적합한 (즉, 정확도가 가장 높은) 분류 모델을 선정하였다.

각각의 분류 모델은 고유한 강점과 한계가 있으며 여러 분류 모델을 사용하면 분류 문제를 보다 포괄적으로 이해하고 결과의 전반적인 정확도를 높임으로써 최선의 모델을 도출하는 것이 중요하다. 다음은 본 연구에서 사용한 일곱 가지의 분류 모델에 대한 간단한 설명이다. Decision Tree Classifier (DTC)는 의사 결정 프로세스를 나타내는 트리와 유사한 구조를 생성하는 간단한 분류 모델이다 (18). Random Forest Regression (RFR)은 정확도를 높이고 과적합을 방지하기 위해 여러 결정 트리를 사용하는 앙상블 방법이다 (19). Support Vector Machine (SVM)은 두 클래스 사이에서 최적의 분리 초평면을 찾는 이진 분류 방법이다 (20). Logistic Regression (LR)은 입력과 이진 출력 간의 관계를 모델링 하는 선형 방법이다 (21). K-Nearest Neighbors (KNN)은 분류나 회귀에 사용되는 비모수의 방법이다 (22). Naive Bayes (NB)는 피처 독립성을 가정하고 각 클래스의 확률을 계산하는 확률적 방법이다 (23). 그리고 Gradient Boosting Classifier (GBC)는 약한 학습자 (즉, 얕은 트리 같은 모델)를 반복적으로 추가하고 잘못 분류된 샘플의 가중치를 조정하여 오류를 최소화하여 강력한 모델을 구축하는 기계학습 기법이다 (24).

표 2에 나타난 것처럼, 각 분류 모델은 서로 다른 특징 및 장단점을 가진다. 즉, 120$\times$20의 소규모 데이터를 가지고 분류를 수행할 때에도 모델별로 서로 다른 특징을 보이게 된다. 그러므로 본 연구는 120$\times$20의 데이터 세트에 대해 일곱 가지 모델을 이용해 동일한 조건에서 분류를 수행하고, 분류 결과를 비교 분석함으로써 가장 우수한 성능을 보이는 모델을 찾는 것을 목표로 한다.

표 2. 분류 모델별 특징

Table 2. Characteristic of classification model

분류 모델

특징 (장점/단점)

1

DTC

복잡한 의사 결정 과정에 대한 이해 및 해석이 쉬운 구조 / 복잡한 데이터에 대한 성능 감소

2

RFR

과대 적합 문제의 최소화를 통한 정확도 향상 / 예측 프로세스 시간이 오래 걸림

3

SVM

오류 데이터의 영향이 적고 사용하기 쉬움 / 학습 속도가 느리고 해석 및 분석이 어려움

4

LR

분류 결과와 더불어 클래스에 속할 확률 추정 가능 / 이상치에 민감하고 해석이 어려움

5

KNN

오류 데이터의 영향이 적고 정확도가 높음 / 느린 학습 속도 및 고용량 메모리 사용

6

NB

데이터의 크기에 상관없이 잘 동작 / 동등한 중요도의 가정이 잘못된 결과를 초래할 수 있음

7

GBC

비교적 학습 성능이 우수한 편임 / 매개변수를 잘 조정해야 하며 훈련 시간이 길어짐

2.3 분류 모델의 성능 평가 기준

분류 모델의 성능은 다양한 기준으로 계산될 수 있는데, 가장 일반적으로 사용되는 평가 메트릭에는 정확도 (Accuracy), 정밀도 (Precision), 재현율 (Recall) 및 F1 점수 (F1-score) 등이 있다. 분류 모델의 성능을 평가할 때 적절한 평가 지표를 사용하는 것이 중요하므로, 본 연구는 위의 네 가지 지표를 분류 모델별 분류 성능을 평가 기준으로 선정하였다.

정확도는 올바르게 분류된 샘플의 백분율을 측정하는 직관적이고 간단한 평가 메트릭이다. 올바르게 분류된 샘플의 수를 총 샘플 수로 나누어 계산할 수 있다. 정밀도는 양성 (Positive)으로 분류한 것 중에서 실제로 양성인 것의 비율을 나타낸다. 참 양성 예측의 수를 참 양성과 거짓 양성 예측의 합으로 나누어 계산할 수 있다. 재현율은 모든 실제 양성 샘플 중 참 양성의 예측 비율이다. 참 양성 예측의 수를 참 양성과 거짓 음성 예측의 합으로 나누어 계산한다. F1 점수는 정밀도와 재현율의 조화 평균이며 두 지표 간의 균형을 제공한다. 정밀도와 재현율의 가중 평균으로 계산되며 가중치는 각 클래스의 샘플 수에 비례한다.

먼저, 분류 문제의 결과를 다루기 위해서 혼동 행렬 (Confusion matrix)을 이해할 필요가 있다. 혼동 행렬이란 분류를 위해 분류 모델을 학습시킨 후, 입력 x에 대해서 예상되는 출력 y*와 실제 출력값 y를 비교하여 분류가 정확하게 이루어졌는지 확인하는 메트릭이다. 그림 3은 분류 결과 (즉, y*)와 실제 정답 (즉, y) 사이의 관계성을 나타내는 혼동 행렬을 표현하고 있다. True positive (TP)는 실제 정답이 참일 때 참으로 분류된 경우, False positive (FP)는 실제 정답이 거짓일 때 참으로 분류된 경우, False negative (FN)은 실제 정답이 참일 때 거짓으로 분류된 경우, True negative (TN)은 실제 정답이 거짓일 때 거짓으로 분류된 경우를 나타낸다. 다시 말해 그림 3에서 대각 성분 (즉, TP와 TN)은 올바르게 분류를 한 경우를 나타내고 비대각 성분 (즉, FP와 FN)은 분류가 잘못된 경우를 의미한다. 수식(1), (2), (3)(4)는 각각 정확도, 정밀도, 재현율 및 F1 점수를 계산하는 방법을 실제 정답과 분류 결과의 관계를 나타내는 TP, FP, FN, TN의 값으로 정리하여 나타낸다.

그리고 그림 3의 보편적인 평가 메트릭을 본 연구의 전력계통 기반 데이터 세트 분류 문제에 적용할 수 있다. TP는 실제 고장이 발생하였을 때 고장으로 분류한 경우, FP는 실제 비고장 외란이 발생하였을 때 고장으로 분류한 경우, FN은 실제 고장이 발생하였을 때 비고장 외란으로 분류한 경우, TN은 실제 비고장 외란이 발생하였을 때 비고장 외란으로 분류한 경우를 의미한다. 즉, 그림 3의 관계도를 본 연구의 고장 및 비고장 외란 분류 문제에 적용하면 그림 4처럼 고장과 비고장 외란의 분류에 따른 평가 관계도를 나타낼 수 있다. TP와 TN은 각각 고장과 비고장 외란을 성공적으로 분류한 경우로 두 값이 클수록 수식(1), (2), (3)(4)의 평가 메트릭이 큰 값을 가지게 되고, 분류 모델의 성능이 우수하다고 판단할 수 있다. 본 연구는 그림 3의 메트릭을 외란의 분류 문제에 적용하여 그림 4로 표현한 평가 메트릭을 통해 제안하는 일곱 가지의 분류 모델의 성능을 평가하였다.

그림. 3. 분류와 정답의 관계

Fig. 3. Relationship between classifications and real values

../../Resources/kiee/KIEE.2023.72.9.1018/fig3.png

(1)
$Accuracy =\dfrac{TP + TN}{TP + FP + FN + TN}$

(2)
$Precision =\dfrac{TP}{TP + FP}$

(3)
$Recall =\dfrac{TP}{TP + FN}$

(4)
$F1 score = 2\times\dfrac{Precision\times Recall}{Precision + Recall}$

그림. 4. 고장과 비고장 외란의 분류에 따른 평가 관계도

Fig. 4. Evaluation relationships based on classification of fault and non-fault disturbances

../../Resources/kiee/KIEE.2023.72.9.1018/fig4.png

3. 사례 연구

본 연구는 HVDC가 설치된 IEEE 30-bus system에서 다양한 유형의 고장과 비고장 외란을 시뮬레이션하고 총 120$\times$20의 데이터 세트를 수집하였다. 수집된 120$\times$20의 데이터를 이용하여 표 2에서 정의한 일곱 가지의 분류 모델의 성능을 평가하였다. 즉, 본 연구는 고장과 비고장 외란이 계통에 발생하였을 때, 표 1의 20가지 파라미터 데이터를 기준으로 고장과 비고장 외란을 분류할 수 있는지 시험하였다. 수집한 120개의 전체 데이터 중 70% (즉, 84개)를 훈련 데이터로 설정하여 각각의 분류 모델을 학습시켰고, 30% (즉, 36개)를 테스트 데이터로 설정하여 분류 모델의 성능 테스트하였다. 비교적 적은 학습 및 테스트 데이터를 가지고 분류를 수행하고 분류 모델의 학습 성능을 평가할 수 있으므로, 본 연구의 방향 및 결과는 소규모 데이터 기반 연구에 통찰력을 제공할 수 있다. 또한, 120개의 소규모 데이터에 기반 충분하지 못한 학습으로 인한 분류 성능 저하를 막기 위한 20개 파라미터 수집의 효과를 명시적으로 확인할 수 있다.

표 3은 본 연구에서 제안한 일곱 가지의 분류 모델별 분류 결과를 그림 3그림 4의 평가 메트릭에 기반한 값으로 나타낸 것이다. 그림 5표 3에서 TP와 TN의 합 (즉, 대각 성분)을 성공으로, FP와 FN의 합 (즉, 비대각 성분)을 실패로 표시하여 분류 결과를 막대 그래프로 나타낸 것이다. 연구 결과, 그림 5에서, TP와 TN의 합이 가장 큰 모델은 RFR 모델이었다. RFR 모델에 기반한 분류는 36개의 데이터 세트 중에서 단 한 가지 경우를 제외한 35개의 데이터를 옳게 분류하였다. RFR 모델의 유일한 오분류 (즉, 잘못 분류한 한 가지 경우)는 고장으로 분류된 비고장 외란이었다. 즉, RFR 모델은 한 가지의 테스트 데이터에 대하여 실제로는 비고장 외란이 발생한 경우를 고장으로 잘못 분류하였다. RFR 모델을 따라 DTC와 GBC 모델은 각각 2개와 3개의 데이터 포인트만 오분류 하며 좋은 분류 성능을 보였다. KNN과 NB 모델은 분류 성능이 약간 낮아 36개의 테스트 데이터 포인트 중 6개의 데이터를 잘못 분류하였다. 또한, SVM과 LR 모델은 각각 8개 및 11개의 분류 실패를 나타냈다.

전반적으로 TP와 TN의 합계를 통해 분류 모델들의 성능을 직관적으로 평가하였을 때, 분류 결과는 RFR 모델이 고장과 비고장 외란을 분류하는 가장 효과적인 분류 모델이었음을 시사한다. 즉, RFR 모델은 고장과 비고장 외란에 대한 특성 이해를 바탕으로 고장과 비고장 외란을 성공적으로 분류하였다. 그러나 DTC와 GBC도 RFR 모델에 이어 높은 성능 수준의 분류를 수행하였으며, 해당 모델들은 때때로 RFR 모델의 대체 분류기로 사용될 수 있다. KNN와 NB 모델은 본 연구의 데이터 세트에서는 효과적인 분류 모델이 아니었지만, 소규모 데이터에 기반해 학습 및 예측을 수행했다는 점을 고려할 때 나쁘지 않은 분류 성능을 보였다. 그러나, KNN과 NB 모델에 기반한 분류 성능이 RFR, DTC 또는 GBC 모델에 비해 분류 성능이 떨어짐은 분명하다. 마지막으로, SVM과 LR 모델은 다른 다섯 가지의 분류 모델들과 비교했을 때, 오분류의 개수가 가장 많았으며 가장 정확도가 낮은 분류를 수행하였다. 고장 및 비고장 외란에 대한 분류 작업의 복잡성과 사용 가능한 훈련 데이터의 제한된 양이 SVM과 LR 모델의 분류 성능에 영향을 미쳤을 수 있다.

표 3. 분류 결과

Table 3. Classification result

분류 모델

TP

TN

FP

FN

1

DTC

18

16

1

1

2

RFR

19

16

1

0

3

SVM

11

17

0

8

4

LR

10

15

2

9

5

KNN

17

13

4

2

6

NB

16

14

3

3

7

GBC

17

16

2

1

그림. 5. 모델별 성공 및 실패에 대한 분류 성능

Fig. 5. Classification performance for success and failure by model

../../Resources/kiee/KIEE.2023.72.9.1018/fig5.png

3.1 분류 모델의 성능 평가 기준 기반 분석

이전 절의 분류 모델 성능 평가는 TP, TN, FP 및 FN의 정량적 값에 기반한 단순한 평가이었다. TP, TN, FP 및 FN의 정량적인 값은 각 분류 모델에 대하여 올바르게 분류된 인스턴스와 잘못 분류된 인스턴스의 수에 대해 나타냄으로써, 비교적 간단하고 직관적이며, 이해하기 쉽다는 점에서 유용하다. 그러나 이렇듯 단순한 수치에만 의존하여 평가하는 것은 분류 모델의 성능에 대한 분석의 측면에서 부족할 수 있다. 즉, 본 연구는 분류 문제를 다룰 때 주로 사용되는 네 가지의 평가 메트릭에 기반하여 본 연구에서 사용한 분류 모델의 성능을 분석하였다. 네 가지 평가 메트릭인 정확도, 정밀도, 재현율 및 F1 점수 등 수치는 모델 성능에 대한 보다 포괄적이고 정확한 이해 및 정보를 제공할 수 있다. 표 4는 정확도, 정밀도, 재현율 및 F1 점수 측면에서 일곱 가지 분류 모델의 성능에 대한 계산 값을 보여준다.

정확도는 모델에서 수행한 모든 예측에서 올바른 예측의 백분율을 측정하는 가장 일반적인 메트릭이다. 본 연구에서 RFR 모델은 0.97의 가장 높은 정확도 점수를 보였으며 이는 테스트 데이터의 97%를 올바르게 분류하였음을 의미한다. DTC가 0.94점으로 두 번째로 높은 정확도를 기록하였고 GBC가 0.91점으로 그 뒤를 이었다. SVM과 LR 모델은 각각 0.77 및 0.69의 낮은 정확도 점수를 보였다.

정밀도는 모델이 만든 모든 고장 예측에서 참 양성 (즉, TP)의 비율을 측정한다. 즉, 분류 모델이 고장이 발생하였다고 예측한 경우 중 실제로 고장이 발생한 경우의 빈도를 계산한다. SVM 모델의 정밀도 점수는 1.00으로 고장이 발생하였다고 예측한 모든 경우에 대해서 실제 고장이 발생하였다. SVM 모델의 정밀도 점수는 1.00으로 가장 높긴 하였지만, 고장에 대해서 비고장 외란이 발생한 것으로 편향되어 분류하는 경향이 있었다. 이 같은 경우를 대비하기 위해 다양한 평가 지표를 확인할 필요가 있다. DTC, RFR, GBC 모델은 0.95, 0.95, 0.94점의 높은 정밀도 점수를 가졌다. 일곱 가지의 분류 모델 중에서 가장 낮은 정밀도 점수를 가진 모델은 KNN 모델이었고 정밀도 점수는 0.81점이었다.

재현율은 모든 실제 양성 사례에서 참 양성 (즉, TP)의 비율을 측정한다. 즉, 실제 고장이 발생하였을 때 분류 모델이 고장을 올바르게 식별한 빈도를 계산한다. RFR 모델은 1.00의 완벽한 재현율을 나타냈다. DTC 모델은 0.95점의 재현율로 두 번째로 높은 재현율을 나타냈다. KNN, NB 및 GBC 모델은 각각 0.89, 0.84, 0.89점의 재현율을 보였다. 그러나 SVM과 LR 모델은 0.58과 0.53점의 매우 낮은 재현율을 보였고 이는 실제 고장의 거의 절반에 대하여 오분류 되었음을 시사한다. 즉, SVM과 LR 모델을 사용하여 분류할 경우 실제 발생한 고장에 대하여 고장임을 인지하지 못할 수 있다.

F1 점수는 정밀도와 재현율의 조화 평균이며 모델의 성능의 균형 잡힌 척도를 제공한다. F1 점수는 정밀도와 재현율을 모두 균형 있게 반영하기 위한 평가 지표이고, F1 점수가 1에 가까울수록 성능이 좋음을 의미한다. RFR 모델의 F1 점수는 0.97로 가장 높았으며 이는 정밀도와 재현율 간에 균형 잡힌 분류 성능을 가지고 있음을 나타낸다. DTC 및 GBC 모델은 각각 0.95와 0.92의 높은 F1 점수를 가졌다. 반면, SVM과 LR 모델은 0.78 및 0.65점의 낮은 F1 점수를 보였다.

표 4. 분류 모델의 성능 평가

Table 4. Evaluating the performance of classification models

분류 모델

정확도

정밀도

재현율

F1 점수

1

DTC

0.94

0.95

0.95

0.95

2

RFR

0.97

0.95

1.00

0.97

3

SVM

0.77

1.00

0.58

0.78

4

LR

0.69

0.83

0.53

0.65

5

KNN

0.83

0.81

0.89

0.85

6

NB

0.83

0.84

0.84

0.84

7

GBC

0.91

0.94

0.89

0.92

전반적으로, 본 연구의 결과는 RFR 모델이 정확도, 정밀도, 재현율 및 F1 점수의 측면에서 다른 분류 모델보다 우수한 것으로 나타났다. 더불어 DTC 및 GBC 모델도 네 가지의 성능 평가 지표를 기준으로 하였을 때 강력한 분류 성능을 보이며 RFR 모델의 뒤를 이음이 확인되었다. SVM과 LR 모델은 분류 성능 점수가 낮았으며 본 연구에서 사용한 데이터 세트에 대해 학습을 효과적으로 수행하지 못하였다는 판단을 내릴 수 있다.

3.2 분류에 영향을 미친 파라미터의 중요도

파라미터의 선택 및 조정은 모델의 분류 및 예측의 정확도에 상당한 영향을 미칠 수 있다. 제공하는 데이터에 완전히 관계가 없는 데이터가 많은 경우 학습 데이터에 기반해 모델이 학습을 제대로 하기 어려울 수 있으며, 이 경우 테스트 데이터를 통한 테스트 결과의 정확도가 낮아질 수 있다. 따라서 분류 모델에서 파라미터의 영향력을 분석하여 중요도가 낮은 파라미터의 가중치를 분석하여 제거 및 수정함으로써 데이터 세트의 변형 과정이 필요하다. 그밖에도 중요도를 분석함으로써 얻어지는 두 가지의 장점이 있다. 첫째, 모델 출력에 가장 큰 영향을 미치는 파라미터를 식별하는 데 사용할 수 있다. 이 정보는 때때로 가장 중요한 파라미터에 집중하여 모델의 정확도를 개선하는 데 사용될 수 있다. 둘째, 매개변수의 중요도는 중요도가 낮은 모델을 제거하여 데이터 세트의 차원을 줄이는 데 (즉, 차원의 축소) 사용할 수 있다. 이를 통해 계산의 복잡성을 줄이고 성능을 개선하는 데 도움이 될 수 있다. 요약하면, RFR 모델에서 파라미터의 중요도는 모델의 결과를 분석하고 해석할 때 고려해야 할 중요한 요인이다. 즉, 파라미터의 중요도는 데이터 세트에서 가장 영향력 있는 파라미터에 대한 통찰력을 제공하고 모델의 정확도를 개선할 수 있다.

이전 절에서 본 연구는 일곱 가지의 분류 모델의 성능을 평가하여 전력계통의 고장 및 비고장 외란을 분류하는 데 가장 우수한 모델이 RFR 모델임을 밝혔다. 즉, 일곱 가지의 모델 중 RFR 모델이 높은 정확도, 정밀도, 재현율 및 F1 점수를 기반으로 가장 우수한 성능을 발휘하는 것으로 확인되었다. 따라서 본 연구는 RFR 모델의 성능에 대한 추가적인 분석을 위하여 분류에 영향을 미치는 파라미터의 중요도 (Importance)를 분석하여 성능을 개선하고자 한다.

RFR 모델에서 파라미터의 중요도는 해당 기능이 무작위로 치환되거나 제거될 때 모델의 정확도가 얼마나 감소하는지에 따라 계산된다. 그런 다음 기능의 중요도는 포레스트의 모든 의사 결정 트리에 대한 정확도의 평균 감소로 계산된다. 파라미터의 중요도는 0과 1 사이의 값으로 표시되며 높을수록 중요도가 높음을 나타낸다. 중요도 점수는 모델 출력에 가장 큰 영향을 미치는 파라미터를 식별하는데 사용할 수 있다. 이를 수식으로 설명하면 다음과 같다. 중요도를 계산하기에 앞서, 지니 불순도 (Gini Impurity)를 이해할 필요가 있다. 지니 불순도란 무작위로 선택된 데이터가 오분류 되는 빈도를 측정함으로써 계산될 수 있는 값이다. 데이터를 분할하기 전에, 전체에 대해서 기준 불순도 (Baseline Impurity)를 계산한다. 그런 다음 하나의 데이터를 무작위로 선택하고, 데이터를 무작위로 섞은 다음 의사 결정 트리의 각 노드에서 지니 불순도를 계산한다. 이 같은 방법으로 구해지는 지니 불순도의 평균을 계산하여 평균 불순도 (Average Impurity)를 정의한다. 그런 다음 수식(5)처럼 기준 불순도에서 평균 불순도를 빼서 각각의 중요도를 계산할 수 있다.

(5)
\begin{align*} Feature Importance = \\ \\ baseline Impurity - Average Impurity \end{align*}

따라서, 본 연구는 RFR 모델을 이용하여 중요도 분석을 수행한 후 분류에 영향을 미치는 다양한 파라미터의 중요도 값을 계산하여 표 5에 백분율로 나타내었다. 표 5에서, HVDC 링크에 흐르는 전류의 최대 편차 및 HVDC 링크의 정상분 전압의 최솟값의 중요도는 각각 0.186274 및 0.119562로 다른 변수들에 비하여 상대적으로 높았다. 이것은 이 두 파라미터가 HVDC가 있는 IEEE 30-bus system에 대해서 고장과 비고장 외란을 분류하는데 결정적인 역할을 하였음을 나타낸다. HVDC 링크의 정상분 및 영상분 전압의 최댓값은 HVDC 링크의 전류 최대 편차 또는 정상분 전압의 최솟값에 비해서는 상대적으로 낮은 중요도를 보였다. 그러나, HVDC 파라미터의 네 가지의 중요도의 합은 40.56%로 20가지의 파라미터 중 매우 높은 중요도를 나타내었다. 이와 같은 분석 결과는 HVDC가 있는 전력계통에서 고장과 비고장 외란을 분류하기 위해서 HVDC와 관련한 파라미터를 측정하는 것이 굉장히 중요한 부분임을 의미한다. 정상분 전압과 전류의 초기값은 고정되어 있으므로 고장과 비고장 외란을 구분하는 데 영향을 미치지 않았다. 따라서 정상분 전압 및 전류의 초기값의 중요도는 0.00이다. 그리고 HVDC 파라미터가 중요도의 1, 2순위를 차지하였지만, 3순위는 정상분 전압의 최솟값으로 0.07512의 중요도를 보였다. 고장이 발생하였을 때 순간적으로 전압이 급격히 떨어지는 현상이 고장과 비고장 외란을 구분하는 데 중요한 단서를 제공하였음을 나타낸다.

본 연구는 표 5를 통해서 각 파라미터의 중요도를 확인함으로써 분류 모델을 설계하고 구현할 때 각 파라미터가 분류 결과에 미치는 영향을 고려하는 것이 중요하다는 것을 파악하였다. 특히, HVDC와 관련된 파라미터 그리고 중요도가 높았던 정상분의 최소 전압 등의 파라미터는 정확한 분류를 보장하기 위하여 특별한 주의를 기울이고 모니터해야 한다. 전반적으로, RFR 모델을 사용한 중요도 분석은 고장과 비고장 외란이 발생하였을 때, 계통의 다양한 파라미터들을 확인함으로써 고장과 비고장 외란을 성공적으로 분류하기 위하여 전력계통을 모니터하고 제어할 때 어떤 기능에 더 주의를 기울여야 하는지에 대하여 강조하였다. 이 분석은 전력계통 엔지니어가 시스템 안정성과 신뢰성을 유지하기 위해 주의를 기울여야 하는 가장 중요한 파라미터를 식별하고 반영의 임계치를 결정하는 데 도움이 될 수 있다.

표 5. 랜덤 포레스트 회귀 모델의 파라미터별 중요도

Table 5. Importance of each parameter in the random forest regression model

파라미터

중요도 (%)

1

정상분 전압의 초기값

0.00

2

정상분 전압의 최댓값

2.11

3

정상분 전압의 최솟값

7.51

4

정상분 전압의 최대 변동 폭

5.98

5

영상분 전압의 최댓값

5.64

6

정상분 전류의 초기값

0.00

7

정상분 전류의 최댓값

6.85

8

정상분 전류의 최솟값

3.76

9

정상분 전류의 최대 변동 폭

5.84

10

영상분 전류의 최댓값

3.72

11

주파수의 최댓값

3.91

12

주파수의 최솟값

1.20

13

주파수 미분의 최댓값

5.03

14

로터 스피드의 최댓값

4.15

15

로터 스피드의 최솟값

1.68

16

로터 스피드 미분의 최댓값

2.06

17

HVDC 링크에 흐르는 전류 미분의 최댓값

18.63

18

HVDC 링크의 정상분 전압의 최댓값

6.88

19

HVDC 링크의 정상분 전압의 최솟값

11.96

20

HVDC 링크의 영상분 전압의 최댓값

3.10

3.3 기능 중요도 분석 적용: Random forest regression 모델

RFR 모델은 분류 작업에서 높은 정확도를 달성할 수 있는 강력한 기계학습 알고리즘으로 알려져 있다. 그러나 RFR 모델 기반 분류는 데이터 세트에서 관련이 없거나 노이즈가 많은 경우에 민감할 수 있으며, 이는 과적합 또는 정확도 감소로 이어질 수 있다. 모델의 분류 성능을 개선하고 과적합을 방지하기 위하여, 본 연구는 이전 절에서 RFR 모델의 분류에 영향을 미치는 각 파라미터의 중요도를 계산하였다.

초기 데이터 세트는 20개의 파라미터로 구성되어 있었으며 이는 상대적으로 많은 수의 데이터 컬럼을 만든다. 20개의 모든 파라미터가 고장 및 비고장 외란을 구별하는 데 결정적인 영향을 미친다면 20개 파라미터 모두의 중요도가 높아야 하며 RFR 모델의 성능이 향상될 것이다. 그러나 일부 파라미터는 분류에 거의 영향을 미치지 않았으며 이렇듯 중요도가 낮은 파라미터를 포함하면 계산의 복잡성이 증가하고 분류 성능에 감소할 수 있다.

따라서 본 연구에서는 중요도의 임계값을 0.02 (즉, 2%)로 설정하여 중요도 기반 모델 학습에 적용할 파라미터를 재선정하였다. 즉, 중요도가 0.02 미만인 네 개의 파라미터 (즉, 정상분 전압의 초기값, 정상분 전류의 초기값, 주파수의 최솟값 및 로터 스피드의 최솟값)를 제외하고 나머지 16가지의 파라미터로 구성된 새로운 데이터 세트 생성하였다. 이처럼 분류에 사용되는 파라미터의 수를 효과적으로 줄임으로써 계산의 복잡도를 낮추고 RFR 모델의 분류 성능의 변화를 확인하였다. 표 6그림 6은 중요도를 기반으로 하여 중요도가 임계 중요도인 0.02보다 낮은 4개의 파라미터를 제외한 후 새롭게 학습하였을 때, RFR 모델의 파라미터별 중요도를 나타낸다. 또한, 그림 6표 6에 나타난 16가지의 파라미터가 순서대로 나타나 있다. 이 경우에서도 HVDC와 관련된 네 가지의 파라미터의 중요도의 합은 42.38%로 높았고 특히 HVDC 링크에 흐르는 전류의 편차의 최댓값의 중요도는 22.99%로 고장과 비고장 외란을 구분하는 데 결정적인 역할을 하였다.

그림 7은 중요도에 따라 조정된 새로운 데이터 세트 (즉, 120$\times$16의 데이터 세트)에 대한 RFR 모델의 분류 결과인 혼동 행렬을 나타낸다. 테스트 데이터에는 19개의 고장 시나리오와 17개의 비고장 외란 시나리오가 포함되었으며, 36개의 모든 데이터 포인트가 대각선 매트릭스 분포로 올바르게 분류되었다. 3.1절에서 RFR 모델을 이용해 120$\times$20 형태의 데이터 세트를 가지고 학습을 수행하고 테스트를 했을 때, 36개의 테스트 데이터 중 1개의 데이터를 오분류 하는 결과가 발생했다. 그러나 RFR 모델의 중요도를 기반으로 중요도 0.02 이하의 컬럼 (즉, 파라미터)를 삭제하여 120$\times$16의 데이터 세트를 가지고 분류를 수행했을 때 36개의 데이터 모두 옳게 분류를 수행했다. 이로써, 본 연구에서 제안하는 중요도 기반 데이터 세트의 조정은 소규모 데이터 기반 분류 알고리즘의 성능에 유의미하고 긍정적인 영향력을 행사하였음을 확인할 수 있다. 전반적으로 본 연구 결과는 중요도 기반 데이터 세트의 조정 방법이 소규모 데이터 기반 고장 및 비고장 외란 분류의 맥락에서 RFR 모델의 성능을 개선하는 효과가 있었음을 시사한다.

표 6. 중요도 기반 조정된 데이터에 대한 랜덤 포레스트 회귀 모델의 파라미터별 중요도

Table 6. Importance of each parameter in the random forest regression model

파라미터

중요도 (%)

1

정상분 전압의 최댓값

1.79

2

정상분 전압의 최솟값

7.34

3

정상분 전압의 최대 변동 폭

5.48

4

영상분 전압의 최댓값

5.41

5

정상분 전류의 최댓값

4.43

6

정상분 전류의 최솟값

3.43

7

정상분 전류의 최대 변동 폭

4.43

8

영상분 전류의 최댓값

6.08

9

주파수의 최댓값

4.50

10

주파수 미분의 최댓값

4.90

11

로터 스피드의 최댓값

5.69

12

로터 스피드 미분의 최댓값

4.05

13

HVDC 링크에 흐르는 전류 미분의 최댓값

22.99

14

HVDC 링크의 정상분 전압의 최댓값

5.69

15

HVDC 링크의 정상분 전압의 최솟값

11.92

16

HVDC 링크의 영상분 전압의 최댓값

1.78

그림. 6. 중요도 기반 조정된 데이터에 대한 랜덤 포레스트 회귀 모델의 파라미터별 중요도

Fig. 6. Importance of each parameter in the random forest regression model for importance-based adjusted data

../../Resources/kiee/KIEE.2023.72.9.1018/fig6.png

그림. 7. 중요도 기반 조정된 데이터에 대한 랜덤 포레스트 회귀 모델의 분류 결과

Fig. 7. Classification result of each parameter in the random forest regression model for importance-based adjusted data

../../Resources/kiee/KIEE.2023.72.9.1018/fig7.png

본 연구에서 사용한 120$\times$20의 소규모 데이터 세트는 전력계통의 특성상 과도상태에서 다양한 파라미터의 데이터를 수집하는 것에 한계가 있음을 인지 및 인정하고 소규모 데이터를 가지고 분류를 성공적으로 수행하는 과정을 증명하였다. 120$\times$20의 데이터 세트를 가진 소규모 데이터 기반 분류 연구는 선행 연구와 비교했을 때 학습할 수 있는 데이터의 수가 작다는 한계가 있다. 그러나 학습할 수 있는 많은 데이터를 제공하는 것만큼, 작은 사례의 데이터라도 중요한 정보 및 파라미터의 값을 입력 데이터로 제공한다면 성공적인 분류 결과를 얻을 수 있음을 확인하였다. 그뿐만 아니라, 본 연구는 일곱 가지의 분류 모델 중에서 가장 성능이 우수했던 RFR의 분류 성능 개선을 위해 중요도 기반 데이터 축소를 사용하였다. 분류 결과에 크게 영향을 미치지 않는 데이터를 축소함으로써, 계산의 복잡도를 낮추고 학습 및 분류의 성능을 개선할 수 있음을 확인하였다.

4. 결 론

본 연구는 기계학습 기술을 사용하여 HVDC가 설치된 전력계통에서 고장과 비고장 외란을 분류하였고, 모델별 분류 성능을 비교하였다. 일곱 가지의 모델을 통해 분류를 수행하였을 때, 본 연구에서 다룬 소규모의 특정 데이터 세트에 기반한 경우 RFR 모델이 가장 우수한 분류 성능을 보였다. 또한, RFR 모델의 파라미터별 중요도를 확인하여 HVDC와 관련된 파라미터가 고장과 비고장 외란을 구분하는데 결정적으로 영향을 미침을 확인하였다. 마지막으로, 중요도가 낮은 파라미터를 임계 중요도를 기준으로 하여 제한하였을 때 RFR 모델의 성능이 개선되었음을 확인하였다. 이로써, 본 연구는 소규모 데이터 세트에 기반한 기계학습 기술의 사용에 대한 통찰력 및 가능성을 제공하였다. 향후 연구로는 더 다양하고 복잡한 시나리오를 포함하도록 데이터 세트를 확장하고, 분류 모델의 성능을 개선하기 위해 딥러닝 알고리즘을 개발하는 데 집중할 수 있다. 또한, 분류 모델의 성능 개선을 위해서 임계 중요도의 선택 최적화 기법 설계를 진행할 수 있다.

Acknowledgements

This research was supported by Korea Electric Power Corporation (Grant number: R22XO02-22).

References

1 
M. R. Zaidan, 2019, Power system fault detection, classification and clearance by artificial neural network controller, 2019 Global Conference for Advancement in Technology (GCAT), IEEE, pp. 1-5DOI
2 
S. Yoon, J. F. MacGregor, 2001, Fault diagnosis with multivariate statistical models part I: using steady state fault signatures, Journal of process control, Vol. 11, No. 4, pp. 387-400DOI
3 
H. Jiang, J. J. Zhang, W. Gao, Z. Wu, 2014, Fault detection, identification, and location in smart grid based on data-driven computational methods, IEEE Transactions on Smart Grid, Vol. 5, No. 6, pp. 2947-2956DOI
4 
S. A. Aleem, N. Shahid, I. H. Naqvi, 2015, Methodologies in power systems fault detection and diagnosis, Energy Systems, Vol. 6, pp. 85-108DOI
5 
V. Veerasamy, 2021, LSTM recurrent neural network classifier for high impedance fault detection in solar PV integrated power system, IEEE Access, Vol. 9, pp. 32672-32687DOI
6 
L. Cai, N. F. Thornhill, S. Kuenzel, B. C. Pal, 2017, Real- time detection of power system disturbances based on $ K $-nearest neighbor analysis, IEEE Access, Vol. 5, pp. 5631-5639DOI
7 
J. Cordova, C. Soto, M. Gilanifar, Y. Zhou, A. Srivastava, R. Arghandeh, 2018, Shape preserving incremental learning for power systems fault detection, IEEE control systems letters, Vol. 3, No. 1, pp. 85-90DOI
8 
A. F. Bastos, S. Santoso, 2019, Universal waveshape-based disturbance detection in power quality data using similarity metrics, IEEE Transactions on Power Delivery, Vol. 35, No. 4, pp. 1779-1787DOI
9 
V. Psaras, A. Emhemed, G. Adam, G. Burt, 2018, Review and evaluation of the state of the art of DC fault detection for HVDC grids, 2018 53rd International Universities Power Engineering Conference (UPEC), IEEE, pp. 1-6DOI
10 
M. Ramesh, A. J. Laxmi, 2012, Fault identification in HVDC using artificial intelligence—Recent trends and perspective, 2012 International Conference on Power, Signals, Controls and Computation, IEEE, pp. 1-6DOI
11 
Y. M. Yeap, N. Geddada, A. Ukil, 2017, Analysis and validation of wavelet transform based DC fault detection in HVDC system, Applied Soft Computing, Vol. 61, pp. 17-29DOI
12 
D. Ye, F. Xie, Z. Hao, 2021, A novel identification scheme of lightning disturbance in HVDC transmission lines based on CEEMD-HHT, CPSS Transactions on Power Electronics and Applications, Vol. 6, No. 2, pp. 145-154DOI
13 
S. Ghashghaei, M. Akhbari, 2021, Fault detection and classification of an HVDC transmission line using a heterogenous multi‐machine learning algorithm, IET Generation, Transmission & Distribution, Vol. 15, No. 16, pp. 2319-2332DOI
14 
T. Goswami, U. B. Roy, 2019, Predictive model for classification of power system faults using machine learning, TENCON 2019-2019 IEEE Region 10 Conference (TENCON), IEEE, pp. 1881-1885DOI
15 
Y. Wang, X. Wang, Y. Wu, Y. Guo, 2020, Power system fault classification and prediction based on a three-layer data mining structure, IEEE Access, Vol. 8, pp. 200897-200914DOI
16 
Y. Chen, Z. Lin, X. Zhao, G. Wang, Y. Gu, 2014, Deep learning-based classification of hyperspectral data, IEEE Journal of Selected topics in applied earth observations and remote sensing, Vol. 7, No. 6, pp. 2094-2107DOI
17 
Y.-Y. Zheng, J.-L. Kong, X.-B. Jin, X.-Y. Wang, T.-L. Su, M. Zuo, 2019, CropDeep: The crop vision dataset for deep-learning-based classification and detection in precision agriculture, Sensors, Vol. 19, No. 5, pp. 1058-DOI
18 
Priyanka, D. Kumar, 2020, Decision tree classifier: a detailed survey, International Journal of Information and Decision Sciences, Vol. 12, No. 3, pp. 246-269DOI
19 
A. M. Prasad, L. R. Iverson, A. Liaw, 2006, Newer classification and regression tree techniques: bagging and random forests for ecological prediction, Ecosystems, Vol. 9, pp. 181-199DOI
20 
S. Karamizadeh, S. M. Abdullah, M. Halimi, J. Shayan, M. javad Rajabi, 2014, Advantage and drawback of support vector machine functionality, 2014 international conference on computer, communications, and control technology (I4CT), IEEE, pp. 63-65DOI
21 
J. V. Tu, 1996, Advantages and disadvantages of using artificial neural networks versus logistic regression for predicting medical outcomes, Journal of clinical epidemiology, Vol. 49, No. 11, pp. 1225-1231DOI
22 
A. Bilski, 2011, A review of artificial intelligence algorithms in document classification, International Journal of Electronics and Telecommunications, pp. -DOI
23 
Y. Huang, L. Li, 2011, Naive Bayes classification algorithm based on small sample set, 2011 IEEE International conference on cloud computing and intelligence systems, IEEE, pp. 34-39DOI
24 
S. Asante-Okyere, C. Shen, Y. Y. Ziggah, M. M. Rulegeya, X. Zhu, 2020, A novel hybrid technique of integrating gradient-boosted machine and clustering algorithms for lithology classification, Natural Resources Research, Vol. 29, pp. 2257-2273DOI

저자소개

남용현 (Yong-Hyun Nam)
../../Resources/kiee/KIEE.2023.72.9.1018/au1.png

He received the B.S and M.S. degrees in Electronic and Electrical Engineering from Hongik University, Seoul, South Korea, in 2018 and 2020, where he has currently working forward the Ph.D. degree in Eletronic and Electrical Engineering.

His research interest includes wireless power transfer.

E-mail : namy129@naver.com

이향범 (Hyang-beom Lee)
../../Resources/kiee/KIEE.2023.72.9.1018/au2.png

He received the B.S., M.S. and Ph.D.,degrees in Electrical Engineering from Seoul National University, Seoul, South Korea, in 1989, 1991 and 1995, respectively.

He has been a professor at Soongsil University since 1998.

His research interests are electrical machines, numerical analysis and optimum design, non-destructive testing, magnetic stealth.

E-mail : hyang@ssu.ac.kr