• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid

  1. (Dept. of Information Control Engineering, Hoseo University, Korea.)



PINN, Deep Learning, Hyper-parameter, Transfer learning, Pre-processing, Ritz method

1. 서 론

개발자는 사용자의 요구 또는 표준 규격에 맞게 이론적으로 정립된 수치를 이용해 기기를 설계한다. 최적화란 미세한 토크 리플을 저감 시키거나 효율을 증가시키기 위해 해석 형상의 수치를 미세하게 조절하는 과정이다. 일반적으로 전기기기를 최적화를 할 때 변화시키는 변수는 슬롯 폭, 공극 길이 등의 기구적인 수치이다. 이러한 최적화를 위해 다양한 연구가 진행되고 있다. 하지만 대부분은 최적화된 형상의 성능을 확인하기 위해 유한요소해석(Finite Element Analysis : FEA) 사용되고 있다.

유한요소해석은 실제 물리 현상을 매우 잘 표현하는 방법이지만 해석 형상이 조금이라도 달라진다면 별개의 해석으로 간주하는 문제점이 있다. 해석 정확도만을 성능으로 볼 때 문제는 없지만, 개발 과정에서 매우 긴 부분을 차지하는 해석 시간의 관점에서 이는 문제가 된다. 이를 해결하기 위해 최소의 해석회수로 시간 및 비용을 감소시키는 메타모델이 연구가 되고 있다(1-2). 이 방법은 해석회수를 줄이는 방법이지 근본적인 해석 시간을 줄이는 방법이 아니며 기본 해석 프로그램에 추가적인 비용을 요구하는 경우가 많다. 따라서 근본적인 반복 해석의 시간을 줄이며 비용적인 접근이 용이한 해석 방법에 관한 연구가 필요하다.

물리정보신경망은 미분방정식을 신경망으로 푸는 딥 러닝 프레임워크로 선형 회귀 모델의 목표 값이 미분 방정식인 것을 제외하면 그 구조가 일반적인 신경망과 동일하다. 신경망은 유사한 도메인을 학습한 경험을 토대로 빠른 수렴을 보이는 전이 학습 특성이 있다(3). 이 특성을 이용한다면 고장 진단에 사용되는 데이터를 생성할 때와 같이 형상을 변화시키며 수많은 반복 해석을 할 때 시간적 이점을 가질 수 있다. 이에 의거해 본 논문에서는 전이학습 기반의 물리정보신경망의 성능이 연구된다.

하지만 물리정보신경망은 아직 초기 연구 단계에 있어서 신경망 자체의 성능을 증가시키기 위한 연구가 미흡하다. 신경망은 상용자가 지정해야 하는 하이퍼 파라미터에 따라 그 성능이 크게 달라진다(4-6). 신경망의 성능을 증가시키기 위해서는 적절한 하이퍼 파라미터를 찾아야 한다. 일반적으로 많이 사용되고 있는 YOLO, AlexNet 등은 하이퍼 파라미터에 대한 방법론적 실험 결과들이 많아 학습 대상에 대한 파라미터 튜닝이 용이하다(7). 본 연구는 물리정보신경망을 활용한 기초 연구로서 신경망 성능 증가를 위해 모델 파라미터의 수, 전처리 방법, 활성화 함수 및 학습 데이터 수 등의 하이퍼 파라미터를 조정하며 그 성능을 분석하는 과정을 포함한다.

물리정보신경망을 최적화 분야에 적용한 사례는 다음과 같다. Andres는 형상이 변화되는 상황을 고려하기 위해 형상의 길이 등을 조작 변수로 설정해 학습시켰다 (8). 이 방법은 최적화 분야에서 사용 가능할지라도 높은 복잡도의 모델을 요구하며 불필요한 반복 학습이 요구된다. Hesheng은 물리정보신경망에 전이 학습을 추가하는 시도를 했지만 실제 기구 형상을 고려하지 않았다(9). 따라서 본 논문에서는 물리정보신경망의 성능을 증가시키기 위한 하이퍼 파라미터에 따른 성능이 분석되며 이를 이용한 전기기기의 형상 변화를 고려한 물리정보신경망의 전이 학습 사용 가능성이 연구된다. 2장에서는 물리정보신경망 성능에 영향을 주는 전처리 방법, 모델 구조 및 신경망 이론이 정의된다(10). 물리정보신경망의 하이퍼 파라미터에 따른 성능 및 전이 학습 기반의 물리정보신경망의 E-I core의 공극 길이 변화 대처 성능이 3장에서 평가된다.

2. 물리정보신경망

물리정보신경망은 메쉬 자유도 등의 이점을 갖고 있다 (11). 물리정보신경망의 학습은 유한요소해석을 위해 사용되는 매우 작은 영역인 메쉬 대신 해석 형상의 좌표와 물리 정보가 사용된다. 물리정보신경망은 딥 러닝 알고리즘의 프레임워크이기 때문에 그 동작 원리는 신경망과 동일하다. 딥 러닝을 이용해 미분 방정식을 풀 수 있는 이유는 신경망이 모든 함수를 근사 가능한 보편적 근사자이기 때문이다(12). 이 방법은 모든 물리 정보를 풀 수 있지만 아직 세계적으로 연구 초기단계이기 때문에 많은 활용이 되고 있지 않다. 하지만 딥 러닝 알고리즘의 이점을 살린 물리정보신경망은 기존 유한요소해석의 일정 부분을 대체할 수 있을 것이다. 물리 정보 신경망은 데이터 수, 모델 파라미터, 전처리 방법, 손실 함수에 따른 영향을 받는다. 안정적인 모델 구축을 위해서는 각 파라미터에 따른 모델 성능이 분석되어야 한다.

2.1 물리정보신경망의 손실 함수

물리정보신경망의 구조는 일반적인 선형 회귀 모델과 같다. 선형 회귀 모델의 종류와 특징은 그림 1과 같다.

선형 회귀란 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법이다. 이 신경망을 선형 회귀 모델로 규정한다면 알려진 다른 관련 데이터 값이란 미분방정식 이며 물리정보신경망을 통해 예측되는 값은 미분방정식의 해다. 물리정보신경망의 모델 출력은 미분방정식의 해이기 때문에 출력된 해가 미분 방정식을 만족할 수 있게 학습된다. 즉, 물리정보신경망의 손실함수는 (1)로 표현된다.

그림. 1. 물리정보신경망의 종류와 특징

Fig. 1. Types and characteristics of PINN

../../Resources/kiee/KIEE.2023.72.10.1149/fig1.png

(1)
$J_{p}=\dfrac{1}{N}\sum_{i=1}^{N}(f(u(x_{c})^{(i)}))^{2}$

여기서 $N$은 데이터의 수, $f()$는 미분방정식, $x_{c}$는 결정 경계가 아닌 부분의 입력 데이터를 의미한다. 무한한 영역을 해석하는 것은 실제 해석에 큰 영향을 주지 못하기 때문에 일반적으로 해석하는 영역을 제한하고 제한된 영역의 최 외곽 부분을 결정경계라고 부른다(13). $x_{c}$는 일반적으로 해석 영역의 좌표 또는 시간이다. $u()$는 신경망의 출력을 의미한다. 즉, (1)은 신경망의 입력에 따른 출력이 미분방정식을 만족하는 정도를 나타낸다. 유한요소해석과 같이 물리정보신경망 또한 경계조건을 만족시키는 항을 추가해야하며 이는 (2)로 표현된다.

(2)
$J_{b}=\dfrac{1}{N}\sum_{i=1}^{N}(u(x_{b}^{(i)})-f(x_{b}^{(i)}))^{2}$

여기서 $x_{b}$는 경계조건에 위치한 데이터를 의미한다. 디리클레 경계조건일 때 미분방정식의 해는 0이 된다. 디리클레 경계조건일 때 (2)는 (3)으로 표현 가능하다.

(3)
$J_{b,\:d}=\dfrac{1}{N}\sum_{i=1}^{N}(u(x_{b}^{(i)}))^{2}$

(1), (3)은 모두 그 값이 0이 되는 것을 목표로 한다. (1), (3)의 출력인 $u$를 제어하는 값은 신경망의 가중치 $W$와 편향 $b$이며 이를 이용해 물리정보신경망의 손실을 표현하면 (4)와 같다.

(4)
$$ L=f\left(u\left(W x_c+b\right)\right)^2+u\left(W x_b+b\right)^2 $$

물리정보신경망의 목적은 (4)를 최소화시키는 것이며 이는 미분을 통해 구해진다.

물리정보신경망의 다른 장점 중 하나는 딥 러닝 알고리즘 학습 과정에 사용되는 미분이 미분방정식의 해의 적합성을 평가하는데 사용되기 때문에 연산 효율이 좋은 것이다. (4)를 통해 가중치와 편향이 모델의 성능을 결정짓는 요소 중 하나임을 알 수 있지만 이에 대한 보편적인 정리는 되어 있지 않다. 유한요소해석의 경우 시간의 차이는 있지만 거의 모든 경우에서 원하는 해를 구할 수 있다. 물리정보신경망은 신경망이기에 이러한 파라미터에 크게 영향을 받으며 적절한 수치를 찾거나 경향을 분석하는 연구가 필요하다.

물리정보신경망의 손실 함수는 (4)와 같이 미분방정식 만족도를 높이는 형태로 되어있다. 하지만 물리정보신경망은 유한요소해석과 같이 미분방정식을 푸는 목적을 가지고 있기 때문에 기존 유한요소 해석에 사용된 방법이 사용 가능하다. 그 중 Ritz 방법은 변위경계조건을 만족시키는 유한개의 기저함수의 선형조합으로 미지함수를 표시하고 기저함수를 가중함수로 사용해서 해를 구하는 법이다(14). 물리정보신경망에 Ritz 방법을 적용할 때 기저함수는 신경망이 되며 신경망 내부의 가중치, 편향의 조합으로 해를 구한다. 일반적으로 Ritz 방법을 통해 해를 구하는 과정에는 가중잔여법이 사용되며 유한요소법에서는 갤러킨 방법이 사용된다. 갤러킨 방법은 미분방정식의 근사해를 시험함수의 합으로 표현하며 푸아송 방정식에서의 표현은 (5)와 같다 (14).

(5)
$$ F(u)=\int_{\Omega} \frac{1}{2}|\nabla u(x)|^2-f(x) u(x) d x $$

Ritz 방법의 목적은 $F(u)$를 최소화 시키는 것이다. 여기 시험함수는 $u(x)$이며 신경망의 출력이다. $f(x)$는 주어진 미분 방정식이다. (4)와 달리 (5)의 방법은 신경망의 출력을 시험함수로 사용하며 영역에서의 합을 이용한다. (5)는 신경망의 손실 함수로 사용 가능하다. (5)를 최소화시키는 행위는 시험 함수의 만족도를 높이는 것이며 이는 손실 함수를 미분을 통해 최소화 시키는 신경망의 학습과 동일하다. 물리정보신경망에서 Ritz 방법은 아직 많이 사용되고 있지 않다. 일반적으로 (4)를 사용하기 때문에 (5)의 손실 함수를 사용할 때의 성능 분석에 관한 연구도 필요하다.

2.2 물리정보신경망의 하이퍼 파라미터

물리정보신경망의 성능을 높이기 위해서는 데이터의 전처리가 중요하다. 데이터의 전처리는 입력 데이터의 최소값을 0으로 하고 최대값을 1로 설정하는 Min-Max 전처리가 주로 사용된다 (15). 이러한 전처리는 학습 데이터의 편향을 줄여주고 출력의 성능을 올려준다. 유한요소해석에서 입력은 일반적으로 해석 형상의 좌표이고 이를 Min-Max 방법을 이용해 전처리 한다면 계통 해석에 주로 사용되는 PU(Per Unit)변환과 동일해진다. Andres는 이 개념을 이용해 해석 형상의 전처리를 했으며 출력의 최대값을 1로 만드는 계수들을 찾아 재료 정보 및 입력 정보의 수치를 전처리했다 (8). 입력 데이터를 정규화 하는 방법은 (6)과 같다.

(6)
$\overline{X}=\dfrac{X}{X^{*}}$

여기서 $X$는 물리정보신경망의 입력으로 [M]단위로 표현되는 공간상의 좌표이다. 직교 좌표계에서 2차원 해석을 할 때 이 값은 x, y 두 개의 값을 갖는다. $X^{*}$는 이 값을 1로 만드는 수치이며 이를 통해 입력 값의 최대값이 1로 전처리된다. 정규화를 통해 전처리된 물리정보신경망의 Ritz 방법을 이용한 손실함수는 (7)로 표현된다.

(7)
$$ \bar{F}(\bar{u})=\int_{\Omega} \frac{1}{2}|\bar{\nabla} \bar{u}(\bar{X})|^2-\bar{f}(\bar{X}) \bar{u}(\bar{X}) d \bar{X} $$

주어진 미분방정식 $f(x)$의 예상 출력값을 이용해 신경망 출력인 $u(x)$의 값을 최대값이 1이 되게 전처리 가능하다 (8). 하지만 예상 출력값을 아는 것은 유한요소해석의 목적에 크게 맞지 않고 이를 모르는 것이 일반적이다. 또한 데이터 전처리에 따른 신경망의 성능은 크게 차이나기 때문에 이 전처리 수치에 따른 성능 분석에 관한 연구 또한 필요하다.

모델 파라미터의 수, 손실 함수의 계산법, 전처리 수치 외에도 신경망의 성능에 영향을 주는 요소는 활성화 함수, 최적화 함수, 데이터의 수 등이 있다. 안정적인 해석을 위해서는 각 파라미터들이 주는 영향을 분석해야 한다. 본 논문에서 비교될 활성화 함수는 실험을 통해 가장 우수한 성능을 보인 SiLU(Sigmoid Linear Unit)와 입력의 세제곱을 취하는 ReLU(Rectified Linear Unit)이다. 이는 (8), (9)로 표현된다.

(8)
$silu(x)= x\bullet\sigma(x)$

(9)
$r(x)=\max(x^{3},\:0)$

그림. 2. 해석 방식에 따른 데이터 차이

Fig. 2. Differences in data due to analysis method

../../Resources/kiee/KIEE.2023.72.10.1149/fig2.png

(8)에서 $\sigma()$는 시그모이드 함수를 의미한다. 최적화 함수는 일반적으로 가장 성능이 우수하다고 알려진 Adam이 사용된다. 입력 데이터의 수는 동일한 해석에 사용되는 유한요소해석의 메쉬 수와 비율을 맞추어 메쉬 수와 동일한 데이터 수, 60%적은 수치의 데이터 수, 60% 많은 수치의 데이터 수가 사용된다. 그림 2는 유한요소해석의 메쉬와 물리정보신경망의 데이터의 비교를 보여준다.

유한요소해석은 특정한 경계조건이 주어지며 물리정보신경망에도 이 값을 고려해야 한다. 기존의 물리정보신경망을 사용하는 연구들은 이 값을 데이터 출력을 통해 학습시켰지만, 경계에서의 값을 강제로 지정하는 함수를 이용하면 별도의 손실함수 추가 없이 학습이 가능하다. 이는 출력인 $u$에 경계 영역의 값을 강제로 지정시키는 (10)으로 표현 가능하다.

(10)
$\overline{u}_{re}(\overline{X})=\overline{X}_{\min}(\overline{X}_{\max}-\overline{X})\overline{u}(\overline{X})$

$\overline{X}_{\min}$은 전처리된 입력 형상의 최소 값, $\overline{X}_{\max}$는 전처리된 입력 형상의 최대 값이다. (10)은 디리클레 경계 조건을 의미한다.

2.3 전이 학습

전이 학습은 한 분야의 문제를 해결하기 위해서 얻은 지식과 정보를 다른 문제를 푸는데 사용하는 방식이다(16). 이는 보편적으로 이미지 분류 문제 해결에 사용된다. 이 개념을 더욱 확장시켜 유사한 분야의 문제를 푸는 것이 아닌 매우 작은 차이만을 갖는 분야에 전이 학습을 적용시킨다면 모델의 학습 속도 및 성능은 크게 증가될 것이다. 이는 물리정보신경망에 적용하기 매우 적절하며 미세하게 변화하는 형상을 해석하는데 사용 가능하다. 고장진단분야에서 유한요소해석을 적용시킬 때 수많은 고장 수준을 구현하기 위해 파손 부위의 크고 작은 형상 변화를 준다. 기존의 유한요소해석은 각 해석을 개별적으로 처리했지만 전이학습의 개념이 적용 가능한 물리정보신경망은 차이가 거의 없는 형상의 해석에 이점을 가질 수 있다. 전이학습을 적용 시킨 유사 해석 형상 학습 방법은 그림 3과 같다.

그림. 3. 전이 학습을 이용한 물리정보 신경망 학습 방법

Fig. 3. The PINN training method using transfer learning

../../Resources/kiee/KIEE.2023.72.10.1149/fig3.png

2.4 전자계 해석

전기기기 설계를 위해 해석되는 물리 정보는 전자계로 인해 발생하는 힘, 기기에 유도되는 전류 등이 있다. 이러한 물리 정보들은 벡터 자기 포텐셜로 유도 가능하다. 따라서 본 논문에서 해석되고 비교 대상이 될 물리량은 벡터 자기 포텐셜이다. 이를 풀기위한 지배 방정식은 맥스웰 방정식을 통해 유도 가능하다. 벡터 자기 포텐셜을 출력하기 위해 사용되는 지배 방정식은 (11)과 같다.

(11)
$\mu(H)\nabla^{2}A = -J$

이는 물리정보신경망의 $f()$에 해당하며 자기 포텐셜인 $A$는 $u()$에 해당한다. 이 해석을 위해 요구되는 물리 정보는 재료의 투자율, 전류 밀도이다. 본 논문에서 다루는 물리 정보 신경망의 해석 대상은 2차원이며 투자율은 상수로 고정한다. 따라서 (11)은 (12)로 다시 표현 가능하다.

(12)
$\mu\nabla^{2}A_{z}= -J_{z}$

해석에 필요한 물리 정보는 형상 좌표가 있으며 이는 상용 유한요소해석 프로그램의 메쉬 수와 비교해 결정된다.

3. 성능 평가

본 논문에서 해석될 전기기기는 변압기에 주로 사용되는 E-I core이다. 해석 형상은 59[mm], 109[mm]의 길이를 갖고 있고 공극 길이는 1[mm]부터 5[mm]까지 조절된다. 전류 밀도는 0.2[A/$mm^{2}$]이며 철심의 비투자율은 2,000이다. 해석 형상의 모습은 그림 4와 같다.

그림. 4. 해석 모델 형상

Fig. 4. The analysis model geometry

../../Resources/kiee/KIEE.2023.72.10.1149/fig4.png

2차원 형상에서 벡터 자기 포텐셜을 구하기 위한 지배 방정식은 (12)를 Ritz 방법을 통해 (5)의 형식으로 정리한 (13)과 같다.

(13)
$F(A_{z})=\int_{\Omega}\dfrac{1}{2\mu}|\nabla A_{z}(X)|^{2}-J_{z}A_{z}d X$

유한한 구역으로 차원을 나누어 안정적으로 답을 도출 가능한 기존의 유한요소해석법과 달리 신경망의 성질을 갖는 물리정보신경망은 모델 구조 및 전처리 방법 등에 의해 그 성능이 크게 변화한다. 이에 대한 경향 분석을 위해 평가되는 성능은 손실 함수 값의 크기, 정확도, 해석에 걸린 시간이다. 미분방정식의 해를 비교해 정확도를 계산할 때 유한요소해석 결과와의 오차를 이용한다. 정확한 비교를 위해 유한요소해석 출력의 허용 오차를 0.1[%]로 설정했다. 또한, 실질적인 성능 비교를 위해 공극에서의 자기 포텐셜의 평균 제곱근 오차를 정확도의 지표로 삼았다. 정확도를 계산하기 위한 식은 (14)와 같다.

(14)
$Error =\sqrt{\sum_{i=1}^{N}\dfrac{1}{N}\dfrac{(A_{FEM,\:airgap}^{(i)}-A_{P I N N,\:airgap}^{(i)})^{2}}{A_{FEM,\:average}^{2}}}\bullet 100$

(14)는 유한요소해석 출력과 물리정보신경망 출력의 오차를 비율로 나타내고 그 계산영역은 공극으로 제한된다. 해석 성능으로 사용되는 정보 중 하나는 해석 시간으로 한 번의 가중치 갱신을 나타내는 iteration의 소모된 시간을 평균 내어 계산한다.

물리정보신경망 학습을 위해 기울기 소실을 방지 가능한 ModRes Net등이 사용된다(8). 하지만 모델의 범용적인 성능 평가 및 해석 대상의 단순함을 고려해 모델 구조는 MLP(Multi-Layer Perceptron)로 제한한다. 물리정보신경망에 사용된 모델 구조는 그림 5와 같다.

그림. 5. 물리정보신경망의 구조

Fig. 5. Structure of PINN

../../Resources/kiee/KIEE.2023.72.10.1149/fig5.png

그림 5의 $J_{p}$는 손실 함수를 의미한다. 모든 학습에서 차이를 만들 수 있는 초기 가중치 설정 및 학습율은 고정되었다. 가중치는 입력 데이터 기반의 L2 정규화를 사용했고 학습율은 초기 값을 0.001로 설정하고 10,000[epoch]에 한번 씩 절반으로 감소시켰다.

3.1 파라미터 수 비교

물리정보신경망의 성능 증가를 위해 조절될 첫 번째 하이퍼 파라미터는 모델 파라미터의 수이다. 여기서 모델 파라미터는 모델에 사용되는 가중치 및 편향이다. 이는 해석될 형상에 따라 달라지지만 모델이 만족해야할 최소값은 실험을 통해 도출 가능하다. 조작될 파라미터는 MLP 은닉층의 뉴런 수와 은닉층수이다. 뉴런 수는 10에서 50까지 10의 간격으로 조절되며 은닉층수는 1에서 5까지 1의 간격으로 조절된다. 해석에 사용된 손실 함수는 (13)이며 데이터 수는 50,000개이다. 전처리는 입력 데이터와 출력 데이터의 최대값이 1이 되도록 설정했다. 최대 학습 반복수는 50,000으로 설정되었다. 이 실험 결과는 표 1그림 6과 같다. 표 1의 값은 유한요소해석결과와의 오차율을 의미한다.

그림 6의 NN은 은닉층 뉴런 수를 의미한다. 표 1 통해 뉴런 층수가 1개 일 때 그 성능이 뉴런 수 증가에 큰 영향을 받지 못한다는 것을 알 수 있다. 이는 (13)의 미분방정식이 단층 신경망으로 근사시킬 수 없는 함수임을 의미한다. 또한 은닉층수 증가와 뉴런 수 증가에 따른 성능 개선의 경향이 확인되었다. 딥 러닝 알고리즘의 모델 파라미터 수는 근사시킬 문제에 따라 그 적정수가 달라진다(17). 뉴런 수, 은닉층수 증가에 따른 성능 상승 경향은 표 1의 결과 중 가장 많은 파라미터 수를 갖는 뉴런 수 50, 은닉층수 5의 모델조차 충분하지 못한 파라미터 수임을 나타낸다.

표 1. 파라미터 수에 따른 모델 성능

Table 1. Performance according to the number of parameters

No. of

Neurons

Number of Hidden layers

1

2

3

4

5

10

91.42

84.90

34.81

16.86

15.67

20

84.27

74.49

16.85

13.04

9.33

30

84.18

57.34

15.02

11.51

8.53

40

84.01

69.61

16.24

9.57

7.10

50

85.96

59.89

12.83

9.87

6.96

그림. 6. 파라미터 수에 따른 모델 성능

Fig. 6. Performance according to the number of parameters

../../Resources/kiee/KIEE.2023.72.10.1149/fig6.png

물리정보신경망의 성능은 유한요소해석 결과와 (14)를 통해 계산된다. 물리정보신경망을 단독으로 사용할 때 이 데이터는 모델 성능 분석에 사용되기 어렵다. 따라서 손실 함수 출력과 표 1의 결과 사이의 관계성을 분석해 손실 함수를 성능 지표로 사용 가능한지 파악할 필요가 있다. 학습에 사용된 손실 함수는 미분항의 극값을 찾는 것을 목표로 하여 그 값이 작을수록 우수한 성능을 보이는 것으로 해석 가능하다. 손실함수 출력 값에 따른 모델의 성능은 비선형적이지만 파라미터 수를 기준으로 최소 신뢰 구간을 설정 가능하다. 모델 파라미터 수에 따른 손실함수의 값은 그림 7과 같다.

모델 파라미터 수 증가에 따른 성능 상승 경향이 확인될 경우 모델의 복잡성은 아직 근사시킬 미분방정식에 부족하며 손실함수의 출력은 비선형적이지만 유한요소해석 결과와 유사성을 갖는 경향을 보여준다. 학습에 소요되는 시간은 그림 8과 같다.

그림. 7. 파라미터 수에 따른 손실 함수 최소값

Fig. 7. Minimum loss function values

../../Resources/kiee/KIEE.2023.72.10.1149/fig7.png

그림. 8. 파라미터 수에 따른 학습 시간

Fig. 8. Training time according to number of parameters

../../Resources/kiee/KIEE.2023.72.10.1149/fig8.png

학습에 소요되는 시간은 기존 유한요소해석의 반복 해석에서의 시간문제를 해결하기 위한 전이학습기반 물리정보신경망의 자체 성능을 평가하기 위해 분석된다. 최종 목표는 전이 학습을 이용해 반복 해석에 소요되는 시간을 감소시키는 것이지만 모델 자체의 학습 시간이 짧아지는 것으로 그 성능은 더욱 우수해질 것 이다. 학습에 소요되는 시간은 파라미터 수 증가에 따라 크게 달라지지 않고 뉴런 수의 증가에 영향을 받는다. 이는 일반적인 학습에 사용되는 병렬연산처리에 의한 것이며 적은 파라미터의 학습은 리소스의 낭비로 이어진다. 이를 통해 본 논문에서 사용된 해석 형상의 전자계를 물리정보신경망을 이용해 해석을 할 때 모델 성능의 하향 경향을 확인하기 전까지 모델의 파라미터 수를 증가시키는 것이 해석 성능, 시간의 이점이 있음이 확인되었다. 그림 9는 은닉층수가 5일 때 각 뉴런 수에 따른 공극에서의 자속선 분포를 보여준다.

그림. 9. 은닉층 5에서의 공극 자속선 분포

Fig. 9. Airgap flux distribution in 5 hidden layer model

../../Resources/kiee/KIEE.2023.72.10.1149/fig9.png

3.2 전처리 방법에 따른 성능 비교

물리정보신경망에 영향을 주는 요소 중 하나는 전처리 방법이다. 기존의 신경망과 같이 전처리는 입력과 출력에 행해진다. 그 방법은 (6)과 같다. 표 2의 실험 결과는 입력의 최대값을 1로 설정하고 출력의 최대값을 1로 설정했을 때의 결과이다. 입력의 크기는 데이터의 편향과 관련되어 있지만 미분방정식의 특성상 공극과 같이 작은 위치 차이에도 큰 물리 정보의 차이가 있는 경우 작은 위치 차이를 나타낼 수 있는 큰 편향의 입력 데이터가 이점이 있을 수 있다. 또한 출력의 편향은 그 값이 너무 클 경우 모델의 학습 성능을 저하시킬 수 있지만 급격한 값 변화가 있는 구간에서 우수한 성능을 보일 수 있다. 물리정보신경망의 데이터 전처리에 따른 성능을 평가하기 위해 뉴런 수 50, 은닉층수 5개의 모델에서 50,000번의 학습이 진행되었다. 물리정보신경망의 출력 편향의 영향을 분석하기 위해 그림 4의 형상의 출력을 최대값 1, 5, 10으로 전처리한 뒤 학습했다. 그 결과는 표 2와 같다.

표 2. 전처리 수치에 따른 성능

Table 2. The performance according to the preprocessing range

Range

Minimum of loss

Accuracy

0-1

-14.25

9.3

0-5

-177.98

3.8

0-10

-598.55

16.8

각 출력값의 전처리에 따른 성능은 5를 기준으로 한 것이 가장 우수했으며 그 값이 10으로 증가되었을 때 감소한다. 일반적인 Min-Max 전처리는 기준값을 1로 만드는 것을 목표로 하지만 현재 해석 모델에서는 그 보다 큰 값에서 더욱 우수한 성능을 보였고 해석 형상의 크기에 따라 이 값을 고려하는 것이 타당하다. 그 다음 입력 데이터의 전처리에 따른 성능 평가를 위해 입력 최대값이 5이고 출력 최대값이 1로 설정한 모델을 해석했다. 그 결과는 표 3그림 10과 같다.

표 3. 최대값 5 전처리에서의 모델 성능

Table 3. Model performance in pre-processing with maximum value of 5

Number of layers

1

2

3

4

5

10

90.69

83.45

27.79

7.99

6.53

20

82.75

71.88

8.29

4.00

2.68

30

82.64

52.83

5.93

3.35

2.74

40

82.46

66.45

7.33

2.45

3.86

50

84.62

55.65

3.98

2.42

4.10

전처리 값에 따른 성능은 표 2의 경향과 같게 일정한 층수 이상부터 더욱 우수한 성능을 보였다. 또한 일정 성능을 갖는 기준이 은닉층수 3으로 동일하기 때문에 경향성을 분석할 수 있다. 그림 10을 통해 은닉층수 4, 뉴런 수 50에서 가장 우수한 성능을 보이는 것을 알 수 있다. 해당 모델 파라미터에서의 공극 자속선 분포는 그림 11과 같다.

그림. 10. 최대값 5 전처리에서의 모델 성능

Fig. 10. Model performance in pre-processing with maximum value of 5

../../Resources/kiee/KIEE.2023.72.10.1149/fig10.png

그림. 11. 우수 파라미터에서의 공극 자속선 분포

Fig. 11. Airgap flux distribution in best parameters

../../Resources/kiee/KIEE.2023.72.10.1149/fig11.png

표 3을 통해 전처리 값의 크기는 일반적으로 선택되는 1이 최선이 아님을 알 수 있지만 그 값이 너무 클 경우 성능을 하락시키는 것을 알 수 있다. 또한 입력의 전처리 수치는 모델 성능에 영향을 주지만 파라미터 수에 따른 성능 경향은 전처리 수치에 크게 영향을 받지 않다는 것이 확인되었다. 이러한 전처리 수치는 모델 성능에 영향을 미치는 하나의 조작 변수이기 때문에 전처리 값을 2에서 4까지 1씩 증가시켜 그 결과를 확인했다. 모델 파라미터는 우수한 성능을 보였던 은닉층수 4, 뉴런 수 50으로 설정했다. 그 결과는 전처리 수치 2일 때 3.98, 3일 때 2.42, 4일 때 2.75로 비선형적인 특징을 갖는다. 하지만 이는 전처리 수치 1에 비하면 우수한 수치로 전처리 수치 또한 모델 성능을 결정하는 중요 요소로 보인다.

3.3 활성화 함수 및 데이터 수에 따른 성능 비교

활성화 함수는 신경망의 뉴런이 입력에 따라 큰 값을 갖게 하는 것으로 모델의 분류 및 회귀 성능을 증가시키기 위해 사용된다. 일반적으로 극단적인 비선형성을 포함시켜 모델의 결정 경계를 비선형화 시킨다. 이를 위해 수많은 활성화 함수가 연구되고 있다(18). 이 활성화 함수는 적용 모델에 따라 그 성능이 크게 변화되며 실험을 통해 성능을 증명하는 것이 타당하다. 고장 진단 데이터 생성을 위한 PINN에 적합한 활성화 함수를 찾기 위해 (8)과 (9)의 성능이 비교된다. 또한 일반적으로 PINN 학습에 사용되고 있는 Tanh함수 및 ELU(Exponential Linear Unit)의 성능이 비교된다.

(15)
$$ \operatorname{Tanh}(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}} $$

(16)
$ELU(x)=\begin{cases} 1 & z>0\\ \alpha(e^{x}-1) & z\le 0 \end{cases}$

물리정보신경망의 손실 함수는 그 내부에 미분을 포함하고 있으며 이에 따른 입력 데이터에 대한 기울기가 소실될 가능성이 있다(8). (15)는 기존 시그모이드 함수의 단점을 해결한 방법이지만 고질적인 기울기 소실 문제를 가지고 있다(19). (9)는 (15)와 달리 기울기가 소실되지 않는 경계를 가지고 있지만 활성화 계층 출력이 0이 되는 것으로 모델이 더 이상 학습되지 않는 Dying ReLU 현상이 발생될 가능성이 있다. 반면에 (8), (16)은 (9)와 달리 Dying ReLU 현상이 발생할 가능성이 적다. 하지만 연산량 증가에 따른 학습 시간 증가가 발생된다. 활성화 함수에 따른 성능 분석을 위해 그림 1의 형상을 (9), (15), (16)을 활성화 함수로 사용해 데이터 50,000개, 은닉 층 뉴런 수 50, 은닉층수 5로 학습했다. 그 결과는 표 4와 같다.

표 4. 활성화 함수에 따른 모델 성능

Table 4. Model performances for activation function

Activation Function

ReLU

Tanh

ELU

Error [%]

83.8

21.7

98.4

활성화 함수에 따라 그 성능은 매우 크게 변화되고 (9), (16)의 경우 정상적인 학습이 되지 않음을 알 수 있다. 이를 통해 미분방정식의 해를 찾는 물리정보신경망의 학습은 기울기 소실 및 활성화 계층의 비활성화가 발생되지 않는 함수를 쓰는 것이 적절할 것으로 예상된다.

유한요소해석의 성능은 적절한 메쉬 수에 의해 결정된다. 이는 공극과 같이 물리정보의 변화가 급격한 영역 등에 더욱 밀도 높은 메쉬를 요구하는 것을 의미한다. 하지만 물리정보신경망은 메쉬를 사용하지 않고 형상의 좌표를 임의로 사용 가능하다. 학습에 사용되는 데이터 수는 성능에 큰 영향을 주지만 이 수가 커지면 커질수록 학습에 요구되는 시간이 증가된다. 따라서 신경망 학습은 전체 데이터를 사용하는 것보다 일부 데이터를 이용하는 Mini Batch(MB)가 사용된다. MB의 크기가 너무 작다면 각 데이터에 대한 영향을 모두 고려할 수 있지만 이상치에 의해 최적화 탐색 경로를 벗어날 수 있다. 반대로 이 값이 너무 크다면 손실 함수의 출력이 안장점에서 벗어나지 못하는 local minimum이 발생될 수 있다. 학습 속도와 학습 성능에 적절한 배치 크기를 결정하기 위해 신경망에 사용되는 데이터의 배치 크기에 따른 성능이 평가된다. 그 평가 지표는 유한요소해석 결과와의 오차와 학습 1회 반복에 소요되는 시간이다. 해석에 사용된 모델 파라미터는 은닉층수 5, 뉴런 수 50이며 전처리 범위는 최대값 5이다. 유한요소해석에 사용된 데이터는 30,000개이며, 그 결과는 표 5와 같다.

표 5. 데이터 수에 따른 모델 성능

Table 5. Performance according to the number of data

No. of data

Error [%]

Learning time [s]

10,000

8.5

0.043

30,000

7.2

0.044

50,000

0.5

0.044

병렬 연산에 이점을 갖는 GPU를 이용한 학습에서 가장 큰 시간 소모는 데이터를 연산 장치에 전송하는 과정에서 발생된다. 즉, 연산 시간은 학습을 위한 연산 시간보다 데이터를 전송하는 시간이 더욱 크다. 이를 통해 학습 시간을 비교한다면 데이터의 수가 커질수록 긴 시간이 요구됨을 알 수 있다. 하지만 데이터의 성능은 MB의 크기가 커질수록 우수해짐을 알 수 있다. PINN은 정해진 영역 내의 모든 지점에서 지배방정식을 만족하는 해들을 찾는 것이며 데이터 수의 증가는 학습에 이점을 주는 것을 알 수 있다. PINN의 이러한 특성을 활용해 유한요소해석과 같이 공극 및 경계영역에서 더욱 많은 데이터를 추가해 그 데이터의 성능을 평가한다. 전체 영역에 균일하게 분포된 데이터가 아닌 균일하게 분포된 데이터에 영역 경계 별 데이터를 10,000개 추가시켜 학습했다. 경계 영역의 데이터를 추가시켰을 때의 오차는 1.98[%]로 표 3의 최고 성능인 2.42[%] 보다 우수하다. 공극 또는 다른 재료와 맞닿아 있는 영역의 데이터를 추가하는 것은 모델의 성능을 증가시키는 요인 중 하나로 해석 가능하다. 이를 통해 PINN 학습에 요구되는 데이터의 수는 유한요소해석에 비해 많지만 학습에 사용되는 GPU의 특성에 의해 그 차이가 크게 영향을 주지 못함이 확인되었으며 경계 영역의 데이터를 추가하는 것이 현 해석 형상에서는 이점이 있음을 알 수 있다.

3.4 형상 변화 대처 성능 평가

물리정보신경망이 기존 유한요소해석에 비해 이점을 갖는 부분은 전이학습을 통한 형상 변화에 대한 대처 성능이다. 이를 증명하기 위해 그림 4 형상의 공극을 1[mm]에서 5[mm]로 변경하며 모델을 학습시켰다. 전이 학습을 위해 초기 학습된 모델은 공극 1[mm]의 형상이며 3.1에서 3.3까지의 실험 결과를 토대로 모델 파라미터를 은닉층수 5, 뉴런 수 50으로 설정하고 전처리는 최대값이 5가 되도록 설정했다. 활성화 함수는 (8)이며 경계 영역의 데이터 수를 전체 영역의 10%가 되도록 설정하고 MB의 크기는 50,000으로 설정했다. 전이 학습은 그림 3의 순서로 공극 1[mm]를 학습한 모델의 가중치를 초기 가중치로 하고 공극의 길이가 변화된 형상을 학습하는 것으로 구현되었다. 초기 학습에 요구되는 학습 반복수는 평균 50,000이였기 때문에 전이 학습의 성능을 평가하기 위해 학습 반복수를 10,000으로 제한했다. 이에 대한 실험 결과는 표 6과 같다.

표 6. 전이 학습 성능

Table 6. The performance of transfer learning

Airgap [mm]

2

3

4

5

Error [%]

2.13

2.78

1.66

1.87

표 6을 통해 물리정보신경망의 전이 학습 가능성이 확인되었다. 유사한 형상의 학습을 통해 초기 가중치를 구하는 제안된 방법이 사용되지 않을 경우 학습에 소요되는 평균 반복수는 50,000이지만 전이학습을 통해 학습 반복수를 10,000으로 감소 가능하다. 이는 형상 변화에 따른 반복 학습이 요구되는 고장 진단 데이터 생성에 매우 긍정적인 영향을 준다. 그림 12는 공극길이 3[mm]에서의 유한요소해석 결과와 물리정보신경망 해석 결과를 보여준다.

그림. 12. 전이 학습 결과

Fig. 12. Results of the transfer learning

../../Resources/kiee/KIEE.2023.72.10.1149/fig12.png

4. 결 론

본 논문에서는 기존 유한요소해석의 반복 해석에 요구되는 시간을 감소시키기 위한 전이학습기반 물리정보신경망이 연구되었다. 물리정보신경망의 전이 학습 개념은 형상이 변화되는 상황에 좋은 성능을 보였다. 또한, 신경망의 성능을 증가시키 위한 하이퍼 파리미터에 따른 성능 변화를 분석했다. 모델 파라미터는 성능의 하향 경향이 나오기 전까지의 복잡도가 적절하며 본 논문에서 해석된 형상에서의 활성화 함수는 SiLU가 가장 적절했다. 전처리 수치는 일반적으로 사용되는 최대값 1이 아닌 곳에서 우수한 성능을 보였고 전처리 수치 또한 하이퍼 파라미터임을 확인했다. 또한, 물리정보신경망 학습에 요구되는 데이터 수는 유한요소해석에 비해 많지만, GPU의 연산 특성에 의해 그 수준 차이가 크지 않으며 경계 영역의 데이터를 추가하는 것의 이점이 있다. 모델 파라미터 수, 전처리 수치, 데이터 수 및 활성화 함수의 영향에 대해 연구되었으며 절대적인 수치가 될 수 없지만 일반적인 경향을 파악 가능했다. 이는 물리정보신경망 분야의 전체적인 성숙도 증가를 위한 기초 연구로서 최적화 분야에 적용 가능성을 보여줄 수 있을 것으로 기대된다. 또한, 최적화 분야뿐만 아니라 잦은 형상 변화가 요구되는 고장 진단 데이터 생성 분야에도 적용 가능할 것으로 예상된다.

Acknowledgements

This research was supported by Korea Electric Power Corporation. [Grant number : R21XO01-14].

References

1 
Bouzid Ait-Amir, Pougnet Philippe, , 2020, Meta-model development, Embedded mechatronic systems 2. ISTE, pp. 157-187DOI
2 
Lening Wang, 2020, Meta-modeling of high-fidelity FEA simulation for efficient product and process design in additive manufacturing, Additive Manufacturing 35 (2020): 101211.DOI
3 
Weiss, Karl, M. Khoshgoftaar Taghi, 2016, A survey of transfer learning, Journal of Big data 3.1, pp. 1-40DOI
4 
Li Yang, Shami Abdallah, 2020, On hyperparameter optimization of machine learning algorithms: Theory and practice, Neurocomputing 415, pp. 295-316DOI
5 
Răzvan Andonie, 2019, Hyperparameter optimization in learning systems, Journal of Membrane Computing 1.4, pp. 279-291DOI
6 
Ji-Hoon Han, 2020, Hyperparameter optimization using a genetic algorithm considering verification time in a convolutional neural network, Journal of Electrical Engineering & Technology 15, pp. 721-726DOI
7 
Abbas Omidi, 2021, An embedded deep learning-based package for traffic law enforcement, Proceedings of the IEEE/CVF international conference on computer visionGoogle Search
8 
Beltrán-Pulido, Andrés, Bilionis Ilias, Aliprantis Dionysios, 2022, Physics-informed neural networks for solving parametric magnetostatic problems, IEEE Transactions on Energy Conversion 37.4, pp. 2678-2689DOI
9 
Hesheng Tang, 2022, A transfer learning-physics informed neural network (TL-PINN) for vortex-induced vibration, Ocean Engineering 266, Vol. 113101DOI
10 
Nabian Mohammad Amin, Gladstone Rini Jasmine, Jasmine Meidani Hadi, 2021, Efficient training of physics‐informed neural networks via importance sampling, Computer‐Aided Civil and Infrastructure Engineering 36.8, pp. 962-977DOI
11 
Shengze Cai, 2021, Physics-informed neural networks for heat transfer problems, Journal of Heat Transfer 143.6, Vol. 060801DOI
12 
Sho Sonoda, Murata Noboru, 2017, Neural network with unbounded activation functions is universal approximator, Applied and Computational Harmonic Analysis 43.2, pp. 233-268DOI
13 
Busse Christian, P. Kach Andrew, M. Wagner Stephan, 2017, Boundary conditions: What they are, how to explore them, why we need them, and when to consider them, Organizational Research Methods 20.4, pp. 574-609DOI
14 
D. H. Weinstein, 1934, Modified Ritz method, Proceedings of the National Academy of Sciences 20.9, pp. 529-532DOI
15 
S. G. O. P. A. L. Patro, Kumar Sahu. Kishore, 2015, Normalization: A preprocessing stage, arXiv preprint arXiv:1503.06462DOI
16 
Lisa Torrey, Shavlik Jude, 2010, Transfer learning, Handbook of research on machine learning applications and trends: algorithms, Vol. methods, No. and techniques. igi global, pp. 242-264DOI
17 
Misha Denil, 2013, Predicting parameters in deep learning, Advances in neural information processing systems 26Google Search
18 
Ramachandran Prajit, Zoph Barret, V. Le. Quoc, 2017, Searching for activation functions, arXiv preprint arXiv:1710.05941DOI
19 
David L. Elliott, 1993, A better activation function for artificial neural networks, 1993Google Search

저자소개

한지훈(Ji-Hoon Han)
../../Resources/kiee/KIEE.2023.72.10.1149/au1.png

He obtained his B.S and M.S in Digital Control Engineering from Hoseo University, Korea in 2019 and 2021.

Currently, he is pursuing the Ph.D in Information Control Engineering from Hoseo University, Korea, His research interests include deep learning and motor control

최의진(Eui-Jin Choi)
../../Resources/kiee/KIEE.2023.72.10.1149/au2.png

He obtained his B.S in Digital Control Engineering from Hoseo University, Korea in 2023.

Currently, he is pursuing the M.S in Information Control Engineering from Hoseo University, Korea, His research interests include deep learning and IoT system

홍선기(Sun-Ki Hong)
../../Resources/kiee/KIEE.2023.72.10.1149/au3.png

He received the B.S., M.S. and Ph. D degrees in Electric Engineering from Seoul University, Korea in 1987, 1989 and 1993, respectively.

He joined Hoseo University, in 1995, where he is currently a Full Professor with the Department of System and Control Engineering.

His research interests include hysteresis motor analysis, electric motor analysis and design, motor fault diagnosis, servo motor control, converter and inverter design, deep learning and IoT.