1. 서 론
전력 반도체는 다방면의 산업에서 전력 제어를 위해 오프 상태(off-state)에서 높은 Breakdown Voltage(BV)를 통해 전류가 흐르지
못하게 고전압을 저지할 수 있어야 한다. 또한 온 상태(on-state)에서는 전력손실을 최소화하여 높은 효율로 전류가 잘 흐를 수 있도록 on-resistance($R_{ON}$)가
작아야 한다. power MOSFET은 낮은 $R_{ON}$을 통해 효율적으로 빠른 스위칭 작용을 구현하고 큰 전력을 제어하기에 전력공급장치나 모터,
제어시스템 등 많은 곳에서 사용된다. 그러나 power MOSFET은 BV와 $R_{ON}$사이의 트레이드 오프 관계로 인해 높은 BV를 달성하기
위해서는 $R_{ON}$도 함께 급격하게 증가하므로 그 한계가 명확하다. Superjunction MOSFET(SJ-MOSFET)은 기존 전력 MOSFET에서
Superjunction(SJ)이론을 사용하여 만든 전력 반도체이다. SJ-MOSFET은 수직으로 된 P-pillar영역과 N-pillar영역의 전하
보상 구조를 번갈아 사용하는 SJ 구조를 통해 뛰어난 Breakdown Voltage(BV) 증대와 더 낮은 on-resistance($R_{ON}$)으로
기존 실리콘 전력 반도체의 한계를 극복한 전력 반도체이다 (1). SJ-MOSFET은 기존 MOSFET과 비교하여 더 높은 drift영역의 도핑 농도로 더 낮은 $R_{ON}$을 가지고 있으며, 각 pillar간의
전하 균형을 통한 균일한 전계 분포로 인해 더 높은 BV를 달성하면서 장치를 더 얇게 만들 수 있다 (2). 그러나 이 SJ 구조는 여러번의 식각 공정과 식각한 부분을 채워넣는 deep trench filling 기술이 필요하며, 정교한 이온 임플란트
공정이 필요하기 때문에 공정상의 구현이 어렵다. 이러한 이유로 얇은 pillar 크기와 균일한 도핑 농도를 가지는 SJ 구조를 제작하려면 공정의 난이도와
비용 또한 증가하게 된다. 그래서 이러한 SJ 구조를 최적화 하는 것을 목표로 많은 연구가 진행되어 왔다 (3-5).
전력용 반도체는 지금까지 여러 산업에 다용도로 이용되었다. 최근에는 배터리와 같은 기술의 발전으로 의해 전기자동차 산업이 급성장함에 따라 전력 반도체의
수요가 기하급수적으로 증가하고 있는 상황이지만, 그에 반해 공급량이 부족하여 전력용 반도체 수급난을 겪고 있다. 이를 해결하기 위해서는 전력용 반도체의
제조 과정의 여러 프로세스를 줄이고 효율적으로 생산하여야만 한다. 이와 같은 과정을 해결하기 위한 방법 중 하나가 머신러닝을 이용한 방법이다. 4차
산업혁명 시대에 접어들면서 양산되는 반도체의 성능에 의존하기보다는, 딥러닝, AI, 자율주행과 같이 요구되는 성능에 맞게끔 맞춤형 반도체를 생산하려는
바람이 불고 있다. AI 및 딥러닝용 반도체인 Google사의 TPU, AWS사의 Inferentia 등을 예로 들 수 있는데, 현재는 AI 반도체
분야에 집중되어 있지만 전력 반도체 또한 이러한 흐름으로 이어질 것으로 예상된다. 이러한 양상이 지속되면 반도체 생산 기업에서는 대규모 양산보다는
다품종 소량 생산에 포커스를 맞추게 될 수밖에 없다. 타겟팅 되는 장비에 맞는 새로운 반도체 생산에 직면하였을 때에는 많은 시간과 비용이 불가피하게
요구된다. 하지만 기존의 데이터를 가지고 새로운 공정조건을 머신러닝을 통해 빠른시간 내에 예측 가능하다면, 자원의 낭비 없이 효과적으로 빠른 생산이
가능해질 것으로 예상된다. 최근 몇 년간 머신러닝 기술이 비약적으로 발전하여 효과적인 예측이 가능해지고 정확도 또한 증가하였다. 또한, CPU, GPU,
DRAM 등의 하드웨어도 또한 급격하게 발전하고 클라우드 서버 시스템에서의 머신러닝도 가능해지면서 하드웨어의 리소스 관리로 인한 문제점들이 거의 사라지게
되었다. 이러한 발전을 토대로, 현재 기업 및 학계에서도 반도체의 구조 및 도핑 최적화, 신뢰성 예측 기술, 공정 변동 효과 예측 등 머신러닝 기반의
예측 기술이 활발하게 연구중이다 (6-9).
SJ 구조에서 도핑 농도의 전하 균형을 맞추는 관점은 상당히 중요하다. 각 pillar의 도핑 농도 밸런스를 맞추어야 균일한 전기장이 생성되고, 그로
인해 높은 BV를 달성할 수 있기 때문이다. 그러나 N-pillar와 P-pillar의 전하 불균형 최적화 부분에는 많은 연구(10-14)가 있었기에, 도핑농도 변화는 제외하고 구조적인 길이 변화의 데이터로 머신러닝을 통해 최적화하는 것을 논문의 목표로 삼았다. 이와 같은 연구를 위해
SJ-MOSFET의 Drift Height(DH), Pitch, Gate Length(Lg) 3가지의 공정 조건을 변화시켰을 때에 전력반도체의 $R_{ON}$과
BV에 대한 분석을 진행하였다. 본 논문에서는 Kaggle 및 데이터 경진대회 플랫폼에서 검증된 알고리즘인 eXtreme Gradient Boosting(XGBoost)와
Light Gradient Boosting Machine(LightGBM) 두 가지의 알고리즘의 머신러닝 예측을 비교, 분석하였다. 부스팅 계열의
알고리즘인 XGBoost와 LightGBM은 분류기들을 순서대로 적용하여 앞선 분류기가 틀리는 문제를 뒤쪽 분류기에서 더 집중하여 학습할 수 있도록
함으로써 보다 높은 정확도를 얻을 수 있다는 장점이 있다.
2. 본 론
Superjunction MOSFET(SJ-MOSFET)의 공정조건의 변화에 의한 특성 변화의 데이터는 Synopsys사의 Sentaurus technology
computer-aided design(TCAD) 시뮬레이션을 이용하였다 (15). 시뮬레이션에 사용된 물리 모델은 Mobility (DopingDependence HighFieldSat Enormal), EffectiveIntrinsic-Density
(OldSlotboom), Recombination (SRH (DopingDependence TempDependence), Auger, Avalanche이
사용되었다. 그림. 1 에서와 같이 총 3가지의 길이 변화를 주었고, 데이터의 개수는 DH(Drift Heights), Pitch, Lg(Gate
Length) 각각 5개, 7개, 6개로 5x7x6=210개의 데이터가 사용되었다. eXtreme Gradient Boosting (XGBoost)패키지의
사이킷런 API는 XGBRegressor가 사용되었고, Light Gradient Boosting Machine (LightGBM)패키지의 사이킷런
API는 LGBMRegressor가 사용되었다. XGBoost 와 LightGBM 모두 훈련 데이터 세트(train data set)는 70%, 테스트
데이터 세트(test data set)는 30%로 각각 147개, 63개로 나누어 학습하였다. XGBoost 와 LightGBM을 비교하기 위해 전체
학습에서 공통되는 하이퍼 파라미터들은 random_state=70으로 사용하였으며, n_estimators=400, learning_rate=0.04,
max_depth=4 로 사용하였다.
그림 1(a)에서는 SJ-MOSFET의 구조와 도핑농도를 나타내었고, 우측 하단에는 머신러닝 시에 사용한 210개의 데이터셋의 파라미터 변화에 대한 표를 나타내었다.
우측 하단 표에서 DH 는 38~46$\mu m$, Pitch 는 5.7~6.3$\mu m$, Lg 는 2.8~3.3$\mu m$으로 데이터를 분할하였고
각각 5, 7, 6개의 데이터로 총 5x6x7=210개의 데이터를 추출하였다. 그림 1(b)에서는 SJ-MOSFET 구조체의 단면도를 나타내었다.
그림 1의 SJ-MOSFET은 상부 표면에 gate가 존재하고 그 양 옆으로 2개의 source가 존재한다. 하부에는 drain이 존재하여 수직 구조(vertical
structure) 형태로 구성되어 있다. SJ-MOSFET은 source 주변에 p형 도핑된 P-well이 존재하여 턴 온(turn-on) 상태일
때 gate 바이어스에 의해 P-well이 반전(inversion)되고 전자는 반전된 P-well을 지나 2개의 N-pillar를 통해 수직으로 하단의
drain으로 흐르게 된다. 반대로 턴 오프(turn-off) 상태에서는 인가되는 역방향 전압에 의해 수직 방향으로 확장되는 공핍영역을 갖는다. 공핍
영역에 의하여 SJ-MOSFET의 BV가 결정된다.
그림 1(a)의 구조에서 X축 방향인 Drift Height(DH)가 길어지면 전하 보상이 이루어지는 공핍영역이 길어지므로 BV가 증가하지만, 두꺼운 epi 두께로
인해 drift 영역의 저항이 증가하므로 결과적으로 $R_{ON}$ 또한 증가한다. P-pillar와 N-pillar가 번걸아 가면서 만들어 지는
구조의 폭인 Y축 방향의 Pitch가 커지면 drift 영역의 단면적이 커지므로 더 많은 전류가 흐를 수 있기 때문에 $R_{ON}$이 작아지는 경향성을
보인다. 그림 1에서 Pitch는 한쪽 방향만 표시하였지만, 점선을 기준으로 대칭 구조이므로 반대쪽에도 동일하게 Pitch가 증가한다. Lg의 경우, 일반적인 MOSFET은
Lg가 증가하면 channel의 길이가 증가하는 것과 거의 동일하므로 $R_{ON}$이 증가한다. 그러나 본 연구에서 사용되는 SJ-MOSFET은
그림 1(b)에서 보여지듯 Lg가 channel의 길이와 동일하지 않다. Lg의 증가는 channel의 길이 변화에 영향을 어느정도 미치지만, 그 길이의 비율이
작아 channel의 길이 변화에 큰 영향을 미치지 않는다. 반면에 Lg 가 증가하면 Z축인 Pitch의 수직 방향으로 너비가 증가하는 것과 동일하게
즉, Lg가 증가하는 만큼 drift 영역의 단면적이 넓어지므로 $R_{ON}$이 감소하게 된다. Lg가 증가하였을 때 channel 길이 변화가
주는 영향보다 drift 영역의 단면적이 증가하여 $R_{ON}$이 감소하는 영향이 더욱 지배적이다. $R_{ON}$의 감소는 SJ-MOSFET의
트레이드 오프 관계이므로 BV의 감소도 동일하게 일어난다. 위와 같이 머신러닝 데이터를 위한 파라미터 변화는 도핑 농도 변화 없이 각 pillar의
면적 및 부피를 동일하게 가져가면서, 전하 균형을 변화시키지 않는 상태에서의 파라미터이다.
그림 2는 그림 1에서의 210개의 데이터를 모두 드레인전류-드레인전압(Id—Vd) 전달특성으로 나타내었다. (a) 그림에서는 드레인 전압을 0V에서 10V 까지 증가시켜
$R_{ON}$에 대한 값을 추출하였다. (b) 그림에서는 드레인 전압을 0V에서 10000V 까지 증가시켜 550~700V 의 BV를 추출하였고,
그림에서는 750V 까지만 나타내었다. 이러한 과정을 통해 TCAD로 그림 2와 같이 $R_{ON}$과 BV를 위한 2가지의 빅데이터로 나누어 생성하였다. 이 빅데이터를 각각 LightGBM과 XGBoost에 적용시켰다.
그림. 1. Superjunction metal oxide semiconductor field effect transistor (SJ-MOSFET)
TCAD 시뮬레이션의 (a) 도식도 및 파라미터 변화표, (b) N-pillar(drift region) 부분의 단면도
Fig. 1. (a) Schematic and parameter variation table, (b) Cross section of N-pillar
(drift region) of Superjunction metal oxide semiconductor field effect transistor
(SJ-MOSFET) TCAD simulation.
그림. 2. 드레인 전류-드레인 전압 전달 특성. (a) $R_{ON}$ (on-resistance) (b) BV (breakdown voltage)
추출
Fig. 2. Drain current-Drain Voltage(Id-Vg) transfet characteristics : $R_{ON}$ (on-resistance)
(b) BV (breakdown voltage) extraction
그림 3는 (a)에서 머신러닝의 데이터 분할, 훈련 및 테스트 과정을 나타내었다. TCAD 데이터를 훈련 데이터 70%, 테스트 데이터 30%로 무작위로
분할하여 70%의 데이터만 훈련시킨 뒤, 그 결과를 나머지 30%의 테스트 데이터와 비교하는 방식으로 진행하였다.
그림 3(b), (c)는 XGBoost와 LightGBM 각각의 트리 성장 방식을 나타내었다. XGBoost의 트리 분할 방식은 수준별 의사 결정 트리 성장(level-wise
tree growth) 방식으로 최대한 균형 잡힌 트리를 유지하면서 분할하기에 트리의 깊이를 최소화한다. 그러나 LightGBM의 트리 분할 방식은
리프별 의사 결정 트리 성장(leaf—wise tree growth) 방식으로 트리의 균형을 맞추지 않고, 리프 노드를 지속적으로 분할하면서 트리의
깊이가 깊어지고 비대칭적인 트리가 생성된다.
그림 4는 Input 데이터에 대한 머신러닝 결과값 $R_{ON}$, BV의 데이터 210개를 70%의 양으로 훈련시킨 후, 30%로 예측을 확인한 데이터의
일치 정도를 시각적으로 나타낸 그림이다. X축은 TCAD의 시뮬레이션 데이터를, Y축은 머신러닝의 예측한 데이터를 의미한다. 빨간 선은 머신러닝 예측에
대한 기준선이며, 파란 삼각형 모양의 데이터 분포가 빨간 선에 일치할수록 데이터 예측도가 높은 것으로 판단할 수 있다. 그림 4의 (a), (c) 그림은 XGBoost의 BV와 $R_{ON}$을, (b), (d) 그림은 LightGBM의 BV와 $R_{ON}$을 나타내었다.
XGBoost의 데이터는 TCAD 데이터와 Predict 데이터가 LightGBM에 비해 비교적 일치하는 모양을 보인다. 반면, LightGBM의
데이터는 Prediction과 TCAD 데이터 사이에 정확도가 떨어지는 것을 그림 3에서 빨간 선과 데이터 분포의 일치정도를 통해 확인할 수 있다. 특히 $R_{ON}$에 대해서는 데이터가 상당히 불규칙적으로 빨간 선과 벗어난 부분이
많게 분포되어 있음을 확인할 수 있다. 실제로 머신러닝에서 오차율을 확인하였을 때, 그림 4의 (d)를 제외하고는 모두 오차율이 3% 이내인 것을 확인하였다. (d)의 경우 오차율이 약 12% 정도 나타나는 것을 확인하였는데, LightGBM의
특성상 적은 데이터에서 과적합이 쉽게 일어나게 되기 때문이다. 이러한 오차율은 70%의 데이터를 훈련시킨 후, 나머지 훈련되지 않은 30%의 데이터와
비교하여 잘 예측이 되는지를 판단하는 과정으로 오차율이 수치로 나타난다. 그림 4에서의 빨간 선과 파란 점들의 불일치 정도를 계산하여 평균을 낸 값을 MAE(Mean Absolute Error)라고 한다. 그 MAE를 각각 퍼센트로
나타내었다. 그렇게 나타낸 오차율은 XGBoost-BV는 0.047%, XGBoost-$R_{ON}$은 2.718%, LightGBM-BV는 0.376
%, LightGBM-$R_{ON}$은 12.417%로 나타났다. 이러한 오차율을 토대로 분석하였을 때, XGBoost가 LightGBM보다 낮은
MAE 및 오차율을 보였다. MAE 및 오차율을 구하는 수식은 다음과 같다.
여기서 n은 데이터의 개수, $Y_{actual}$는 실제 TCAD 출력값, $Y_{predicted}$는 머신러닝으로 예측한 출력값이다.
오차율은 데이터의 평균값에서 MAE 만큼의 비율으로 계산하였다.
그림. 3. (a) 머신러닝의 데이터 분할, 훈련 및 테스트 과정, (b) 수준별 트리 성장 방식의 XGBoost 및 (c) 리프별 트리 성장 방식의
LightGBM 의 순서도
Fig. 3. Flowchart of (a) Data partitioning, training and testing in Machine Learning
(b) level-wise tree growth of XGBoost and (c ) leaf-wise tree growth of LightGBM
그림. 4. TCAD 데이터와 머신러닝 예측 결과 데이터 분포 : (a) XGBoost-BV, (b) XGBoost-BV (c) XGBoost-$R_{ON}$,
(d) LightGBM-$R_{ON}$
Fig. 4. Distribution of TCAD data and machine learning prediction result data : (a)
XGBoost-BV, (b) XGBoost-BV (c) XGBoost-$R_{ON}$, (d) LightGBM-$R_{ON}$
XGBoost와 LightGBM은 둘 다 Gradient Boosting Decision Tree(GBDT)를 기반으로 하는 알고리즘이다. 그러나
XGBoost와 LightGBM과의 차이점은 XGBoost 는 미리 정렬된 의사 결정 트리 알고리즘을 사용하는 반면, LightGBM은 히스토그램
기반 의사 결정 트리 알고리즘을 사용한다는 것이다.
그림 3(a), (b)에서 나타나듯 XGBoost는 수준별 의사 결정 트리 성장(level-wise tree growth) 전략을 사용하는 반면 LightGBM은 리프별
의사 결정 트리 성장 방식(leaf-wise tree growth) 알고리즘을 사용한다
(16-17). 이러한 리프 중심 트리 분할 알고리즘으로 인하여 LightGBM과 같은 경우, 10000개 이상의 많은 데이터에서 굉장히 빠르며 정확도가 높지만
적은 데이터로 진행하는 경우 과적합이 발생하기 쉽다. 반면 XGBoost에서는 과적합 규제 기능이 있어 과적합에 강한 내구성을 가지고, 적은 데이터로도
정확한 결과를 낼 수 있다. 실제 마이크로소프트 대회에서도, 상위 3개의 팀이 모두 XGBoost를 사용하여 한정된 데이터와 적은 시간으로 높은 정확도를
높이는 것을 입증한 사례가 있다
(18).
그림. 5. 머신러닝을 통한 길이 변화의 중요도 분석
Fig. 5. Analysis of the importance of length change through machine learning
그림 5는 XGBoost의 $R_{ON}$과 BV, LightGBM의 $R_{ON}$과 BV의 머신러닝 학습에서의 중요도(importance)를 나타내었다.
가장 왼쪽부터 검정막대는 XGBoost를 통해 $R_{ON}$을 학습 하였을 때, 빨간막대는 LightGBM을 통해 $R_{ON}$을 학습하였을 때,
파란 막대는 XGBoost를 통해 BV를, 초록막대는 LightGBM을 통해 BV를 학습하였을 때의 중요도를 막대 차트로 나타내었다. 중요도는 파이썬
인터페이스에서 feature importance를 API로 제공하여 데이터셋 각 변수의 막대차트로 보여준다. 이 중요도는
그림 3(b), (c)의 트리의 분할 과정에서 특정 feature가 트리를 분할하는 데 얼마나 기여를 했는지에 따라 결정된다. 트리는 ‘정보이득량’ 을 기준으로 분할하게
되는데, ‘정보이득량’ 이 가장 높은 feature를 선택하여 트리를 분할하고 중요도에 반영하게 된다. 정보 이득량은 아래 수식에 의해 계산된다.
여기서 Entropy는 아래 식과 같이 계산된다.
p는 각 클래스의 비율과 같다.
중요도를 계산 결과 가장 높은 중요도를 나타낸 것은 XGBoost의 BV를 결정하는 요인 중 하나인 Pitch이다. 가장 높은 중요도는, 파라미터를
변경시켰을 때에 결과값이 가장 많이 변하는 파라미터 값이라는 의미이다. 50% 넘는 중요도를 가지고 있으며 LightGBM의 BV에서도 Pitch가
가장 높은 중요도를 나타낸다. 반면에 $R_{ON}$과 같은 경우 XGBoost에서는 BV와 마찬가지로 Pitch가 가장 큰 영향 요인이었지만, LightGBM에서는
Pitch보다 DH가 약 6% 가량 중요도가 높게 나타났다. 그러나 위의 그림 4(d)에서 확인한 바와 같이 오차율이 높은 수치이므로, LightGBM의 importance보다는 XGBoost의 신뢰성이 더욱 높다. 결과적으로 SJ-MOSFET의
BV와 $R_{ON}$을 결정하는 가장 큰 요인은 Pitch로 확인된다. 이러한 머신러닝을 통한 중요도 분석은 간단하게 막대 차트(%) 형태로 나타내는
파이썬 인터페이스 API를 통해 전력 반도체의 전문가가 아니더라도 반도체 공정 빅데이터에 대해 어느정도의 통찰을 가질 수 있게 하며, 전문가의 경우에도
수많은 데이터를 한꺼번에 분석하기에 용이하다.
TCAD와 머신러닝에 이용된 하드웨어는 데이터 210개를 TCAD 시뮬레이션으로 추출하는데에 1개 당 평균 44863초, 약 12시간 정도 걸렸다.
전체 데이터 추출시간은 약 2520시간이 소요되었으며, 이를 일수로 환산하면 105일 정도이다. TCAD 시뮬레이션은 반도체 소자의 메쉬에 따라 각각의
메쉬마다 여러 물리적 모델들을 적용하여 전자 및 정공의 밀도, 흐름, 산란 등을 계산하며, 일함수와 같은 파라미터나 전기장에 따라 에너지 밴드의 변화도
고려되어 굉장히 복잡한 계산과정을 거쳐 오랜 시간에 걸쳐 계산된다. 또한, 3D 형태의 전력 반도체의 경우 TCAD 내에서 나노미터 단위의 반도체
소자보다 메쉬의 크기는 크지만, 소자의 크기가 마이크로미터 단위로 수백 배 이상 소자의 크기가 크므로 메쉬의 수가 무수히 많아 더욱 오랜 시간이 소요된다.
그러나 보유하고 있는 데이터를 가지고 머신러닝을 활용하면, 오랜 시간이 소요되는 복잡한 계산의 TCAD 시뮬레이션 없이도 최적화된 반도체 공정 조건을
찾아낼 수 있다. 머신러닝 활용 시에 머신러닝으로 만든 모델로 원하는 조건을 찾는 계산에 걸리는 시간은 평균 2초 이내이다. TCAD의 복잡한 계산없이
현재 머신러닝으로 만든 모델으로 2초 이내에 원하는 BV와 최적의 $R_{ON}$을 가지는 SJ-MOSFET의 Pitch, DH, Lg parameter의
3가지의 조건을 쉽게 찾아낼 수 있다.