1. 서 론
생물학적 공정은 미생물 및 생체 촉매를 이용하여 물질을 변환하는 기술로, 하수처리, 바이오에너지 생산, 폐기물 관리 등 다양한 산업에서 핵심적인
역할을 한다. 이러한 공정은 본질적으로 복잡하며, 효율성과 지속 가능성을 보장하기 위해 세심한 관리가 필요하다. 다년간 축적된 지식과 경험을 갖춘
전문가들은 이러한 시스템을 관리하는 데 있어 핵심적인 역할을 한다. 그러나 생물학적 공정의 운영 최적화는 여전히 전문가의 직관과 경험에 크게 의존하고
있으며, 이들의 의사결정 과정은 체계적으로 문서화 되거나 데이터 기반으로 분석되지 않는 경우가 많다. 또한, 운영 전문가의 사업장이 변동되는 경우
원수 수질의 차이가 발생하고 이에 따라 기존의 직관과 경험이 검증 없이 적용되는 경우가 많다. 이러한, 경우 공정 운영의 일관성과 신뢰성이 저하될
수 있고, 이는 결과의 변동성을 증가시키며 공정 최적화를 제한할 수 있다[1].
최근 몇 년간 인공지능 기술의 발전은 공정 최적화 및 의사결정 자동화를 가능하게 하고 있다. 주로 인경신경망 모델링을 통한 의사결정지원시스템으로 전문가의
의사결정을 위한 시뮬레이션의 기능을 수행해 왔다. 그러나 기존의 AI 접근 방식은 종종 “블랙박스” 모델로 특징지어지며, 이들의 의사결정 과정은 투명하지
않다. 이러한 불투명성은 해석 가능성과 신뢰가 중요한 핵심 응용 분야에서 AI의 채택을 저해한다. 설명 가능한 인공지능(Explainable Artificial
Intelligence, XAI)은 이러한 한계를 해결하고 AI 모델의 내부 작동 방식을 인간이 이해할 수 있는 통찰력으로 제공함으로써 이 문제를
해결한다. 특성 중요도 분석 및 시각적 설명과 같은 XAI 기법은 이해관계자가 의사결정 과정을 이해하고 신뢰를 형성할 수 있도록 지원하며, 전문가
주도 도메인에서 더 넓은 적용 가능성을 촉진한다[2-3].
따라서, 생물학적 공정의 최적화에 XAI를 적용하면 전문가 지식과 데이터 기반 의사결정 간의 격차를 해소할 수 있다. XAI를 활용하면 전문가 결정에
내재된 암묵적 패턴과 전략을 분석하고, 이를 시스템 최적화를 위한 실행 가능한 통찰로 변환할 수 있다. XAI는 공정 성능에 영향을 미치는 주요 변수를
강조하고 특정 운영 조정의 근거를 설명할 수 있다. 이러한 통찰은 공정 효율성을 향상시킬 뿐만 아니라 경험이 적은 운영자를 위한 교육 도구로도 활용될
수 있다[4].
기존의 연구에서는 전문가의 경험 자체를 모델링하는 방식으로 연구가 진행되어 왔다. 전문가의 경험 자체를 모델링한다는 것은 전문가의 경험에 의해 수행된
제어 결과가 포함된 데이터를 사용하여 모델링 한다는 것이다. 데이터가 의미를 가질려면 많은 경우의 수를 포함하여야 하는데, 전문가의 경험에 의해서만
제어가 수행된 경우 데이터 자체가 한계를 가지고 있을 수 밖에 없다. 이러함에도 불구하고 데이터 자체의 문제를 제기하기 보다는 전문가 경험을 인공지능
기법들인 퍼지 또는 뉴럴 모델링을 통해 전문가의 경험을 모델링하고, 이 모델링으로부터 공정을 최적화 하였다. 그러나, 이러한 방식은 전문가의 경험
자체가 신뢰성이 높다는 전제하에 유효하다. 따라서, 이러한 방법들이 좀 더 일관성과 신뢰성을 갖기 위해서는 전문가 경험의 검증과정이 필요하다[8-9].
따라서, 본 논문은 생물학적 공정 전문가의 운영 경험을 분석하는데 XAI를 적용하여 전문가 지식을 데이터 기반 프레임워크로 체계적으로 표현하고, XAI
기법을 활용하여 주요 통찰을 추출 및 해석하며, 이러한 통찰이 공정 최적화에 미치는 영향을 평가하는 것이다. 즉, 전문가 경험이 포함된 데이터를
인공지능 기법을 통해 모델링하고, 이 모델로부터 XAI 기법을 활용하여 전문가 지식을 검증하고 전문가 지식의 보완점을 찾고자 한다.
본 논문의 구성은 다음과 같다. 먼저, 관련 문헌 검토를 통해 기존 연구와 본 연구의 독창성을 설정한다. 이후, 데이터 수집, 인공신경망 모델링,
XAI 기법을 통해 전문가 경험의 검증 방법론을 제시한다. 다음으로, 이러한 방법의 실증을 위해 시뮬레이션을 수행한다. 마지막으로, 논의 및 결론에서
주요 결과, 한계, 향후 연구 방향을 제시한다.
2. 기존 연구 분석 및 본 논문의 독창성
2.1 생물학적 과정 개요
생물학적 공정은 미생물, 효소 및 기타 생물학적 요소를 활용하여 특정 화합물을 변환, 분해 또는 합성하는 기술을 의미하며, 주로 하수처리, 바이오에너지
생산, 제약 및 농업 산업에서 활용된다. 특히, 하수처리 공정에서는 미생물을 이용하여 유기물을 분해하고 수질을 정화하는 과정이 주요 기술로 자리 잡고
있다[5].
생물학적 공정은 온도, pH, 산소 농도, 영양소 농도 등 다양한 환경적 요인에 의해 영향을 받으며, 이들 변수의 미세한 변화가 공정 효율성과 안정성에
중대한 영향을 미친다. 따라서 실시간 모니터링 및 정밀한 제어가 필수적이다. 이러한 변수들은 공정의 안정성과 효율성에 직접적으로 영향을 미치기 때문에
지속적인 모니터링과 제어가 필수적이다. 더욱이, 생물학적 공정은 시스템 내 복잡한 상호작용으로 인해 비선형적이고 동적이며, 이로 인해 최적 운영 조건을
설정하는 데 있어 높은 수준의 전문성이 요구된다[6].
현재까지 생물학적 공정의 분석 및 최적화를 위해 다양한 접근 방법이 개발되어 왔다. 전통적으로는 실험 기반 연구와 전문가의 경험을 결합하여 공정 설계와
운영 전략을 수립해 왔다. 그러나 이러한 방법은 시간과 비용이 많이 소요되며, 복잡한 변수 간의 상호작용을 완전하게 이해하는 데 한계가 있다. 이에
따라 최근에는 데이터 기반 모델링 기법과 인공지능 기술이 개발되어 왔으나 실제 현장에서는 거의 적용되지 않고 있으며, 기존 방식대로 전문가의 경험에
의한 제어 방식이 그대로 적용되고 있다. 이러한 이유는 전문가들이 데이터 기반 모델링을 신뢰하지 않은 것에 기반을 두고 있다. 센서 데이터의 오류와
부정확성과 인공지능 모델의 블랙박스 특성이 신뢰성을 저하시키는 원인으로 알려져 있다. 만약에 센서 데이터의 신뢰성과 모델의 블랙박스 특징이 어느 정도
해결된다면 데이터 기반 모델링에 의한 실제적 제어를 통한 공정 최적화가 가능할 것으로 보인다. 또한, XAI 기술은 생물학적 공정의 복잡성을 해석하고
공정 최적화를 지원하는 데 있어 새로운 가능성을 제시하고 있어 이러한 기술과 방법이 적용이 필요하다[7].
따라서, 본 논문에서는 생물학적 공정 분석의 현재 상태와 주로 전문가의 경험에 근거하여 운영중인 문제를 데이터 기반 접근 방식을 통해 생물학적 공정의
효율성과 지속 가능성을 향상시키고자 한다.
2.2 프로세스 최적화에 있어서 XAI의 응용
설명 가능한 인공지능(Explainable Artificial Intelligence, XAI)은 공정 최적화 분야에서 혁신적인 도구로 활용되고 있다.
XAI는 기존의 “블랙박스” AI 모델이 가지는 불투명성을 극복하고, 의사결정 과정을 명확히 드러냄으로써 공정 관리와 개선에 실질적인 기여를 할 수
있다. 특히, 생물학적 공정의 복잡성을 고려할 때 XAI의 응용은 더욱 중요하다.
첫째, XAI는 공정 운영에서 중요한 변수를 정량적으로 분석하고 해석하는 데 활용될 수 있다. XAI 기법을 통해 공정 데이터의 특성 중요도를 분석함으로써,
공정 성능에 가장 큰 영향을 미치는 요인을 파악할 수 있다. 예를 들어, 미생물 활동이 활발한 온도 범위나 최적의 pH 수준과 같은 운영 조건을 효과적으로
도출할 수 있다. 이는 전문가 경험의 분석에 매우 중요한 근거를 줄 수 있어, 공정 효율성을 높이고 자원 낭비를 최소화하는 데 중요한 역할을 한다[2].
둘째, XAI는 복잡한 공정 데이터를 시각화하여 이해를 돕는다. 이를 통해 운영자는 데이터 패턴과 공정 상태 간의 관계를 보다 직관적으로 파악할 수
있다. 예를 들어, 시계열 데이터를 기반으로 공정의 이상 상태를 탐지하고, 이를 설명 가능한 방식으로 운영자에게 제공함으로써 신속하고 정확한 대응을
가능하게 한다. 이는 전문가의 인공지능 모델의 신뢰성 확보에 영향을 줄 수 있다.
셋째, XAI는 공정 제어와 예측의 신뢰성을 향상시킨다. 기존의 AI 모델이 제공하는 예측 결과를 XAI를 통해 설명함으로써, 모델의 결과를 이해하고
이를 바탕으로 신뢰할 수 있는 결정을 내릴 수 있다. 이는 특히 안전성과 정확성이 요구되는 공정에서 매우 중요한 요소로 전문가에게 안정성을 제공할
수 있다[3].
결론적으로, XAI는 생물학적 공정의 최적화와 관리에 있어 필수적인 도구로 자리 잡고 있다. 본 논문은 이러한 XAI의 응용 가능성을 탐구하며, 이를
통해 생물학적 공정의 효율성과 지속 가능성을 높이는 데 기여하고자 한다.
2.3 전문가 경험의 검증
생물학적 공정의 성공적인 운영과 최적화는 전문가의 풍부한 경험에 크게 의존한다. 그러나 이러한 전문가 경험을 체계적으로 포착하고 활용하는 데는 여러
가지 도전 과제가 존재한다.
첫째, 전문가의 지식은 종종 암묵적이며, 문서화되지 않은 경우가 많다. 이러한 암묵적 지식은 경험에 기반한 직관이나 운영 전략으로 나타나며, 명시적으로
설명하거나 데이터로 표현하기 어려운 경우가 있다. 이는 전문가 지식을 데이터 기반 분석에 통합하는 데 큰 장애물이 된다[5].
둘째, 생물학적 공정은 매우 동적이고 복잡한 시스템으로, 변수 간의 상호작용이 비선형적이다. 전문가 경험을 포착하기 위해서는 이러한 복잡성을 반영할
수 있는 고급 데이터 모델링 및 분석 기술이 필요하다. 그러나 이러한 기술의 활용에는 전문가와 데이터 과학자 간의 긴밀한 협력이 필수적이다[6].
셋째, XAI는 기존 AI 모델이 제공하는 공정 제어 및 예측 결과에 대한 설명을 제공하여, 운영자가 모델의 신뢰성을 평가하고 보다 정확한 의사결정을
내릴 수 있도록 지원한다. 전문가의 결정 과정을 분석하기 위해서는 데이터의 품질을 보장하고, 노이즈를 최소화하는 사전 처리 작업이 필요하다. 그러나
데이터 정제 작업은 시간과 비용이 많이 소요되는 과정이다.
넷째, 전문가 경험을 포착하려는 시도는 종종 문화적, 조직적 장벽에 부딪히기도 한다. 예를 들어, 일부 전문가들은 자신의 지식을 공유하는 데 주저하거나,
자동화된 시스템이 자신들의 역할을 대체할 것이라는 우려를 가질 수 있다. 이러한 장벽을 극복하기 위해서는 신뢰와 협력을 기반으로 하는 환경이 조성되어야
한다[7].
마지막으로, 전문가 경험을 체계적으로 분석하기 위해서는 적절한 해석 가능성과 투명성을 제공할 수 있는 도구가 필요하다. 설명 가능한 인공지능(XAI)은
이러한 도전에 대한 잠재적인 해결책을 제시하지만, XAI 모델의 결과를 전문가가 직관적으로 이해할 수 있도록 설계하는 추가적인 노력이 필요하다.
결론적으로, 전문가 경험을 포착하고 이를 생물학적 공정 관리에 활용하는 것은 여러 가지 도전 과제를 수반하지만, 이러한 문제를 해결함으로써 공정 운영의
효율성과 신뢰성을 크게 향상시킬 수 있다. 본 논문은 이러한 도전 과제를 탐구하고, XAI를 활용한 해결책을 제안하는 데 중점을 둔다.
3. 제안된 기법
본 논문에서는 생물학적 공정 전문가의 경험을 체계적으로 분석하고 이를 인공지능 기법을 적용하여 데이터 기반으로 해석하기 위해 다음과 같은 방법론을
제안한다.
3.1 데이터 수집 전처리 및 전문가 지식 표현
본 연구의 첫 번째 단계는 생물학적 공정 운영의 핵심 데이터를 수집하고, 이를 전문가 경험 분석에 적합한 형태로 정제하는 것이다. 여기에는 생물학적
공정의 운영 데이터(온도, pH, 산소 농도 등)와 전문가의 의사결정 이력이 포함된다. 이러한 데이터는 주로 센서 시스템과 운영 기록을 통해 얻어진다.
데이터는 수집 이후, 노이즈 제거, 결측값 보완, 이상치 탐지 등의 전처리 과정을 거쳐 분석 가능 상태로 준비되어야 하는데 실질적으로 이 과정이 매우
중요하다.
그러나, 생물학적 공정의 경우 전문가의 실질적인 제어가 하루 2~3차례 정도로 제한적이며, 모든 데이터가 전문가의 의사결정을 직접 반영하는 것은 아니다.
따라서 모델링 과정에서는 전체 데이터를 사용하는 대신, 실제 전문가 의사결정이 이루어진 시점을 중심으로 데이터 분석을 수행해야 한다. 공정 모델링에
모든 데이터를 사용하는 것보다 실제 제어가 일어나는 시점의 반응 시간을 고려한 전후 데이터인 전문가의 의사결정 이력이 포함된 데이터가 매우 중요하다.
따라서 본 논문에서는 일반적인 데이터 전처리 과정에 전문가 경험을 검증하기 위해 전문가의 의사결정 이력이 포함된 데이터만 모델링에 사용하는 과정을
추가한다. 물론 전체 데이터를 사용하여 공정을 모델링 한 후, 이를 기반으로 전문가 경험을 검증할 수도 있지만, 이 경우 전체적으로 데이터가 전문가
경험을 반영한 비율이 매우 적을 수가 있어 검증의 판단이 어려울 수 있다. 그림 1은 위에서 설명한 전체적인 데이터 수집 및 전처리 과정을 보여준다.
그림 1. 데이터 수집 및 전처리
Fig. 1. Data Collection and Preprocessing
일반적으로 생물학적 공정은 침사지(Grit Chamber)에서는 유입되는 하수의 모래 및 진흙을 제거하며 스크린에서는 이물질(비닐, 협작물 등)을
제거해준다. 1차 침전지(Primary Clarifier)에서는 BOD 및 SS를 각각 30~50% 제거해 준다. 포기조(Aeration Tank)에서는
공기를 불어 넣어 주면 호기성 미생물이 성장번식하여 유기물을 미생물 어리로(활성슬러지)로 만든다. 2차 침전지(Secondary Clarifier)에서는
약 3시간 체류하면서 활성슬러지는 침전되며 대부분 포기조로 반송되며 일부는 잉여슬러지로 농축조로 보내진다[5].(그림 2)
그림 2. 하수처리 활성슬러지공정 및 수질 측정 항목
Fig. 2. Activated Sludge Process and Sensors in Sewage Treatment System
전문가 경험을 정량화하기 위해 인터뷰 및 설문조사를 활용하여 의사결정 기준과 전략을 구조화된 데이터로 변환한다. 수집된 정보는 규칙 기반 모델(rule-based
model) 또는 지식 그래프(knowledge graph) 형태로 구조화하여, 전문가의 경험이 AI 모델에서 효과적으로 반영될 수 있도록 한다.
이를 통해 전문가의 의사결정을 모델링할 수 있는 기초 데이터를 제공한다.
생물학적 공정은 미생물을 이용하여 유기물을 분해하거나 특정 물질을 합성하는 과정으로, 이러한 공정은 환경 변화에 민감하며, 최적의 운전 조건을 유지하기
위해서는 지속적인 모니터링과 전문가의 경험이 필요하다[2]. 공정 운영에서 전문가들은 경험적으로 축적된 운전 전략을 적용하여 안정적인 운전을 유지하는데, 이러한 전략은 대부분 규칙 기반(rule-based)
형태로 나타난다[3]. 그러나 이러한 경험적 규칙은 대부분 문서화되지 않고 전문가 개인의 경험에 의존하는 경우가 많아, 공정 운영의 일관성을 유지하는 데 한계가 있다[5].
규칙 기반 운전(rule-based operation)은 특정 조건이 충족될 경우 사전에 정의된 조치를 수행하는 방식으로, 예를 들면 “DO 조절
: DO가 2.0 mg/L 이하일 경우 공기 공급량을 20% 증가”와 같은 형태이다. 이러한 규칙은 일정한 패턴을 가지지만, 공정의 동적 특성을 반영하기
위해 경험적 조정이 필요하다[8]. 또한, 원수의 수질에 따라 제어 결과와 제어량이 다를 수 있기 때문에 데이터 기반 검증이 반드시 필요하다.
3.2 규칙 기반 운전 모델링
생물학적 공정은 다양한 환경 변수의 영향을 받으며, 복잡한 비선형적 특성을 갖는다. 이러한 공정을 효과적으로 분석하고 최적화하기 위해서는 기존의 경험적
또는 수학적 모델링 접근 방식 외에도 데이터 기반 모델링 기법이 필요하다. 특히, 인공신경망(Artificial Neural Networks, ANN)은
높은 비선형성을 갖는 공정 데이터를 학습하고 복잡한 패턴을 탐색하는 데 효과적인 도구로 자리 잡고 있다[1].
본 논문에서는 인공신경망을 활용하여 생물학적 공정의 주요 변수를 예측하고, 이를 바탕으로 공정 최적화에 기여할 수 있는 모델을 개발하는 방법을 제안한다.
또한, 설명 가능한 인공지능(XAI) 기법을 적용하여 인공신경망의 결과를 해석 가능하게 만들고, 전문가의 경험과 결합하는 방안을 논의한다.
인공신경망 모델의 성능을 극대화하기 위해서는 신뢰성 높은 데이터를 확보하고 적절한 전처리 과정을 수행하는 것이 필수적이다. 일반적으로 국내 하수처리장의
공정 데이터를 대상으로 하면 주요 변수는 다음과 같다[9].
• 입력 변수(Input Features) : pH, 용존 산소(DO, mg/L), 유기물 농도(COD, mg/L), 질소(TN, mg/L), 인(TP,
mg/L), 혼합액 부유물질 농도(MLSS, mg/L)
• 출력 변수(Output Variables) : 처리수 품질(TSS, COD 제거율), 슬러지 생성량
데이터 전처리는 다음과 같은 과정으로 수행되었다 :
▪ 이상치 탐지 및 제거 : 센서 오작동으로 인해 발생한 이상 데이터를 제거. 이상치는 1) 3시간 이상 동일 값 유지, 2) 1년 평균값 대비 50%
이상 변동, 3) 동일 시간대에 다른 센서의 이상으로 이 데이터를 사용할 수 없는 경우로 정하였다.
▪ 결측값 보완 : 이동 평균 기법과 다중 대체법을 활용하여 결측값 보정
▪ 정규화(Normalization) : ANN 모델의 수렴 속도를 높이기 위해 Min-Max 정규화를 적용
▪ 데이터 분할 : 전체 데이터를 학습(70%), 검증(15%), 테스트(15%) 데이터로 분할
인공신경망 모델의 설계는 공정 데이터의 특성과 분석 목표를 고려하여 진행한다. 본 논문에서는 다층 퍼셉트론(MLP, Multi-Layer Perceptron)
구조를 적용하였으며, 최적의 모델 구조를 탐색하기 위해 기존연구 실험을 수행에 근거하여 전체 모델 구조는 다음과 같다[9].
(1) 네트워크 구조
∙ 입력층(Input Layer) : 6개 노드(입력 변수)
∙ 은닉층(Hidden Layers) : 2개 층 (각 64개 및 32개 뉴런)
∙ 출력층(Output Layer) : 2개 노드 (TSS, COD 제거율)
∙ 활성화 함수(Activation Function) : ReLU(Rectified Linear Unit)
∙ 최적화 알고리즘(Optimizer) : Adam
∙ 손실 함수(Loss Function) : 평균제곱오차(Mean Squared Error, MSE)
(2) 학습 및 검증
모델 학습은 TensorFlow/Keras를 활용하여 수행되었으며, 과적합 방지를 위해 드롭아웃(Dropout)과 조기 종료(Early Stopping)
기법을 적용한다. 학습 과정은 다음과 같다.
∙ 배치 크기(Batch Size), 학습률(Learning Rate) 결정
∙ 에포크(Epoch) 설정 및 조기 종료 적용
∙ 모델 평가 지표 : MSE(Mean Squared Error), R²(결정계수)
ANN 모델의 성능을 평가하기 위해 실제 공정 데이터와 모델 예측 결과를 비교한다. 모델의 성능이 실제적으로 유효하여야 한다.
그러나 신경망 모델은 블랙박스(Black-box) 성격을 가지므로, 모델의 의사결정을 해석하는 것이 중요하다. 이를 위해 설명 가능한 인공지능(XAI)
기법을 적용한다[10].
3.3 XAI 기법을 활용한 규칙 검증
생물학적 공정에서 모델이 특정 결정을 내린 이유를 이해하는 것은 운영자에게 중요한 정보이며, 이를 통해 공정 최적화 및 신뢰성 확보가 가능하다. 따라서
본 논문에서는 설명 가능한 인공지능(XAI) 기법을 적용하여 ANN 모델의 예측 결과를 해석하고, 전문가가 직관적으로 이해할 수 있도록 분석을 수행한다.
본 논문에서는 대표적인 XAI 기법인 SHAP(Shapley Additive Explanations)와 LIME(Local Interpretable
Model-agnostic Explanations)를 활용하여 모델의 설명 가능성을 평가하는 방안을 검토한다, 또한, 공정 변수 간의 관계를 시각적으로
분석하여 모델의 신뢰성을 검증한다.
• SHAP 분석
SHAP는 협력 게임 이론(Coalitional Game Theory)에 기반한 기법으로, 각 입력 변수가 모델 예측에 기여하는 정도를 정량적으로
분석한다. SHAP 값(Shapley Value)은 각 변수의 상대적인 중요도를 나타내며, 이를 통해 모델이 어떤 변수를 기반으로 의사결정을 내리는지를
설명할 수 있다[1]. SHAP 분석 과정은 다음과 같다[11].
[단계 1] SHAP 값 계산
∙ ANN 모델을 기반으로, 각 입력 변수(pH, DO, COD, TN, TP, MLSS)가 예측 결과(TSS, COD 제거율)에 미치는 영향을 분석
∙ SHAP 값을 계산하여 변수의 중요도와 방향성을 확인
[단계 2] SHAP 요약 그래프(Summary Plot) 분석
∙ 전체 데이터셋에서 변수별 SHAP 값을 시각화
∙ 특정 변수의 값이 증가하거나 감소할 때 모델의 예측이 어떻게 변하는지 확인
[단계 3] SHAP 의존성 그래프(Dependence Plot) 분석
∙ 특정 변수의 SHAP 값과 원래 값의 관계를 시각화하여 변수 간 상호작용 분석
• LIME 분석
LIME은 개별 예측값에 대한 설명을 제공하는 기법으로, 모델이 특정 샘플에 대해 내린 결정을 해석할 수 있도록 한다[2]. 이를 위해 원래 복잡한 모델을 단순한 선형 모델로 근사하여 각 변수의 영향을 분석한다. LIME 분석 과정은 다음과 같다.
[단계 1] 특정 예측 샘플 선택
∙ 실제 공정 데이터에서 특정 샘플(예: COD 제거율이 예측보다 낮거나 높은 경우)을 선정
∙ 모델이 해당 샘플에서 특정한 예측을 내린 이유를 분석
[단계 2] 지역적 근사 모델(Local Surrogate Model) 생성
∙ 선택된 샘플 주변에서 데이터를 샘플링하여 단순 회귀 모델을 학습
∙ 이 모델을 통해 변수별 기여도를 계산
[단계 3] LIME 시각화
∙ 바 플롯(Bar Plot) 형태로 개별 예측에서 가장 영향을 미친 변수 확인
∙ 변수의 변화가 예측값에 미치는 영향을 해석
본 논문에서는 이미 데이터 전처리 과정에서 제어가 수행되는 데이터로 전문가의 경험이 적용되는 데이터만 사용하기 때문에 LIME의 단계 1의 특성을
반영한 것이므로 SHAP 분석만을 사용하는 것이 합리적이다.
4. 시뮬레이션
4.1 데이터 전처리 및 전문가 규칙
본 논문에서 전문가의 경험을 검증하기 위해 수도권 하수처리장의 3년치 시간 데이터를 사용하였다. 총 데이터 셋은 3년☓365일☓24시간=26,280개이다.
이 중에 학습(70%), 검증(15%), 테스트(15%) 데이터로 분할하여 사용하였다. 사용되는 데이터는 ANN 모델을 기반으로, 각 입력 변수 6개
(pH, DO, COD, TN, TP, MLSS)와 출력변수인 예측 결과 2개(TSS, COD 제거율)이다.
전문가의 규칙은 대표적인 사례인 아래 3가지를 대상으로 하였다.
∙ DO 조절 : “DO가 2.0 mg/L 이하일 경우 공기 공급량을 20% 증가”
∙ pH 조절 : “pH가 6.5 미만일 경우 알칼리 공급”
∙ 슬러지 농도 조절 : “MLSS(혼합액 부유물질 농도)가 4000 mg/L를 초과하면 슬러지 배출”
데이터 전처리 과정은 위의 3가지의 전문가 규직이 적용된 데이터만 사용하였다. 생물학적 공정의 특성상 반응시간 4~6시간을 고려하여 제어가 일어난
시점의 6시간 전부터 제어의 후의 6시간으로 12시간의 데이터만 사용하였다.
4.2 ANN 모델링
인공신경망 모델은 다층 퍼셉트론(MLP, Multi-LayerPerceptron) 구조를 적용하였으며, 최적의 모델 구조를 탐색하기 위해 아래와 같이
수행하였다. 전체 모델 구조는 다음과 같다.
(1) 네트워크 구조
∙ 입력층(Input Layer) : 6개 노드(pH, DO, COD, TN, TP, MLSS)
∙ 은닉층(Hidden Layers) : 2개 층(각 64개 및 32개 뉴런)
∙ 출력층(Output Layer) : 2개 노드 (TSS, COD 제거율(RR_COD))
∙ 활성화 함수(Activation Function) : ReLU(Rectified Linear Unit)
∙ 최적화 알고리즘(Optimizer) : Adam
∙ 손실 함수(Loss Function) : 평균제곱오차(Mean Squared Error, MSE)
(2) 학습 및 검증
모델 학습은 TensorFlow/Keras를 활용하여 수행되었으며, 과적합 방지를 위해 드롭아웃(Dropout)과 조기 종료(Early Stopping)
기법을 적용한다. 학습 과정은 다음과 같다.
∙ 배치 크기(Batch Size) = 32
∙ 학습률(Learning Rate) = 0.001
∙ 10,000 에포크(Epoch) 동안 훈련 진행, 조기 종료 적용
∙ 모델 평가 지표 : MSE(Mean Squared Error), R²(결정계수)
ANN 모델의 성능을 평가하기 위해 앞절의 실제 공정 데이터와 모델 예측 결과를 비교하였다. 성능 평가 결과는 다음과 같다. 표 1과 같다.
표 1 ANN 모델의 평균제곱오차(MSE)
Table 1 MSE Error of ANN Model
|
Learning
Model
|
Estimating Model
|
Test
Model
|
MSE
|
0.894
|
0.97
|
1.01
|
R2 Score
|
0.34
|
위 결과는 MSE 값이 비교적 낮지만, R² 값이 0.34로 다소 낮아 예측 성능이 ANN 모델이 생물학적 공정 데이터를 효과적으로 학습하고 높은
예측 성능을 제공함을 알 수 있었다. 일반적으로 수처리 운영 전문가들은 모델이 90% 정도 정확하면 수처리 공정 운영에 문제가 없다고 한다. 따라서,
R² 값이 0.34인 경우에 대해 전체 데이터의 분포를 살펴보면 모델의 오차가 90% 내외로 분포되기 때문에 전문가 경험 검증으로 사용하는데는 문제가
없다. 신경망 모델은 블랙박스(Black-box) 성격을 가지므로, 모델의 의사결정을 해석하는 것이 중요하다. 이를 위해 설명 가능한 인공지능(XAI)
기법을 적용하였다.
4.3 XAI 분석(SHAP 분석)
SHAP 분석 절차는 그림 3과 같다.
그림 3. SHAP 분석 절차
Fig. 3. SHAP Analysis Procedure
[단계 1] SHAP 값 계산
ANN 모델을 기반으로, 각 입력 변수(pH, DO, COD, TN, TP, MLSS)가 예측 결과(TSS, COD 제거율)에 미치는 영향을 분석하여,
변수의 중요도와 방향성을 확인한 결과는 표 2와 같다.
표 2 ANN 모델의 변수의 중요도와 방향성
Table 2 Importance and direction of variables
Feature
(Input)
|
Trend
|
TSS
|
RR_COD
|
pH
|
no major changes
|
Stable in the optimal range (6.5 to 7.5), decreasing when deviating
|
DO
|
somewhat decreased
|
RR_COD increases as it increases, less effect above 5 mg/L
|
COD
|
Increased TSS
|
The higher the COD, the lower the RR_COD.
|
TN
|
small impact
|
RR_COD slightly decreased at high TN concentrations
|
TP
|
negligible impact
|
small impact
|
MLSS
|
TSS increases with increase
|
When MLSS increases, RR_COD increases, but when it increases excessively, it actually
decreases.
|
분석 결과 MLSS는 TSS와 RR_COD에 가장 큰 영향을 미치는 변수로 확인되고, DO는 RR_COD(COD 제거율)에 중요한 영향을 주며, 충분한
DO 공급이 필요함을 알 수 있다. DO 공급 최적화(1.5~5 mg/L 범위)가 RR_COD 증가에 효과적임을 알 수가 있었다.
COD가 높으면 TSS가 증가하지만 RR_COD는 감소하는 경향이 있다. 또한, 고농도 COD 하수는 미생물 부담 증가되고, pH는 최적 범위(6.5~7.5)에서
안정적이나 벗어나면 RR_COD 감소하고, TN과 TP는 상대적으로 영향이 작고 다만 높은 질소 농도는 미생물 균형에 영향을 줄 수 있음을 확인할
수 있었다.
[단계 2] SHAP 요약 그래프(Summary Plot) 분석
ANN 모델에서 각 입력 변수의 상대적 중요도를 정리한 Feature Importance 결과는
표 3과 같다.
Feature Importance에서 MLSS가 가장 중요한 입력 변수로 나타나는데, 이는 슬러지 농도가 하수처리 공정의 핵심 변수임을 시사한다.
COD와 DO도 높은 중요도를 보이며, 이는 미생물의 활성과 유기물 분해에 직접적인 영향을 미치기 때문로 판단된다. TN, TP도 비교적 중요한 변수지만,
MLSS나 COD보다 상대적으로 영향력이 적음을 알 수 있다. pH의 중요도는 가장 낮은 편이지만, 공정 안정성 유지에 필수적인 요소임을 고려해야
함을 보여준다. 이 결과는 ANN 모델이 생물학적 공정에서 MLSS와 COD를 가장 중요한 요소로 인식하고 있으며, DO와 질소·인의 영향도 반영되고
있음을 시사한다.
표 3 Feature Importance
Table 3 Feature Importance
Feature Importance
|
PH
|
0.131013
|
TP
|
0.126772
|
COD
|
0.125841
|
MLSS
|
0.124853
|
TN
|
0.12115
|
DO
|
0.121117
|
[단계 3] SHAP 의존성 그래프(Dependence Plot) 분석
1. DO와 RR_COD(COD 제거율) 관계를 정리하면 아래와 같다.
∙ DO가 증가할수록 RR_COD 증가
☞ DO가 1.5~5 mg/L 범위에서는 RR_COD 증가
☞ DO가 5 mg/L 이상 증가하면 영향이 크지 않음 (포화 현상 발생)
☞ DO가 1.5 mg/L 이하로 감소하면 RR_COD 급격히 감소 → 미생물 활동 제한
2. MLSS와 TSS 관계
∙ MLSS 증가 시 TSS도 증가
☞ MLSS가 2000~4000 mg/L 범위에서는 TSS 완만한 증가
☞ MLSS가 4000 mg/L를 초과하면 TSS 급격히 증가 (슬러지 팽화 가능성)
☞ MLSS가 2000 mg/L 미만이면 TSS 감소 → 슬러지 부족
결과적으로 DO는 RR_COD와 직접적인 관계가 있으며, 5 mg/L 이상에서는 더 이상 큰 효과가 없음을 알 수 있다. MLSS 농도가 너무 높으면
TSS 증가하여 슬러지 팽화 위험 있고, MLSS가 적절한 범위(3000~4000 mg/L)에서 운영되어야 TSS가 안정적으로 유지됨을 알 수 있다.
DO는 1.5~5 mg/L 범위에서 조절하는 것이 이상적이고, DO 농도 5 mg/L 이상 증가시키는 것은 불필요함을 보여준다. MLSS를 적절히
조절(3000~4000 mg/L)하여 슬러지 팽화 방지 필요하며 TSS 조절을 위해 MLSS 관리가 필수적임도 알 수 있다.
4.4 전문가 경험의 검증
4.3절의 XAI 분석 결과를 기반으로 전문가 규칙을 검증하였다.
전문가의 운전 규칙 첫 번째는 DO 제어에 관한 것으로 “DO가 2.0 mg/L 이하일 경우 공기 공급량을 20% 증가”하는 것이다. XAI 분석
결과 DO는 TSS보다는 RR_COD에 중요한 영향을 주는 것이며, DO 공급 최적화(1.5~5 mg/L 범위)가 적정하며 DO가 1.5 mg/L
이하로 감소하면 RR_COD 급격히 감소하는 것을 알 수 있었다. 따라서, 전문가 운전 규칙 첫 번째는 기본적인 방향은 맞지만 2.0 mg/L 이하이면
DO를 늘리는 것보다는 1.5 mg/L 이하이면 제어하는 것이 효과적이며 DO 증가를 20%로 하는 것은 RR_COD을 보면서 제어량을 조정하는 것이
필요하다.
전문가의 운전 규칙 두 번째는 pH 조절에 관한 것으로 “pH가 6.5 미만일 경우 알칼리 공급”이다. XAI 분석 결과 pH의 최적 범위는 6.5~7.5이며,
이 범위를 벗어나면 RR_COD 감소하는 것을 확인할 수 있었다. 따라서 전문가의 운전 규칙 두 번째는 합리적이나, TSS 보다는 RR_COD의 값의
감소를 중점 모니터링하는 것이 중요하다.
전문가의 운전 규칙 세 번째는 슬러지 농도 조절에 관한 것으로 “MLSS가 4000 mg/L를 초과하면 슬러지 배출”하는 것이다. XAI 분석 결과
MLSS 농도가 너무 높으면 TSS 증가하여 슬러지 팽화 위험 있고, MLSS가 적절한 범위(3000~4000 mg/L)에서 운영되어야 TSS가 안정적으로
유지됨을 알 수 있다. 따라서, 전문가의 운전 규칙은 적정하며, MLSS의 제어는 RR_COD를 보는 것이 아니라 TSS 값으 안정성을 보는 것이
합리적이다.
5. 결 론
본 논문에서는 기존의 생물학적 공정의 최적화를 위한 전문가 경험과 데이터 기반 모델링 접근 방식의 문제인 일관성과 신뢰성 문제 해결을 위해, 생물학적
공정을 인공신경망 기반으로 공정을 모델링하고 이 모델로부터 XAI의 SHARP 기법을 활용하여 전문가 운전 규칙을 검증하였다. 이를 통해 전문가 운전
경험이 적정한지와 추가적으로 고려해야 할 요소가 무엇인지를 판단할 수 있는 근거를 제시할 수 있었다.
수도권의 생물학적 공정을 사용하는 하수처리장의 3년치 데이터를 가지고 시뮬레이션을 통하여 XAI 기법을 활용한 분석 결과는 생물학적 공정의 전문가
운전 규칙 3가지는 기본적으로 방향은 적정하며 추가적인 전문가 운전 규칙의 보완 요소가 필요함을 알 수 있었다. 즉, DO와 pH 제어는 RR_COD에
관계가 깊고, MLSS는 TSS에 관계된 다는 것을 확인할 수 있었다.
본 논문의 이러한 결과는 ANN 모델을 생물학적 공정 운영에 적용할 때 전문가가 신뢰할 수 있는 근거를 제공하며, AI 기반 의사결정 시스템의 투명성을
향상시키는 데 기여할 수 있다고 판단된다. 또한, 전문가 운전 규칙을 좀 더 보완하는 것이 가능함을 확인할 수 있었다.
향후 연구에서는 보다 정교한 XAI 기법을 적용하여 ANN 모델의 해석력을 더욱 강화하고, 실시간 운전 지원 시스템과의 결합을 모색할 예정이다.