이신애
(Sin-ae Lee)
1iD
김동현
(Dong-hyun Kim)
1iD
조현종
(Hyun-chong Cho)
†iD
-
(Interdisciplinary Graduate Program for BIT Medical Convergence, Kangwon National University,
Korea.)
Copyright © The Korean Institute of Electrical Engineers(KIEE)
Key words
Computer-aided Diagnosis(CADx), Data Augmentation, Deep Learning, Gastric Lesion
1. 서 론
세계 암 연구기관인 International Agency for Research on Cancer(IARC)에서 2018년에 발표한 전 세계 위암
발생률 통계에 따르면 10만 명당 기준 연령 표준화 발생률(Age-Stan- dardized incidence Rate, ASR) 기준으로 한국이
세계 1위를 차지하는 것을 알 수 있다. 2위는 몽골, 3위는 일본, 4위 중국으로 주로 아시아 나라에서 위암 발생률이 높다는 것을 볼 수 있다 (1). 그림 1은 세계 위암 발생률을 그래프로 나타낸 것이다.
위암의 원인이 되는 전암성 병변들은 위염, 위궤양, 위출혈 등으로 밝혀져 있다. 이러한 위 질환 대부분은 위암으로 진행되기 전까지 무증상이기 때문에
발견이 어렵다. 또한, 이미 위암으로 진행이 되었어도 초기 위암은 특징적인 증상이 없다. 위암의 전암성 병변들을 정확하게 진단하고 치료하기 위해서는
정기적인 내시경 검진이 필수적이다 (2,3). 현재 내시경은 다양한 고성능, 고화질의 장비를 통하여 진단되고 있다. 하지만 내시경 장비로 촬영된 영상의 수가 점점 증가하고 고품질화가 됨에 따라
이를 육안에 의존하여 진단을 내리는 의사는 피로도가 증가하게 되며, 전문의의 숙련도에 따라 진단의 차이가 존재하게 된다. 이러한 오진을 줄이기 위해서
컴퓨터 보조 진단(Computer-aided Diagnosis, CADx) 시스템이 많이 연구되고 있는데 이 CADx 시스템은 전문의에게 놓칠 수
있는 병변을 찾아주거나 보조 진단 의견을 제시하여 오진율을 낮출 수 있게 도와준다 (4-8).
현재 딥러닝을 이용한 CADx 시스템 연구가 활발히 진행되고 있다. 하지만 딥러닝 연구에 있어 가장 중요한 부분이 될 수 있는 데이터는 수집 과정이
어려워 여전히 문제로 남아있다. 특히 의료영상 수집은 환자의 개인정보 보호를 위해 임상시험 심사 위원회(Institutional Review Board,
IRB) 승인이 있어야 하는 등 매우 많은 단계와 비용과 시간이 소모된다. 이를 보완하기 위해 소, 중 규모의 데이터를 증대하는 방법이 존재한다.
데이터 증대 방법을 적용한 CADx 연구들을 보면 다음과 같다. 본 논문에서 사용한 데이터와 같은 데이터에 대하여 증대 방법을 적용하지 않고 분할
방법을 적용한 전의 연구결과와 (4), 증대 방법 중 대표적인 회전 방식을 적용하여 4배로 증대해 적용한 연구가 있다 (5). 그리고 피부 병변 영상에 대해서 영상의 밝기, 색 대조에 대하여 랜덤으로 [0.9 ~ 1.1] 범위로 적용하여 데이터를 증대하여 흑생종을 분류하는
CADx 연구가 있었다 (6). 위 내시경 영상에 대하여 회전과 반전을 통해 기존의 데이터를 8배로 늘려 학습한 연구도 있다 (7). 또 위 내시경 영상의 비정상 병변을 찾기 위해 데이터를 증대할 때 회전, 확대, 이동 등의 방법들을 특정한 범위 내에서 랜덤하게 지정되어 증대시키는
방법을 적용한 연구도 있었다 (8). 최근에 강화학습을 통해 각각의 데이터셋에 맞는 증대 방법을 제시해 주는 알고리즘 연구가 발표되었다. 이 연구는 Google Brain팀에서 진행되었으며
AutoAugment로 공개되었다 (9). AutoAugment 방법을 본 연구의 위 내시경 영상 데이터셋에 적용하여 증대하고 이를 4가지 네트워크를 학습시켜 성능을 비교하였다. 우리는
이 증대 방법을 사용하여 위 내시경 영상을 정상과 비정상으로 분류하는 CADx 시스템을 제안한다.
그림. 1. 국가별 위암 발생률
Fig. 1. World gastric cancer incidence rate
표 1. 위 내시경 영상 데이터의 구성
Table 1. Types and numbers of gastroscopy image data
Type
|
Number
|
Normal
|
940
|
Abnormal
|
Cancer
|
63
|
SMT
|
72
|
Ulcer
|
95
|
Polyp
|
11
|
Gastritis
|
194
|
Bleeding
|
5
|
Others
|
30
|
Total
|
1410
|
2. 본 론
2.1 위 내시경 영상 수집(Data Base)
연구에 사용된 위 내시경 영상 데이터베이스는 3차 종합병원의 소화기내과에서 받았으며 IRB의 승인을 받았다. 모든 내시경 영상 데이터는 의사의 검진과
조직검사를 통해 검증되었다. 총 90명의 환자로부터 1410장의 내시경 영상 데이터를 수집하였으며, 학습에는 정상 493장과 비정상 250장으로 총
743장을 사용하였고, 테스트 데이터는 정상 447장과 비정상 220장으로 총 667장을 사용하였다. 병변의 종류는 위궤양, 위암, 위 종양, 위용종
등으로 표 1과 같이 구성되어 있다. 기타 병변들은 혈전증, 위게실, 황색종 등으로 구성되어 있으며, 내시경 영상의 데이터는 그림 2와 같이 촬영을 하였다.
그림. 2. 정상과 비정상 위 내시경 영상
Fig. 2. Normal and abnormal gastric images in the database
2.2 AutoAugment
본 논문에서 증대 방법으로 적용한 AutoAugment 방법은 Google Brain 팀이 CVPR 2019에서 발표한 방법으로 ImageNet,
SVHN, CIFAR-10과 같은 검증된 데이터 세트의 최적의 증대 방법을 제공해준다 (9). 딥러닝에 데이터를 사용할 때 과적합을 피하고 성능을 향상시키기 위해 데이터를 증대하는데 이때 증대 방법을 강화학습을 통하여 찾아내는 알고리즘이다.
그림 3과 같이 증대 기법 정책을 결정하는 Controller인 RNN과 Con- troller가 생성한 Child Network를 통하여 여러 가지로 구성된
증대 정책들을 데이터 세트에 적용을 시키면서 그에 대한 성능 정확도인 R을 얻고 Controller에 R을 업데이트함으로써 최상의 정책을 찾아내는
알고리즘이라 할 수 있다.
그림. 3. 구글 AutoAugment의 프로세스
Fig. 3. Process for Google AutoAugment
총 25가지 Augment 정책으로 제시가 되어 있으며 1개의 정책은 2가지의 작업을 순서대로 진행한다. 이때 정책에 적용되는 작업 기법은 ShearX/Y,
TranslateX/Y, Rotate, AutoContrast, Invert, Equalize, Solarize, Posterize, Contrast,
Color, Brightness, Sharpness, Cutout, Sample Pairing으로 정의되어 있다. 이러한 작업 기법을 조절하는 파라미터는
2개로 이뤄져 있는데 해당 작업 기법이 정책에 적용할 가능성을 호출하는 확률값, 그리고 작업 기법이 적용되는 크기 값으로 이루어진다. 하나의 작업
기법과 적용되는 2개의 파라미터로 정해질 수 있는 정책은 모두 $2.9\times 10^{32}$개다
(9). 학습이 진행되면서 이 정책들을 임의로 선택하여 트레이닝 데이터에 적용하여 학습을 하고 분류를 반복하면서 향상된 성능을 가지는 증대 정책을 찾아가며
최적의 정책을 찾게 된다.
표 2. 데이터셋 ImageNet, CIFAR-10, SVHN에 따른 AutoAugment 증대 정책
Table 2. AutoAugment policy table of ImageNet, CIFAR-10 and SVHN
Policy
|
ImageNet
|
CIFAR-10
|
SVHN
|
Operation 1
|
Operation 2
|
Operation 1
|
Operation 2
|
Operation 1
|
Operation 2
|
sub-policy 0
|
(Posterize,0.4,8)
|
(Rotate,0.6,9)
|
(Invert,0.1,7)
|
(Contrast,0.2,6)
|
(ShearX,0.9,4)
|
(Invert,0.2,3)
|
sub-policy 1
|
(Solarize,0.6,5)
|
(AutoContrast,0.6,5)
|
(Rotate,0.7,2)
|
(TranslateX,0.3,9)
|
(ShearY,0.9,8)
|
(Invert,0.7,5)
|
sub-policy 2
|
(Equalize,0.8,8)
|
(Equalize,0.6,3)
|
(Sharpness,0.8,1)
|
(Sharpness,0.9,3)
|
(Equalize,0.6,5)
|
(Solarize,0.6,6)
|
sub-policy 3
|
(Posterize,0.6,7)
|
(Posterize,0.6,6)
|
(ShearY,0.5,8)
|
(TranslateX,0.7,9)
|
(Invert,0.9,3)
|
(Equalize,0.6,3)
|
sub-policy 4
|
(Equalize,0.4,7)
|
(Solarize,0.2,4)
|
(AutoContrast,0.5,8)
|
(Equalize,0.9,2)
|
(Equalize,0.6,1)
|
(Rotate,0.9,3)
|
sub-policy 5
|
(Equalize,0.4,4)
|
(Rotate,0.8,8)
|
(ShearY,0.2,7)
|
(Posterize,0.3,7)
|
(ShearX,0.9,4)
|
(AutoContrast,0.8,3)
|
sub-policy 6
|
(Solarize,0.6,3)
|
(Equalize,0.6,7)
|
(Color,0.4,3)
|
(Brightness,0.6,7)
|
(ShearY,0.9,8)
|
(Invert,0.4,5)
|
sub-policy 7
|
(Posterize,0.8,5)
|
(Equalize,1.0,2)
|
(Sharpness,0.3,9)
|
(Brightness,0.7,9)
|
(ShearY,0.9,5)
|
(Solarize,0.2,6)
|
sub-policy 8
|
(Rotate,0.2,3)
|
(Solarize,0.6,8)
|
(Equalize,0.6,5)
|
(Equalize,0.5,1)
|
(Invert,0.9,6)
|
(AutoContrast,0.8,1)
|
sub-policy 9
|
(Equalize,0.6,8)
|
(Posterize,0.4,6)
|
(Contrast,0.6,7)
|
(Sharpness,0.6,5)
|
(Equalize,0.6,3)
|
(Rotate,0.9,3)
|
sub-policy 10
|
(Rotate,0.8,8)
|
(Color,0.4,0)
|
(Color,0.7,7)
|
(TranslateX,0.5,8)
|
(ShearX,0.9,4)
|
(Solarize,0.3,3)
|
sub-policy 11
|
(Rotate,0.4,9)
|
(Equalize,0.6,2)
|
(Equalize,0.3,7)
|
(AutoContrast,0.4,8)
|
(ShearY,0.8,8)
|
(Invert,0.7,4)
|
sub-policy 12
|
(Equalize,0.0,7)
|
(Equalize,0.8,8)
|
(TranslateY,0.4,3)
|
(Sharpness,0.2,6)
|
(Equalize,0.9,5)
|
(TranslateY,0.6,6)
|
sub-policy 13
|
(Invert,0.6,4)
|
(Equalize,1.0,8)
|
(Brightness,0.9,6)
|
(Color,0.2,8)
|
(Invert,0.9,4)
|
(Equalize,0.6,7)
|
sub-policy 14
|
(Color,0.6,4)
|
(Contrast,1.0,8)
|
(Solarize,0.5,2)
|
(Invert,0.0,3)
|
(Contrast,0.3,3)
|
(Rotate,0.8,4)
|
sub-policy 15
|
(Rotate,0.8,8)
|
(Color,1.0,2)
|
(Equalize,0.2,0)
|
(AutoContrast,0.6,0)
|
(Invert,0.8,5)
|
(TranslateY,0.0,2)
|
sub-policy 16
|
(Color,0.8,8)
|
(Solarize,0.8,7)
|
(Equalize,0.2,8)
|
(Equalize,0.6,4)
|
(ShearY,0.7,6)
|
(Solarize,0.4,8)
|
sub-policy 17
|
(Sharpness,0.4,7)
|
(Invert,0.6,8)
|
(Color,0.9,9)
|
(Equalize,0.6,6)
|
(Invert,0.6,4)
|
(Rotate,0.8,4)
|
sub-policy 18
|
(ShearX,0.6,5)
|
(Equalize,1.0,9)
|
(AutoContrast,0.8,4)
|
(Solarize,0.2,8)
|
(ShearY,0.3,7)
|
(TranslateX,0.9,3)
|
sub-policy 19
|
(Color,0.4,0)
|
(Equalize,0.6,3)
|
(Brightness,0.1,3)
|
(Color,0.7,0)
|
(ShearX,0.1,6)
|
(Invert,0.6,5)
|
sub-policy 20
|
(Equalize,0.4,7)
|
(Solarize,0.2,4)
|
(Solarize,0.4,5)
|
(AutoContrast,0.9,3)
|
(Solarize,0.7,2)
|
(TranslateY,0.6,7)
|
sub-policy 21
|
(Solarize,0.6,5)
|
(AutoContrast,0.6,5)
|
(TranslateY,0.9,9)
|
(TranslateY,0.7,9)
|
(ShearY,0.8,4)
|
(Invert,0.8,8)
|
sub-policy 22
|
(Invert,0.6,4)
|
(Equalize,1.0,8)
|
(AutoContrast,0.9,2)
|
(Solarize,0.8,3)
|
(ShearX,0.7,9)
|
(TranslateY,0.8,3)
|
sub-policy 23
|
(Color,0.6,4)
|
(Contrast,1.0,8)
|
(Equalize,0.8,8)
|
(Invert,0.1,3)
|
(ShearY,0.8,5)
|
(AutoContrast,0.7,3)
|
sub-policy 24
|
(Equalize,0.8,8)
|
(Equalize,0.6,3)
|
(TranslateY,0.7,9)
|
(AutoContrast,0.9,1)
|
(ShearX,0.7,2)
|
(Invert,0.1,5)
|
표 2는 ImageNet, CIFAR-10, SVHN에 대한 25가지 증대 정책을 나타낸 표이다. 표에서 데이터 세트의 특징마다 정책에 적용되는 기법이
다르다는 것을 볼 수 있다. 이는 데이터의 특성에 따라 최적의 증대 방법이 제시된다는 점을 보여준다.
ImageNet은 주로 색상과 빛에 대한 기반 변환을 특징으로 갖는데 이는 CIFAR-10의 정책과 비슷하단 것을 볼 수 있고, SVHN의 정책과는
다르다는 것을 알 수 있다. SVHN의 정책은 이미지를 비틀거나 색상을 반전시키는 것과 같은 변형 기법을 정책으로 가진다.
ImageNet 데이터 셋은 약 140만 개의 이미지가 사람, 동물, 악기, 스포츠 등의 21,841개의 클래스로 이루어져 있다. 하지만 구글은 무작위로
120개 클래스 안에서 6,000개의 샘플 이미지만을 사용하였다. 마찬가지로 CIFAR-10 데이터 셋은 항공기, 자동차, 새, 고양이 등을 포함하여
5만 개의 훈련 이미지를 가지고 있으며, 구글은 5만 개 중 무작위로 선택한 4,000개의 이미지로 구성된 데이터를 사용하였고 이것을 “reduced
CIFAR-10”이라고 지칭하였다. 또한, 73,257개의 학습 데이터를 가지고 있는 SVHN 데이터 집합은 무작위로 실험 대상으로 선택되었다. SVHN은
실제 이미지 데이터 집합이며 Google Street View에서 집 번호 이미지를 잘라내어 구성된 데이터 셋이다 (9).
2.3 Inception-V3
이미지 분류에 강점을 가진 합성곱 신경망인CNN(Convolu- tional Neural Network)들을 본 연구에 적용하였다. 사용한 네트워크는
Inception-V3과 Xception, Resnet-101, Inception-Res- net-V2이다.
그림. 4. Inception-V3 네트워크의 모듈
Fig. 4. Inception module used in Inception-V3
먼저 GoogLeNet라고 불리는 Inception-V3는 기존 신경망의 망이 깊어짐에 따라 발생하는 문제를 보완하기 위해서 나온 네트워크이다
(10). 신경망의 망이 깊어질수록 성능은 향상되지만 깊어질수록 과적합과 Gradient vanishing이 발생하는 문제가 있는데, Inception-V3는
이를 해결하기 위하여
그림 4와 같은 Inception이라는 모듈을 9개를 연결하여 구성된 네트워크이다.
그림 4에서 보이는 Inception 모듈은 이미지 특징맵을 추출하기 위하여 Convolution층을 1x1, 3x3, 5x5로 구성하여 연결하였고, Max
pooling을 이용하여 연산을 수행한다. 네트워크를 깊게 쌓음으로써 많아진 연산량을 Inception 모듈의 1x1 Convolution을 통하여
차원을 감소시키고 3x3, 5x5 Convo- lution을 지나면서 차원을 다시 확장하는 방법으로 네트워크를 구성하여 많아진 연산의 양을 축소하면서도
떨어지지 않는 성능을 가진다
(10).
그림. 5. Resnet의 Residual 모듈
Fig. 5. Residual module used in Resnet
2.4 Resnet-101 Network
Residual Network라고 불리는 Resnet은 2015 ILSVRC에서 우승을 한 모델이며 2014 우승을 차지한 GoogLeNet보다 성능이
향상되었고 망의 깊이도 7배 이상 깊어진 네트워크이다 (11). Resnet은 과적합 문제와는 다르게 모델이 깊어지면 얕은 모델보다 성능이 더 나빠지는 현상인 Degradation 문제를 해결하기 위한 네트워크이다.
해당 문제를 해결하기 위해 Residual 학습이라는 방법을 제안한 네트워크인데 그림 5와 같이 입력에서 출력으로 연결되는 skip-connection을 추가하여 네트워크를 구성하였다. skip-connection은 이전 층에서 전이되는
미미한 변화율이 학습을 중단시키는 것을 방지한다. 이러한 방법을 identify shortcut이라고 칭하며 해당 방법을 통하면 깊은 망에서도 쉽게
최적화가 가능하며 깊은 망에 발생하는 다양한 문제에 대하여 문제를 개선 시킬 수 있다 (11).
2.5 Xception Network
Xception은 2016년에 발표된 CNN 모델이며 Inception 모듈로 구성된 GoogLeNet에서 Inception 모듈을 이용하여 노드들
간의 연결을 줄이고자한 것에서 더 나아가 각 채널 간의 관계를 찾는 것과 지역 정보를 찾는 것을 분리한 네트워크이다 (12). 따라서 기존 그림 4의 Inception 모듈을 그림 6과 같이 변형하여 입력에 대하여 1x1 Convolution Layer를 거친 후 모든 채널을 분리해 각각의 채널을 모두 별개로 3x3 Convolution을
거쳐 각 채널당 특징맵을 연산을 하는 모듈이다. Xception 네트워크는 이렇게 변형한 Extreme Inception 모듈을 구성하여 Depth-wise
separable Convolution 연산을 하게 되는데 그림 7에서 볼 수 있듯이 기존 Convolution은 모든 채널과 지역 정보를 고려하여 하나의 특징맵을 만든 것이라면 Depth-wise separable
Convolution은 색상 채널 별로 각각의 특징맵을 하나씩 만들고 그 다음 1x1 Convolution 연산을 수행하여 출력되는 특징맵 수를 조정하는
차이점이 존재하며 성능을 향상 시킨 네트워크이다 (12).
그림. 6. Inception 모듈의 Extreme 버전
Fig. 6. Extreme version of inception module
그림. 7. 컨볼루션 방법 비교
Fig. 7. Convolution method comparison
2.6 Inception-Resnet-V2 network
2.3절의 네트워크인 Inception 네트워크에 Resnet 네트워크를 적용한 것이 Inception-Resnet 네트워크이다. 해당 네트워크는
다음 그림 8과 같이 나타내게 되는데 기존 Inception-V3의 연산량보다 2배의 메모리와 연산 비용을 가진다고 밝힌 네트워크이다. 각각의 여러 개의 Inception
모듈로 이뤄진 Inception Network를 수정하였는데 그림에서 보시다시피 Inception 모듈 끝단에 Residual network를 달아
Skip connection을 추가하여 구성한 네트워크로 Resnet의 특성과 Inception 모듈의 장점을 가진다 (13).
그림. 8. Inception-Resnet 모듈
Fig. 8. Inception-Resnet module
3. 연구 결과
우리는 CIFAR-10, ImageNet, SVHN의 25가지 정책을 사용하여 훈련 데이터를 증대하고 학습과 테스트를 실시했다. 학습시에는 4개의
네트워크를 사용하였다. 사용된 네트워크는 Inception-V3, Resnet-101, Xception, Inception-Resnet-V2이다.
수집된 데이터 중 정상 데이터 493장과 비정상 데이터 250장으로 743장의 학습 데이터는 18575장으로 증대되었고 각 4개의 네트워크를 통해
학습되었다. 세 개의 데이터 세트가 각각 네 개의 네트워크에서 연구되었기 때문에 총 12개의 모델이 생성된다. 우리의 CADx 시스템은 입력 데이터를
정상과 비정상으로 분류한다. 그림 9는 우리의 학습과 테스트 방법을 나타내고 있다. 우리는 각 모델의 성능을 비교하기 위해 평가 지표인 ROC 커브를 사용하였고 커브의 아래 면적인 Az값으로
비교하였다.
정상, 비정상 분류 성능 결과는 그림 10-13과 같다. 그림 10은 증대하지 않은 데이터로 학습시킨 결과이다. Inception-Res- net-V2, Xception, Resnet-101, Inception-V3의
성능은 각각 Az 값 0.80, 0.83, 0.82, 0.82이다. Xception 네트워크에서 가장 높은 성능을 나타내었다.
그림 11은 CIFAR-10에 대한 정책을 적용하여 비교한 성능이며, 그림 12는 SVHN에 대한 정책을 적용한 것이며, 그림 13은 ImageNet에 대한 정책을 적용하여 성능을 비교한 그래프이다. 그림 11을 보았을 때 CIFAR-10에 대해선 Xception이 0.88로 제일 높은 성능을 보여주며, SVHN의 정책을 적용하여 성능을 비교한 그림 12에서는 Resnet-101이 0.86인 높은 값을 가진 것을 볼 수 있었다. 마지막으로 ImageNet의 정책을 적용하여 비교한 그림 13에서는 Xception, Resnet-101, Inception-V3에서 0.85으로 좋은 성능을 보여주었다. 3가지 정책을 적용한 4가지 네트워크의
성능을 표 3과 같이 모두 나타내 비교하였을 때 Xception 네트워크를 사용하고 CIFAR-10의 정책을 적용하였을 때가 0.88로 제일 높은 성능을 나타낸
것을 알 수 있었다. 같은 네트워크에서 증대를 적용하지 않은 데이터로 학습한 모델의 성능은 증대 정책을 적용하였을 때 모두 성능이 향상된 것을 볼
수 있다.
그림. 9. 제안된 컴퓨터 보조 진단 시스템의 구조도
Fig. 9. The framework for our computer-aided diagnosis system
그림. 10. 증대하지 않은 데이터의 ROC 커브와 Az 값
Fig. 10. The Az values of the area under ROC curves for Non-Augment
그림. 11. CIFAR-10의 증대 정책을 적용한 데이터의 ROC 커브와 Az 값
Fig. 11. The Az values of the area under ROC curves for CIFAR-10
그림. 12. SVHN의 증대 정책을 적용한 데이터의 ROC 커브와 Az 값
Fig. 12. The Az values of the area under ROC curves for SVHN
그림. 13. ImageNet의 증대 정책을 적용한 데이터의 ROC 커브와 Az 값
Fig. 13. The Az values of the area under ROC curves for ImageNet
표 3. 증대 정책과 네트워크의 성능 비교표
Table 3. Performance for each network and augment policy
4. 결 론
위암은 어느 정도 진행이 되기 전까지 증상이 없고, 위암의 전암성 병변들 또한 비슷한 증상을 가지고 있다. 위암을 예방하기 위해서는 내시경 장비로
촬영해 진단하여 사전에 치료하는 것인데, 의사가 이를 육안으로 진단하기 때문에 피로도가 증가하였을 때 진단의 정확도가 낮아지거나 의사마다 진단의 정도가
다르다는 문제점이 존재한다. 본 논문에서는 내시경으로 촬영된 데이터를 활용하여 데이터 증대 방법 중 자동화 방법으로 발표된 AutoAugment 방법을
적용하여 CADx 시스템 모델을 설계하였다. 의료영상의 특성상 데이터 수집에 어려움이 존재하기 때문에 증대하는 방법으로 데이터를 확대해 많은 연구가
진행되어왔다. 직접 파라미터를 조절하는 수동방식 증대는 사람마다 성능이 달라진다는 단점이 있다. 하지만 Auto- Augment 방법은 검증된 대규모의
데이터 세트인 CIFAR-10, SVHN, ImageNet에 대한 증대 정책이 자동화 방법으로 제시되었다. 결과에서 볼 수 있듯이 3가지 정책들로
증대한 CADx 시스템의 성능은 모두 향상된 것을 볼 수 있었다. 우리는 이전에 대표적인 증대 방법인 회전을 적용하여 위 내시경의 분류 성능이 얼마나
상승하는지 실험했었고 Az 값이 약 0.02 상승하는 것을 확인하였다 (5). 이번 연구에서는 최대 0.05까지 상승함을 보여주었다. CIFAR-10의 증대 정책을 Xception 네트워크를 통해 학습한 모델이 Az값 0.88로
가장 높은 성능을 보여주었다.
이는 CIFAR-10, ImageNet, SVHN들에 대한 데이터 세트 성질이 달라 AutoAugment를 통하여 나온 정책들도 데이터마다 다르기
때문이다. CIFAR-10은 RGB로 이뤄진 10개의 클래스로 구성된 데이터 세트이기 때문에 위 내시경 영상 같이 RGB로 이뤄진 데이터에 대하여
해당 정책을 적용하였을 때 가장 좋은 성능을 가질 수 있었다. ImageNet은 약 1000개의 다양한 클래스로 이뤄진 데이터 세트이고 대조, 색
균일화 정책 등과 같은 밝기에 관련된 증대 정책이 제시되었으며, SVHN은 말 그대로 길거리 주소 이미지 데이터이기에 색채 조절이나 밝기에 대한 정책보다는
이미지를 비틀거나 색상을 반전시키는 정책을 제시하였다. 따라서 본 연구에서 사용한 위 내시경 영상의 경우 CIFAR-10의 데이터 셋의 증대 정책이
가장 적합한 정책이란 것을 볼 수 있다.
향후 연구에서는 이렇게 RNN과 CNN으로 자동화 증대 방법을 적용한 방법 말고도 데이터를 생성할 수 있는 GAN을 통하여 연구를 진행할 것이며,
정상과 비정상 뿐만 아니라 비정상 중에서 각각의 병변을 구분할 수 있는 다중 분류 CADx에 대해서도 진행될 것이다.
Acknowledgements
This work was supported by the National Research Foundation of Korea (NRF) grant funded
by the Korea government(MSIT) (No. 2017R1E1A1A03070297). This research was supported
by the MSIT(Ministry of Science and ICT), Korea, under the ITRC (Information Technology
Research Center) support program (IITP- 2020-2018-0-01433) supervised by the IITP
(Institute for Infor- mation & communications Technology Promotion).
References
F. Bray, J. Ferlay, I. Soerjomataram, R. L. Siegel, L. A. Torre, A. Jemal, 2018, Global
cancer statistics 2018: GLO- BOCAN estimates of incidence and mortality worldwide
for 36 cancers in 185 countries, CA: a cancer journal for clinicians, Vol. 68, pp.
394-424
K.-P. Ko, 2019, Epidemiology of gastric cancer in Korea, Journal of the Korean Medical
Association, Vol. 62, pp. 398-406
I. J. Choi, 2018, Helicobacter pylori eradication therapy and gastric cancer prevention,
The Korean Journal of Gas- troenterology, Vol. 72, pp. 245-251
D.-h. Kim, H. Cho, H.-c. Cho, 2019, Gastric Lesion Classification Using Deep Learning
Based on Fast and Robust Fuzzy C-Means and Simple Linear Iterative Clustering Superpixel
Algorithms, Journal of Electrical Engineering & Technology, Vol. 14, pp. 2549-2556
D.-h. Kim, H.-c. Cho, 2018, Deep learning based computer- aided diagnosis system for
gastric lesion using endoscope, The Transactions of The Korean Institute of Electrical
Engineers, Vol. 67, pp. 928-933
D. Ergashev, Y. Im Cho, 2019, Skin Lesion Classification towards Melanoma Diagnosis
using Convolutional Neural Network and Image Enhancement Methods, Journal of Korean
Institute of Intelligent Systems, Vol. 29, pp. 204-209
Y. Zhu, Q.-C. Wang, M.-D. Xu, Z. Zhang, J. Cheng, Y.-S. Zhong, Y.-Q. Zhang, W.-F.
Chen, L.-Q. Yao, P.-H. Zhou, Q.-L. Li, 2019, Application of convolutional neural network
in the diagnosis of the invasion depth of gastric cancer based on conventional endoscopy,
Gastrointestinal endoscopy, Vol. 89, pp. 806-815
A. Asperti, C. Mastronardo, 2017, The effectiveness of data augmentation for detection
of gastrointestinal diseases from endoscopical images, arXiv.org
E. D. Cubuk, B. Zoph, D. Mane, V. Vasudevan, Q. V. Le, 2019, Autoaugment: Learning
augmentation strategies from data, in Proceedings of the IEEE conference on computer
vision and pattern recognition, pp. 113-123
C. Szegedy, V. Vanhoucke, S. Ioffe, J. Shlens, Z. Wojna, 2016, Rethinking the inception
architecture for computer vision, in Proceedings of the IEEE conference on computer
vision and pattern recognition, pp. 2818-2826
K. He, X. Zhang, S. Ren, J. Sun, 2016, Deep residual learning for image recognition,
in Proceedings of the IEEE conference on computer vision and pattern recog- nition,
pp. 770-778
F. Chollet, 2017, Xception: Deep learning with depthwise separ- able convolutions,
in Proceedings of the IEEE conference on computer vision and pattern recognition,
pp. 1251-1258
C. Szegedy, S. Ioffe, V. Vanhoucke, A. A. Alemi, 2017, Inception-v4, inception-resnet
and the impact of residual connections on learning, in Thirty-first AAAI conference
on artificial intelligence, pp. 4278-4284
저자소개
She received the B.S. degree in Electrical and Electronic Engineering from Kangwon
National University, South Korea in 2018.
She is currently working toward the M.S. degree in Interdisciplinary Graduate Program
for BIT Medical Convergence from Kangwon National University, South Korea.
He received the B.S. degree in Electrical and Electronic Engineering from Kangwon
National University, South Korea in 2018.
He received the M.S. degree in Interdisciplinary Graduate Program for BIT Medical
Convergence from Kangwon National University, South Korea in 2020.
He received his MS and PhD degrees in Electrical and Computer Engineering from the
University of Florida, USA in 2009.
During 2010-2011, he was a Research Fellow at the University of Michigan, Ann Arbor,
USA.
From 2012 to 2013, he was a Chief Research Engi- neer in LG Electronics, South Korea.
He is currently a professor with the Department of Electronics Engineering and Interdisciplinary
Graduate Program for BIT Medical Convergence, Kangwon National University, South Korea.