• 대한전기학회
Mobile QR Code QR CODE : The Transactions of the Korean Institute of Electrical Engineers
  • COPE
  • kcse
  • 한국과학기술단체총연합회
  • 한국학술지인용색인
  • Scopus
  • crossref
  • orcid




Voice User Interfaces, Command-and-Control, Annyang Library, Voice Interface Technology

1. 서 론

음성인터페이스 기술이란 인간의 가장 자연스러운 의사소통 수단 중 하나인 ‘말’을 이용하여 기계와 인간과의 대화를 가능하게 하는 기술이다(1). 음성 사용자 인터페이스(Voice User Interface, 이하 VUI)는 오래 전부터 제시된 개념이지만, 대략 2008년 이후 음성인식을 상용화하는 과정에서 나타난 심각한 문제들을 해결하면서 상용화 사례가 나타났다. 음성인식 기술은 다양한 산업의 제품과 서비스에 공통적으로 적용되는 기반기술이지만, 상용화 사례는 아직 자동차 네비게이션과 같은 전자제품, 가전제품, IPTV 등에서 제한적이며, 주로 스마트폰・스마트시계・스마트밴드와 같은 모바일 기기를 중심으로 활발히 나타나고 있다. 이러한 현상은 스마트폰이 일반인에게 보급되며 급속히 확산되기 시작하면서 음성인식 기능에 대한 요구가 급속히 증가하게 된 이유가 있다. 스마트폰의 경우 PC와 달리 문자입력 수단이 불편하며 대부분 이동 중 사용하기 때문에 음성인식과 같은 핸즈프리(hands-free) 입력 기능이 절실히 필요한 사용자 환경이기 때문이다(2).

음성을 이용한 명령 입력방식의 장점 중 하나는 키보드・마우스 인터페이스 방식과 병행 사용할 수 있다는 점이다. 그러므로 컴퓨터 서버나 PC에서 구동되는 소프트웨어에서 VUI를 지원하면 작업효율을 향상시킬 수 있다. 본 연구에서는 다수의 서버를 관리하는 다중서버 관리시스템을 위한 명령형 VUI 모듈을 설계하고 구현하였다

다중서버 관리시스템은 IoT 센서 활용이 급증함에 따라 증가하고 있는 다수의 엣지 컴퓨팅 서버(edge computing server)를 효율적으로 관리하기 위해 본 연구팀이 개발한 프로토타입 소프트웨어 시스템이다. 서버관리자가 일상적으로 다수의 엣지 서버의 운영상태 점검 및 설정 업데이트, 보안 취약점 점검, 보안패치SW 설치, MySQL DBMS(Database Management System) 설치 및 환경설정, 수집된 IoT 데이터의 업로드 등을 관리한다. 이 작업 중 대상 엣지 서버에 대한 관련 정보를 참조하는데, 참조정보 조회 작업과 엣지 서버 설정 작업을 병행할 수 있도록 음성 인터페이스와 키보드・마우스 인터페이스를 함께 사용하는 멀티모드 인터페이스(multi-modal interface)를 지원하면 작업 효율성을 높일 수 있을 것이다.

VUI는 스마트폰 같은 모바일 기기에서 채택하고 있는 대화형 VUI가 일반적이다. 본 연구에서는 대상 사용자가 한정된 전문 사용자이므로 명령형 VUI를 채택하였다. 일반적인 모바일 기기는 높은 휴대성을 위해 크기를 작게 설계하여 문자입력이 불편하기 때문에, VUI를 문자입력의 대체 수단으로 활용하므로 대화형 음성 인터페이스 방식이 타당하다. 그러나 다중서버 관리시스템과 같은 응용 소프트웨어의 경우는 음성 인터페이스와 키보드・마우스 인터페이스를 동시에 사용하는 멀티모드 인터페이스의 지원이 다음의 이유로 타당성이 있다. 첫째, 다중서버 관리시스템에서 사용자 명령으로 출력되는 정보량이 많아서 음성 출력은 사용자의 인지부하(cognitive load)를 초래할 수 있다. 둘째, 그래픽을 포함한 많은 사용자 요구정보를 화면 인터페이스를 통해 출력되면 정보습득이 빠르고 반복적으로 확인할 수 있다. 셋째, 음성과 화면을 함께 사용하는 멀티모드 인터페이스를 통해 병행성을 높여 사용자의 작업효율을 향상시킬 수 있다. 세 번째 요소는 모바일 기기에 비해 PC기반 응용 소프트웨어의 VUI가 가질 수 있는 장점이다. (3)은 정보인지 효율성 향상을 위해 음성 인터페이스의 디자인의 고려사항으로 음성언어・문자언어 멀티모드 인터페이스의 지원을 제시하였다.

본 연구에서는 다중서버 관리시스템의 기능들에 대해 텍스트 형태의 표준명령문들과 이들과 같은 의미의 유사 명령문들을 작성하여 명령문 집합(command-sentence set)을 구성하였다. 또한 표준명령문에서 오인식된 표현들은 유사어 사전을 구성하여 음성 왜곡문제를 개선하였다. 이를 기반으로 서버관리자가 다중서버 관리시스템의 기능을 마우스뿐만 아니라 음성명령으로 실행할 수 있도록 음성 인터페이스를 설계하였다. 그러므로 서버관리자는 키보드를 사용하여 대상 서버를 위한 설정작업을 수행하면서 이와 연관된 서버정보를 음성명령으로 실행을 요청하여 멀티 모니터에 출력시킬 수 있다.

음성명령의 인식을 위한 문법설계는 규칙기반 인식문법과 통계적 인식문법으로 분류할 수 있는데(4), 서버관리를 위한 명령들은 규정된 단어와 문장으로 모두 다룰 수 있어 규칙기반 인식문법 방식을 사용하였다. 음성인식기는 웹브라우저에서 구동이 가능한 공개 소프트웨어인 Annyang 라이브러리(5)를 사용하였다. 이번 연구결과는 전문 사용자를 대상으로 하는 응용 소프트웨어, 설비관리 소프트웨어, IoT 기기 모니터링 시스템 등에서 VUI 설계에 활용할 수 있을 것으로 기대된다.

본 논문의 구성은 다음과 같다. 2장에서 VUI에 대한 관련 연구를 살펴본다. 3장에서는 명령형 음성 인터페이스에서 구성요소 설계, 다이얼로그 설계, 그리고 음성명령 변환 모듈의 설계 내용을 차례로 설명한다. 4장에서는 시스템의 구현 내용과 실험결과를 기술한다. 마지막으로 5장에서 결론을 맺는다.

2. 관련 연구

(1)은 음성인식 기술과 음성 인터페이스의 요소기술을 분석하고 상용화 문제점, 산업동향과 시장동향, 그리고 산업전망을 기술하였다. (2)는 음성인식 기술의 특징을 살펴보고, 스마트폰 환경에서의 음성 인터페이스의 서비스 동향을 분석하였다. (4)는 VUI의 특징을 분석하고 개발 시 각 단계별 설계요소를 제시하였다. (6)은 사용성 평가 대상인 음성 인터페이스 시스템이 구현되지 않은 단계에서 사용성을 평가하고 이를 반영하여 개선할 수 있도록 시뮬레이션 방식의 명령형 음성 인터페이스의 설계를 위한 사용성 평가도구를 제시하였다. 이 연구결과는 범용 사용자를 위한 음성 인터페이스의 설계에 적합한 것으로 보이며, 본 연구에 적용을 시도해 본 결과 한정된 사용자를 위한 음성 인터페이스 개발 시에는 사용성 평가환경을 구축하는데 많은 부하가 발생할 것으로 추정된다. (3)은 음성 인터페이스의 디자인 고려사항으로 “인간은 주변 환경을 인지하는데 70% 이상을 시각에 의존하고 있기 때문에 가능하다면 시각적 피드백을 적절히 사용할 필요가 있다.”고 제안하며, 음성언어・문자언어 멀티모드 인터페이스의 병행 사용이 정보인지 효율성을 향상시킨다고 하였다. 음성인식 성공률에 관한 연구로는 (7)에서 국토해양부에서 운영 중인 교통정보 안내전화 통합운영 시스템을 근간으로 하여 음성인식에 대한 성공률을 분석하고 음성인식 성공률 향상 방안에 대해 제시하였다. 음성 인터페이스를 활용한 응용 시스템으로 (8)은 관광경로의 출발지・목적지를 음성 입력받아 출발지, 목적지, 그리고 인근의 관광지에 대한 정보를 안내하는 통합 관광정보 안내시스템에 개발하고 성능평가 결과를 제시하였다. 음성 왜곡률 실험결과 1.7%가 주목할 만한 점이나, 본 연구의 결과는 컴퓨터용 소프트웨어에 음성 인터페이스의 적용을 위해 실용적인 접근방법을 사용했다는 점에서 차별성이 있다.

3. 명령형 음성 인터페이스 설계

3.1 구성요소

음성 인터페이스란 사람과 음성언어 애플리케이션이 서로 상호작용하는 것으로 프롬프트(prompt), 인식문법, 대화로직으로 구성된다(6). 프롬프트는 대화 중에 시스템이 사용자에게 들려주는 합성된 음성 또는 미리 녹음된 음성을 말한다. 인식문법은 각각의 프롬프트에 대한 사용자의 모든 가능한 응답을 정의한다. 시스템은 문법에 포함되어있는 단어, 문장, 구문들만 인식한다. 대화로직은 사용자의 발화에 대한 시스템의 응답이나 데이터베이스에서 조회된 정보를 음성으로 출력해 주는 등의 행위를 의미한다(8).

3.1.1 프롬프트

범용 사용자를 대상으로 하는 대화형 VUI의 경우, 연구 (6)에서 제시한 것과 같이 프롬프트의 사용성을 향상시키기 위해 잠재 사용자를 대상으로 후보 프롬프트를 수집 및 테스트해서 사용자들이 쉽게 인식할 수 있는 사용자 어휘들로 구성해야 한다. 본 연구의 명령형 VUI는 한정된 전문 사용자가 장시간 사용하는 환경이므로 사용편리성과 빠른 반응성을 고려하여 프롬프트로 짧은 신호음과 시각적 표현을 함께 사용하였다. 신호음의 경우 사용자 주변환경을 고려해서 ‘on’/‘off’를 설정할 수 있도록 하였다. 신호음 프롬프트 설계 시에는 신호음 선정, 신호음 길이, 신호음 크기를 고려해야 한다.

3.1.2 인식문법

인식문법을 설계할 때는 인식 명령어를 기억하는 부담을 줄이기 위해서는 사용성 평가 중에 사용자가 실제로 사용하는 명령어들을 수집해야 한다(6). 본 연구에서는 사용자의 학습용이성, 기억용이성, 작업효율성을 높이기 위해, 먼저 전문 사용자가 서버관리 작업을 위해 필요한 텍스트 형태의 표준 명령문들을 선정하고, 이를 기반으로 같은 의미의 유사 명령문들을 작성・분류하여 명령문 집합을 구성하였다. 그리고 이 명령문들을 사용자가 직접 발화하여 발화가 자연스러운 명령문으로 정제했다. 표 1~2는 각각 표준 명령문과 명령문 집합의 예를 나타난 것이다. 음성명령은 사용자 발화가 시작되면 기록되며 발화종료시간을 초과하면 하나의 음성 명령문으로 간주한다. 발화종료시간은 1.5초이다. 음성명령은 음성인식기를 거쳐 텍스트 명령문으로 변환되고, 텍스트 명령문은 형태소 분석을 거쳐 4가지 요소로 구성된 실행명령 세트로 변환된다.

표 1. 표준 명령문의 예

Table 1. An example of standard statements

표준

명령문

[ O번창 ] [ O동 서버 ] 모니터링 페이지 열어줘

[ 3번창 ] [ A동 서버 ] 모니터링 페이지 열어줘

표 2. 명령문 집합의 예

Table 2. An example of Statement set

표준

명령문

A동 서버 모니터링 페이지 열어줘

유사

명령문

A동 서버 모니터링 페이지 보여줘

A동 서버 모니터링 페이지 띄어줘

모니터링 페이지 열어줘 A동 서버

3.1.3 대화로직

표 3. 음성왜곡 사례

Table 3. A case of speech distortion

음성 왜곡

표준명령문

5번 창 A동 서버 세부정보 페이지 보여줘

서버

세부정보

5번

음성인식 사례

5번 창 A동 서버 세부정보 페이지 보여줘

-

-

-

5번 창 A동 서부 세부정보 페이지 보여줘

서부

-

-

5번 창 A동 서버 서부정보 페이지 보여줘

-

서부정보

-

5분 창 A동 서버 서부정보 페이지 보여줘

-

-

5분

대화로직은 사용자 발화에 대해 시스템이 실행할 수 있는 모든 가능한 액션(action)을 의미한다. 다중서버 관리시스템은 사용자가 로그인하면, 음성 리스너가 생성되어 음성인식 준비상태를 유지한다. 음성 리스너 상태에서 기동어 “헤이(hey)”가 입력되면, 프롬프트를 생성하여 음성인식의 대기상태로 들어간다. 사용자 발화가 시작된 후 발화종료시간이 초과되면 하나의 음성 명령문으로 간주한다. 음성 리스너 상태에서는 입력되는 음성이 무시되며, 중단어 “멈춰” 또는 “스톱” 또는 “그만”이 입력되면 프롬프트 상태에서 리스너 상태로 전환된다. 음성명령의 실행결과 정보가 그래픽 정보를 포함하고 정보량이 많아서 음성으로 출력하면 사용자의 인지부하를 초래할 수 있어서 다중서버 관리시스템의 VUI 모듈은 사용자 요구정보를 화면 인터페이스를 통해 출력한다.

3.2 명령형 음성 인터페이스의 다이얼로그

VUI에서 시스템과 사용자가 대화를 통해 상호작용이 이루어지는데 이를 다이얼로그(dialog)라고 한다(6). 다중서버 관리시스템을 위한 명령형 VUI의 다이얼로그 순서도는 그림 1과 같다. 웹브라우저를 사용하여 다중서버 관리시스템에 접속하여 로그인하면 웹클라이언트에서 음성입력을 위한 음성 리스너를 생성하며, 리스너는 기동어 인식을 위해 준비상태를 유지한다. 기동어로는 “헤이(Hey)”를 사용하며, 기동어가 입력되면 사용자의 본격적인 음성명령 입력을 위해 프롬프트를 생성하고 대기상태를 유지한다. 프롬프트의 대기상태 시간은 기본 값을 10분으로 설정했으며 10분 동안 음성명령이 입력되지 않으면 리스너 상태로 전환된다. 프롬프트 대기시간을 짧게 설정하면 사용자가 음성명령을 입력할 때마다 먼저 기동어를 발화해야 하고, 길게 설정하면 작업 중 전화통화 혹은 동료와의 대화를 음성명령으로 인식할 수 있다. 프롬프트의 대기시간 길이는 사용자 환경을 고려하여 설계할 필요가 있다.

프롬프트의 긴 대기시간을 보완하기 위해 설계에 중단어를 포함하였다. 중단어가 입력되면 프롬프트 상태에서 리스너 상태로 전환되어 기동어가 입력되기 전의 모든 음성입력은 무시된다. 프롬프트 상태에서 입력된 음성명령은 텍스트 명령문으로 변환하여 다중서버 관리시스템의 VUI 모듈로 전송한다. 텍스트 명령문은 VUI 모듈에서 처리된 다음, 4개 요소로 구성된 실행명령 집합을 반환한다. 웹클라이언트에서는 이를 해석하여 해당 명령을 다중서버 관리시스템으로 요청하여 사용자가 원하는 정보를 웹페이지에 출력한다. VUI 모듈에서 반환된 실행명령에 해당하는 요청이 없는 경우는 음성인식 실패로 간주하여 신호음을 생성하고, 프롬프트 상태로 돌아간다.

3.3 음성명령 변환 모듈

그림 1에서 사용자 발화로 음성명령이 입력되면 음성인식기를 통해 텍스트 명령문으로 변환된 다음, 그림 2의 음성명령 변환모듈이 호출된다. 그림 2는 텍스트 명령문으로 변환된 음성명령을 다중서버 관리시스템의 실행명령으로 변환하는 변환모듈의 순서도이다.

그림. 1. 명령형 VUI의 다이얼로그 순서도

Fig. 1. The flow chart for command-and-control VUI dialog

../../Resources/kiee/KIEE.2021.70.1.207/fig1.png

음성명령 변환모듈은 전송된 텍스트 명령문을 형태소 분석 전에 전처리 작업을 수행한다. 전처리 단계에서는 음성인식의 왜곡을 교정한다. 음성은 동일한 화자의 경우에도 감정, 발성속도, 주변잡음, 마이크 성능 등에 따라 다양한 변이가 발생하고, 동일한 단어라도 화자별로 발성 특성이 다르다(2). 본 연구에서는 표준 명령문의 발화실험을 통해 표준 명령문들에 대해 음성 왜곡현상으로 생성된 단어들을 유사어 사전에 등록하였다. 그리고 전처리 단계에서 텍스트 명령문에 유사어가 존재하면 정규어로 변환하였다. 표 3은 음성 왜곡현상이 발생한 표준명령문 사례를 나타낸 것이다.

전처리 작업이 끝난 텍스트 명령문을 형태소 분석을 통해 “명사, 조사, 동사”를 식별한다, 형태소 분석기는 공개 소프트웨어인 Annyang(5)을 사용하였다. 음성명령 변환 모듈은 내부에 동사테이블과 명사테이블을 포함한다. 이는 미리 정의된 명령문 집합에서 추출한 명사들과 동사들로 구성된 테이블이며 데이터베이스(SQLite3)로 관리한다. 식별된 동사를 동사테이블에 저장된 단어들을 대상으로 유사도 검사를 수행하여 해당 동사를 추출한다. 식별된 명사를 명사테이블에 저장된 단어들을 대상으로 유사도 검사를 수행하여 해당 명사를 추출한다. 추출된 동사와 명사들을 분석하여 다음 형식의 실행명령 세트 {window, type, target, action}을 생성하여 웹클라이언트로 반환한다.

그림. 2. 명령어 변환 모듈 순서도

Fig. 2. The flow chart for instruction conversion module

../../Resources/kiee/KIEE.2021.70.1.207/fig2.png

4. 명령형 음성 인터페이스 구현

제안된 명령형 VUI 모듈은 다수의 서버를 효율적으로 관리하기 위한 다중서버 관리시스템에서 음성 인터페이스를 지원하기 위해 구현하였다. 명령형 VUI 모듈에서 음성인식은 웹브라우저에서 사용할 수 있는 Annyang(5)을 사용했으며, 이로 인해 사용 가능한 웹브라우저가 구글 크롬(Chrome)과 마이크로소프트 엣지(Edge)로 한정된다는 제약이 있다. 프로그래밍 언어는 서버 쪽은 Python Flask 프레임워크를, 클라이언트 쪽은 Python3.x와 JavaScript를 주로 사용하였다.

4.1 구현된 시스템

그림 3~4는 구현된 명령형 VUI 모듈의 실제 구동 화면을 보여준다. 크롬 웹브라우저를 사용하여 다중서버 관리시스템에 로그인하면 음성 리스너가 구동되고, 사용자가 기동어 “헤이”를 발화하면 프롬프트 상태로 전환되어(그림 3), 다중서버 관리를 위한 음성명령 입력 대기상태로 들어간다. 사용자는 효율적인 관리작업을 위해, 메인작업 모니터와 작업 참조정보 모니터로 구성된 다중 모니터 환경에서 작업한다고 가정한다. 그림 4는 명령문 집합에 속한 음성명령 “2번 창 C동 서버 세부정보 페이지로 이동’의 실행결과 화면을 나타낸 것이다.

그림. 3. 프롬프트 상태 화면

Fig. 3. Prompt status screen

../../Resources/kiee/KIEE.2021.70.1.207/fig3.png

그림. 4. 음성명령의 실행 화면 예

Fig. 4. An example of voice command execution screen

../../Resources/kiee/KIEE.2021.70.1.207/fig4.png

그림. 5. 실험환경의 백색잡음 측정

Fig. 5. White noise measurement in the experimental environment

../../Resources/kiee/KIEE.2021.70.1.207/fig5.png

그림. 6. 실험에 사용한 저가형 소형 마이크 (모델명: JayTron사 HM5)

Fig. 6. Low-cost small microphone used in the experiment (Model: JayTron HM5)

../../Resources/kiee/KIEE.2021.70.1.207/fig6.png

4.2 실험 결과

음성은 동일한 화자의 경우에도 감정, 발성속도, 주변잡음 등에 따라 다양한 변이가 발생한다. 또한 동일한 단어라도 화자별로 발성 특성이 다르다. 이러한 특성 때문에 음성인식기가 음성을 정확하게 인식하는 것은 매우 어렵다(2). 음성인식의 정확도가 VUI의 품질에 영향을 주는 주요 요소 중 하나이므로, 본 연구에서는 음성 왜곡률을 측정하였다. 실험은 작은 규모의 연구실에서 세 사람이 키보드 소음을 발생시켜 백색잡음이 평균 51dB인 조용한 환경(그림 5)에서 저가형 소형 마이크(헤드셋 형태)(그림 6)를 사용하여 수행하였다.

표 4. 음성 왜곡률 실험결과

Table 4. Speech distortion rate test result

실험 표준명령문

사용자A

사용자B

사용자C

평균

3번 창 상세정보 페이지 열어줘

20%

5%

5%

10%

작업 페이지로 이동

0%

0%

10%

3.3%

3번 창 닫아

0%

5%

20%

8.3%

2동 서버 로그인 실패기록 보여줘

15%

5%

10%

10%

3동 서버 연결해

10%

5%

5%

6.7%

평 균

9%

4%

10%

-

음성 왜곡률 실험은 세 사람이 다섯 가지 유형의 표준 명령문을 20회씩 발화하여 실험하였으며, 표 4는 실험결과를 나타낸 것이다. 이 실험은 음성 발화에 대해 음성인식기가 생성한 텍스트를 기준으로 평가하였으며, 본 연구에서 구현된 VUI 모듈의 전처리 단계를 거치지 않은 것이다. 표 4에서 알 수 있듯이 음성 왜곡율은 0%~20%까지 다양하지만, 평균값이 10%를 넘지 않는다. 이는 (9)에서 음성인식기(ASR, Automatic Speech Recognizer) 정확도가 이상적인 환경에서 90% 이상이라고 기술한 점을 고려하면 수용할만하다고 평가된다. 표 4의 실험결과에서 두 가지 사실을 알 수 있다. 첫째, 실험에 참가한 사람들의 개인차가 크다는 점이다. 둘째, 음성명령문의 길이 또는 포함된 단어의 형태에 따라 차이가 크다는 점이다.

본 연구에서는 음성 왜곡현상으로 나타난 단어들을 유사어 사전에 등록하여 전처리 단계에서 유사어들을 정규어로 변환하여 음성인식의 오류를 줄였다. 이 방법은 한정된 전문 사용자가 사용하기 때문에 생성되는 유사어들도 한정되므로 음성인식 실패율을 효과적으로 감소시킬 수 있을 것이다.

5. 결 론

본 논문에서는 음성과 키보드를 이용한 멀티모드 사용자 인터페이스 지원을 통해 다중서버 관리시스템의 사용성을 향상시키기 위해 명령형 VUI 시스템을 구현하였다. 구현된 시스템의 음성인식의 성공률을 개선하기 위해 음성의 왜곡률 실험을 진행하였다. 백색잡음이 평균 51dB인 작은 규모의 연구실에서 헤드셋 형태의 저가형 소형 마이크를 사용하여 수행하였다. 세 명의 사용자가 다섯 가지 유형의 표준 명령문을 20회씩 발화하여 실험하였다. 실험결과 7.7%의 음성인식 평균 왜곡률이 나타났으며, 이는 수용할 만한 수준으로 평가된다. 음성 왜곡현상으로 생성된 단어들은 유사어 사전에 1회 등록하여 재실험한 결과 음성 왜곡률이 3.67%로 감소되었다. 이 방식은 한정된 전문 사용자가 다중서버 관리시스템을 사용하기 때문에 생성되는 유사어들도 한정되므로 음성인식 성공률을 개선시킬 수 있을 것이다. 이번 연구결과는 전문 사용자를 대상으로 하는 응용 소프트웨어, 설비관리 소프트웨어, IoT 기기 모니터링 시스템 등을 위한 음성 사용자 인터페이스 설계에 활용할 수 있을 것으로 기대된다. 4.3절 실험에서 표준말을 사용하면서 사투리 억양이 남아있는 발화자의 경우 음성 왜곡률이 가장 높게 나타났다. 음성 왜곡문제를 야기하는 요소 중 하나가 발화자의 음성 억양이라는 점은 사용자의 확대를 저해하는 요인이므로 해결해야 할 과제이다. 기존 GUI는 하향식 메뉴구조로 설계되어 누구나 쉽게 필요한 메뉴항목에 접근할 수 있는 장점이 있지만, 음성 인터페이스를 함께 사용하는 경우는 접근경로가 길어지는 문제점이 있다. 음성 인터페이스 설계 시 GUI 설계도 같이 고려해야 한다는 점도 드러났다.

Acknowledgements

This work was supported by the research grant of Cheongju University (2019.03.01.~2021.02.28.)

References

1 
Yun-Keun Lee, 2005, Voice User Interface Technology, ETRI Electronics and Telecommunications Trends, Vol. 20, No. 5Google Search
2 
Yun-Keun Lee, 2012, Voice Interface Technology Overview and Service Trend in Smart Phone Environment, Journal of The Korean Institute of Communication Sciences, Vol. 29, No. 4Google Search
3 
Min-Jung Kim, 2017, The Study on Consideration of Voice User Interface Design, Journal of the Korean Socity of Design Culture, Vol. 23, No. 3Google Search
4 
Ji-Hye Kwon, Ki-Hyung Hong, 2006, A Survey on Voice User Interfaces Design Methodology, Communications of the Korean Institute of Information Scientists and Engineers, Vol. 24, No. 1Google Search
5 
Annyang, Accessed May 2, 2020, https://www.talater.com/annyang/Google Search
6 
Myeongji Lee, Ki-Hyung Hong, 2011, Implementation of a Usability Testing Tool for User-oriented Design of Command and Control Voice User Interfaces, Phonetics and Speech Sciences, Vol. 3, No. 2Google Search
7 
Dae-Cheol Han, 2011, A Study on the Speech Recognition Reliability of Traffic Information ARS, Proceedings of the KIEE Summer Annual Conference 2011Google Search
8 
Kwang-Myung Jeon, 2012, A Voice User Interface Based Client/Server System Providing Unified Tourism Information, Proceedings of Autumn Annual Conference of IEIE, 2020Google Search
9 
Jeff Raskin, 2000, The Human Interface, Addison-WesleyGoogle Search

저자소개

Heungseo Koo
../../Resources/kiee/KIEE.2021.70.1.207/au1.png

He received the B.S., M.S. and Ph.D.,degrees in Electrical Engineering from Seoul National University, Seoul, South Korea, in 1989, 1991 and 1995, respectively.

Since 1994, he has been with Cheongju University, Korea, where he is currently a professor.

His research interests include Big Data, DITA, Automatic data extraction.