Priv's Blog

음성 인식 본문

Dev. Study Note/VR Introduction

음성 인식

Priv 2024. 10. 26. 13:59


 

 

1. 음성 인식 시스템

음성은 인간이 의사소통을 할 때 가장 자주, 많이 활용하는 의사표현 수단이다.

인간과 컴퓨터 상호작용 분야에서도 음성은 자연스러운 컴퓨터 시스템과의 상호작용을 위해서 매우 중요한 역할을 차지한다.

음성을 사용하면 다양한 신체 부위를 사용하고 있어도 동시에 자신의 의사를 명확하게 표현할 수 있으며, 경우에 따라 자신의 감정과 관심사 또한 표현할 수 있다.

컴퓨터의 음성 인식 시스템은 인간의 언어 표현에서 중요하게 작용하는 맥락의 개념을 이해하고, 이를 해석하여 그에 맞는 적절한 피드백을 주는 것이 중요하다.

하지만 아직까지 완벽한 수준의 음성 시스템이 개발되지는 못했으며, 요즘 큰 관심사로 주목받고 있는 'LLM' 또한 완벽하게 문장의 맥락을 파악하고 정확한 답변을 하는 것은 불가능하다고 알려져 있다.

일반적으로 음성 인식 시스템은 단어를 연속적으로 발음하는 것보다 하나씩 끊어서 발음했을 때 정확도가 향상된다.

흔히 말하는 '연음'과 '발음' 문제가 대표적이며, 이 부분은 인간에게도 외국어를 공부할 때 마주하는 대표적인 원수이자 끝없는 고통의 시발점으로 뽑힌다.

말을 하면서 발음이 뭉개지거나, 높낮이가 달라지거나, 발음이 조금씩 차이가 나게 되면 음성 인식 시스템의 정확도도 그만큼 떨어질 수밖에 없으며, 어떠한 형태의 음성 인식 시스템이든 간에 인간의 다양한 언어와 발음을 극복하고 정확하게 의미를 파악하는 인식 성능 강화가 최우선 목표가 될 것이다.

하지만 만약 음성 인식 시스템을 사용하는 애플리케이션을 개발할 때 인간의 다양한 음성을 이해할 수 있을 정도로 충분한 훈련을 시킬 여력이 없을 수도 있다.

이 경우에는 애플리케이션을 사용하면서 스스로 훈련하는 심층 학습 알고리즘의 도입을 고려해야 한다.

클라우드 컴퓨팅 시스템의 활용이 이러한 알고리즘을 도입할 때 큰 도움이 될 수 있으며, 심층 학습 알고리즘이 도입되면 그 애플리케이션을 사용하면 사용할수록 그 사용자에게 점차 최적화되는 맞춤 경험을 제공할 수 있다는 장점도 누릴 수 있다.

만약 애플리케이션이 특정한 옵션 세트가 있을 경우, 미리 오디오 사운드를 특정 명령 문자열에 매핑하여 이와 유사한 음성이 감지되었을 때 해당 문자열로 인식하여 메뉴를 실행하는 기능을 구현하는 것도 가능하다.

요즘 점차 활용 빈도가 늘어나고 있지만 도대체 뭐가 편리하다는 건지는 솔직히 잘 모르겠는 '말로 하는 ARS'가 대표적인 예시이다.

음성 인식의 가장 큰 장점은 가장 자연스럽고 '인간적인' 형태의 의사소통이라는 것이다.

이 때문에 음성 인식과 관련된 기술 발전은 계속되고 있으며, 그만큼 다양한 개선도 이루어지고 있다.

가장 대표적인 단점은 음성을 인식하는(활성화하는) 타이밍을 조절하는 것이다.

또한 명령을 말하는 것이 신체 활동을 일시적으로 방해할 수 있다(인식률을 높이기 위해 마이크에 가까이 입을 가져다 대거나, 주변의 대화를 잠시 멈춰야 하는 등)는 것도 단점으로 손꼽힌다.

그 외에는 자신이 말하고 있는 대화의 내용이 주변 사람들에게도 부득이하게 노출될 수 있기 때문에 보안과 관련된 고려사항도 함께 다루어야 한다는 점도 존재한다.

하지만 인간은 지적인 존재와 대화하는 것이 익숙하기 때문에 기초적인 언어 이해 능력만으로 이루어지는 상호작용조차도 큰 몰입감을 선사할 수 있다는 것은 음성 인식의 대표적인 강점으로 뽑힌다.

이는 아무리 눈앞에 멍청해 보이는 '기계 덩어리' 하나가 놓여 있다고 해도, 자신의 말을 이해하고 그에 맞는 적절한 응답을 내어준다면 인간은 그 '기계 덩어리'가 자신과 동등한 '지적 존재'로 받아들일 수 있다는 것이다.

이는 물리적 몰입감을 뛰어넘어 강력한 정신적 몰입감을 구현할 수 있음을 의미하기도 한다.

VR 시스템의 경우, 키보드와 같이 기존에 사용하던 입력 인터페이스를 함께 활용하기에는 한계가 명확하기 때문에 음성 인식 기술을 활용한 인터페이스가 더더욱 부각된다.

 


 

2. 음성 인식 시스템의 활성화

음성 인식 시스템을 활용할 때는 언제 어떻게 음성 인식 시스템을 활성화할 것인지가 매우 중요하다.

Apple 사에서 개발한 음성 인식 개인 비서, Siri의 경우 "Siri야"라는 말을 하면 스마트폰 화면이 꺼져 있어도 자동으로 Siri가 실행되어 반응하는 기능이 내장되어 있다.

이 때문에 Siri와 유사한 발음이 어디선가 들리기만 해도 시도 때도 없이 갑자기 깨어나서 소리를 내는 바람에 학교 강의 시간이나 회의 시간에 iPhone 사용자들이 당황하는 경험을 종종 볼 수 있었다.

Siri의 사례처럼 음성 인식 시스템을 활성화할 때 언제나 사용자 주변의 소리를 모니터링하고 있다가 특정 커멘드가 인식되면 즉각적으로 반응하는 기능을 사용할 수도 있고, 사용자가 직접 버튼이나 다른 별도의 조작을 통해서 활성화하는 기능을 사용할 수도 있다.

전자의 경우 앞서 언급한 사례처럼 원치 않은 조작을 야기할 수 있다는 문제점이 있으며, 후자의 경우 별도의 조작을 필요로 하기 때문에 사용에 번거로움이 있을 수 있다는 문제점이 존재한다.

음성 인식 시스템의 활성화하기 위한 대표적인 방법을 3가지로 구분해 보자면 다음과 같다.

- 푸시 투 토크 (Push to Talk): 마치 무전기처럼 체험자가 사용하는 컨트롤러에 부착되어 있는 버튼 등을 눌러서 음성 인식 시스템을 활성화하여 사용한다. iPhone 키보드 우측 하단에 내장되어 있는 마이크 버튼이 대표적이며, 음성 인식 시스템을 사용하는 대부분의 장비들이 이 '푸시 투 토크' 기능을 기본적으로 내장하고 있을 만큼 전통적인 디자인이다.

- 네임 투 토크(Name To Talk): 앞에서 언급한 "Siri야"의 사례처럼 미리 지정된 이름(Name)이 호출되면 반응하는 방식이다. 체험자가 미리 지정해 둔 이름을 먼저 호출하고, 그 뒤에 자신이 원하는 명령 사항 등을 덧붙여서 말하면 된다. "Siri야, 알람 10분 뒤에 울리게 맞춰줘." 또는 "Siri야, 집에 가고 싶어." 등이 대표적인 예시이다. 이 방식은 언제나 항상 이름이 불렸는지를 모니터링해야 하기 때문에 시스템이 의도치 않게 호출될 수 있다는 단점도 존재한다.

- 룩 투 토크(Look To Talk): 시선을 주어 체험자가 응시하고 있는 대상이 음성에 반응하는 방식이다. 인간은 대화를 할 때 시선을 함께 사용하는 경향이 있다. '내가 당신과 이야기하고 있습니다'라는 뜻을 응시하는 시선으로 표현하는 것이다. 룩 투 토크 방식은 이러한 점을 활용한 것으로, 다수가 체험자 주변에 함께 있는 공간에서 특정한 상대에게 메시지를 전달하고자 할 때 유용하게 사용될 수 있다. 단, 구현을 위해 정확한 시선 추적 시스템이 함께 구현되어야 한다.

 


 


수고하셨습니다!


'Dev. Study Note > VR Introduction' 카테고리의 다른 글

VR과 시각 디스플레이  (0) 2024.11.13
VR과 디스플레이, 인간의 감각  (0) 2024.10.30
포즈와 제스처  (0) 2024.10.26
VR의 플랫폼  (0) 2024.10.24
소품(Props)과 VR  (0) 2024.10.22
Comments