회의 내용을 글로 받아 쳐주고 통화 내용도 문서로 변환해주는 인공지능(AI) 음성 인식 서비스가 뜨고 있다. 특히 코로나 사태 이후 영상 회의와 전화 업무가 늘어나면서, 직장 내에서 회의록 작성을 도맡던 막내급 직원들 사이에서는 “내 삶에 가장 도움 되는 AI”라는 말이 나올 정도다.

국내에서는 네이버와 스타트업들이 AI 음성 인식 서비스를 연달아 출시하며 시장을 주도하고 있다. IT 업계 관계자는 “이용자가 많아질수록 음성 데이터가 쌓여 AI 엔진을 정교하게 학습시킬 수 있다”며 “자동 번역·영상 자막·콜센터 등 적용 분야도 늘어나고 있다”고 했다.

/사진=네이버, 자료=각 업체

◇1시간 회의, 1분이면 문서로 변환

음성을 인식해 문자로 바꿔주는 기술은 이미 수년 전부터 있었지만, 간단한 대화나 단어를 알아듣는 수준에 그쳤다. 하지만 심층 학습(딥러닝) 같은 AI 기술이 등장한 데다, 지난해 팬데믹 이후 비대면 바람을 타고 급격히 늘어난 원격 회의 덕분에 비약적인 성장을 하고 있다. 이제 복잡한 대화나 발표를 실시간으로 척척 받아 쳐주고, 1시간 분량의 회의 녹음은 1분이면 문서로 정리해준다.

네이버는 지난해 12월 AI 음성 인식 서비스 클로바노트를 출시했다. 현재 누적 다운로드 수는 71만건으로, 국내 서비스 가운데 가장 많다. 네이버 관계자는 “올해 1월 대비 지난달 가입자가 7배 이상 늘어나는 등 성장세가 빠르다”고 했다. 클로바노트는 회의·수업·전화 통화에서 녹음된 음성을 노트에 정리한 것처럼 변환해준다. 대화에 참가한 인원만 설정해주면, 자동으로 말한 사람까지 구별해 대화 형태로 만든다. 네이버는 최근 화상회의 서비스 줌(Zoom)에 클로바노트를 자동 연동하는 기능은 물론, 영어와 일본어 변환 기능을 추가했다. 최근 늘어난 글로벌 컨퍼런스콜과 화상회의를 겨냥한 것이다.

스타트업들도 특화된 서비스를 앞세워 시장을 공략하고 있다. 리턴제로의 통화·음성 기록 앱 비토는 통화 내용을 메신저처럼 말풍선 모양으로 정리해준다. 업무 통화가 잦은 영업사원 사이에서 인기다. 지난해 4월 출시 이후 누적 다운로드 수 38만건을 기록했다. 하루 평균 글자로 변환하는 음성 데이터양만 9390시간(391일) 분량이다. 이용자가 늘어나면서 기술도 정교해졌다. 지난 19일에는 사람의 육성과 ARS자동 응답 음성을 구별하는 기술을 탑재했다. 이참솔 리턴제로 대표는 “자체 엔진을 더욱 고도화해 조만간 대화 중 추임새를 걸러내는 기능, 대화 내용을 요약해주는 기능 등을 추가할 예정”이라고 했다. 스타트업 액션파워가 2019년 출시한 AI 음성 인식 서비스 다글로는 기업 간 거래(B2B) 시장을 적극 공략하고 있다. 회사와 집단 내에서 자주 쓰이는 용어를 반영해 변환 정확도를 높이는 것이다. 교회·법률·공공 기관·기업 특화 서비스를 제공한다.

◇해외는 이미 보편화

글로벌 시장에서는 AI 음성 인식 서비스가 보편화됐다. 10억명이 넘게 영어와 중국어를 모국어로 사용하는 등 음성 데이터양이 압도적으로 많아 AI 엔진 학습에 용이하기 때문이다. 미래 먹거리인 AI 분야에 사활을 거는 구글·아마존 같은 실리콘밸리 빅테크 기업들은 AI 음성 인식 기술을 업그레이드하며 각축전을 벌이고 있다. 시장이 일찍 열린 덕분에 한국어 기반 서비스보다 훨씬 정교하다.

구글은 방대한 검색과 번역 데이터를 활용해 여러 서비스 곳곳에 음성 인식 기능을 적용하고 있다. 콜센터에 걸려온 전화를 문자로 변환하면서 동시에 고객의 감정 변화까지 분류해낸다. 유튜브에서는 자동으로 자막을 생성해주기도 한다. 2016년 창업한 미국 스타트업 오터는 화상회의 회의록을 만들어줄 뿐 아니라 지명이나 사람 이름 같은 고유명사도 구별하고, 웅얼거리는 말은 문맥을 유추해 끼워 넣기도 한다.

중국에서는 이미 위챗 같은 메신저로 대화할 때 스마트폰 타자 대신 말로 입력하는 것이 보편화됐다. 같은 발음의 한자가 많고 획수가 많아 쓰는 것보다 말하는 게 더 빠르기 때문에 중국 IT 기업들은 일찌감치 음성 인식 기술을 고도화한 것이다.