@주3회 발행하는 뉴스레터 [스타트업]입니다. 무료 가입은 https://page.stibee.com/subscriptions/143087 입니다.
자칭 ‘구글보다 더 번역을 잘한다’는 창업 3년차 실리콘밸리 스타트업이 있습니다. 이름도 어려운 ‘XL8′입니다. 엑스엘에이트라고 읽는데요. (내부에서는 엑스라지8사이즈라고 부르기도 한다네요) 어떤 자신감에서 이런 소리가 나오는지 창업자 정영훈(41) 대표를 최근 만났습니다. 정 대표는 삼성전자에서 ‘비운의 OS’ 타이젠을 개발하다가, 2011년 미국 컬럼비아대로 유학을 떠나 컴퓨터공학 박사를 딴 뒤 구글에 취직해 4년간 검색팀, 이벤트 서치팀을 거쳐 테크 리드 매니저자리까지 올랐던 ‘엄친아’급 스펙을 가진 인물입니다. 잘 다니다가 2019년 나와서 번역 스타트업을 차렸는데요. 왜 번역 최강자인 구글을 나와 레드오션 중 레드오션인 기계번역 스타트업을 차렸을까요? 정 대표는 “구글은 쓰레기 데이터로 금을 만드려는 연금술을 하고 있다”고 했습니다. 꽤 도발적인데요.
◇“구글은 쓰레기 데이터로 금을 만드는 연금술한다”
구글이 쓰레기 데이터를 쓴다구요?
“저도 구글에 있었지만, 구글은 다 웹 페이지를 번역 데이터로 씁니다. 웹에서 영문 홈페이지, 한국어 홈페이지 갖고 와서 이 단어가 저 단어고, 이 문장이 저 문장이구나 학습하는거죠. 그런데 애초 웹데이터이기 때문에 틀린 부분이 엄청 많아요. 어디 공식 홈페이지에 써있는 말투가 우리 일반적으로 쓰는 말투와 다르잖아요. 가져오는 데이터 자체에 문제가 많습니다.
안좋은 데이터를 좋게 만들기 위해서 사실은 엄청나게 많은 수고를 하고 있습니다. 그래서 구글에서도 한 절반 정도는 안 좋은 데이터를 좋게 만드는 방법, 적은 데이터를 늘리는 방법, 안 좋은 데이터로 학습을 잘하는 방법, 언어 데이터가 많은 언어를 이용해 데이터가 적은 언어를 보완하는 방법 이런 걸 많이 연구해요. 개인적으로 이걸 다 연금술이라고 생각합니다.”
연금술이요?
“실은 쓰레기 데이터를 가지고 금을 만드려고 노력을 하는 것인데요. 아무리 해봤자 사실 금이 안 됩니다. 연금술이 그랬잖아요. 기껏해야 구리 정도 되는거죠. 반면 XL8은 LSP(Language Service Provider)하고 파트너십을 통해서 정제된 데이터만을 가져와요. 일반인이 만든게 아니고, 번역 전문가들이 수정에 수정을 거듭해 만든걸 받아와서 번역을 하는 건데요. 애초에 구글과 시작점이 다른거죠. 연금술을 안하고 골든 데이터를 가지고 번역을 하는 거니까요.
데이터 양이 어마어마하게 차이 날텐데요.
“맞습니다. 구글과 비교하면 데이터 양은 XL8은 100분의 1 정도? 적습니다.”
◇“기계 번역이 해결 못한 숱한 페인포인트”
구글과 100배면, 엄청난 차이도 아니네요?
“네. XL8도 데이터가 많거든요. 모회사가 세계 자막업체 1위인 아이유노인데, 업력이 20년입니다. LSP로부터 받은 데이터가 20년동안 쌓여왔고요. 아, 먼저 LSP가 무슨 일을 하는지 좀 자세히 설명을 드릴게요. 넷플릭스에서 콘텐츠 1000편을 만들면, 이걸 최소 20개 언어로 번역을 하는데 자기들이 다 할 수가 없어요. 이걸 LSP에 아웃소싱 주는 건데요. LSP는 완벽히 해야하기 때문에 사람이 번역하고 또 사람이 붙어서 검수합니다. 이런 과정을 두세번 거치다보니, 구글과는 다른 정제된 데이터가 들어오는 거죠.”
비용과 시간이 많이 들었겠네요.
“네 그렇죠. 이제 초벌 번역을 사람 대신 기계번역으로 처리합니다. 아이유노와 XL8이 함께 일하는 것도 그런 프로세스죠. 그런데 XL8의 번역이 아이유노로 가서 그냥 끝나는게 아닙니다. 저희는 번역된 결과를 다시 가지고 와서 학습합니다. 다시 말하면, 우리 기계번역의 실수가 다시 고쳐진다는 거죠. 지속해서 번역 엔진을 고도화할 수 있습니다. 우리만의 강점이죠.”
왜 창업했나요.
“구글에서 있던 경험이 크죠. 구글에서 2017년 발표한 ‘트렌스포머’ 기계번역 모델이 브레이크스루가 됐습니다. 여기서 제가 더 나아가면 비전을 가질 수 있겠다 생각을 했습니다. 구글에서 자연어처리 시스템 앱을 많이 담당했습니다. 여기에 추천이 가미되면서 많은 기술이 들어가요. 이런거 하면서 창업 고민을 했죠. 사실, 기계 번역이 해결하지 못하는 문제가 많아요. 영상에서 화자를 인식해서 그 사람에 맞게 번역을 정확하게 해준다든가, 목소리에 감정을 실어서 나중에 전달해준다든가. 이런건 지금 구글이 못하거든요. 이런걸 해결하고 싶었습니다.
[오늘의 무료 콘텐츠는 여기까지이고, 전문은 유료 구독자에게 공개합니다. 유료 구독자는 2021년 3월 이후에 발행한 모든 콘텐츠를 볼 수 있습니다. 아래는 전문에 나온, 부제와 질문, 사진, 그래픽입니다. 유료 가입 https://page.stibee.com/subscriptions/158656 입니다. 감사합니다.]
◇“합쇼·하소서·해라 같은 어투... 한국어는 아직 70~80% 수준”
◇‘그거 주면 해볼게’의 기계번역, [XL8] If you give that, I’ll try that. [구글] I’ll give it to you
◇몬스타엑스의 태국 팬미팅을 실시간 기계번역
🚀 https://chosun.app.link/YDOBhdKkuub 안전한 조선일보 앱 다운 링크를 많이 많이 공유해주세요.