“엘리스가 만든 건 가상 실습 환경이에요. 코딩이나 AI 교육에는 가상 실습 환경이 기본이고, 학생들한테 각자 고유한 교육 환경을 주는 것이 서비스 핵심 경쟁력입니다. AI 실습을 위해 CPU 기반의 기존 클라우드에서 GPU 클라우드가 필요해졌죠.

실습에 필요한 컴퓨팅 파워를 구하기 위해 AWS를 비롯한 기존 클라우드 서비스를 찾아봤더니 비용이 말도 안 되게 비싸서 교육에 쓸 수가 없더라고요. 그래서 직접 GPU 서버를 만들려고 했는데, 2010년대엔 GPU용 IDC(인터넷 데이터 센터)도 없더라고요. 결국 PMDC 형태로 고전력 IDC에다 GPU 인프라 깔고, 그 위에 가상 실습 환경 클라우드를 올렸습니다. 이렇게 좋은 걸 교육용으로만 쓰기엔 너무 아까워서 ‘이걸 클라우드 서비스로 팔 수 있지 않을까?’라는 생각까지 이어진 것이죠. 저희가 완전히 새로운 사업을 한 건 아니에요. 원래 하던 걸 계속 파고들다 보니까 여기까지 오게 된 거예요.”

엘리스그룹(이하 엘리스)의 시작은 교육 플랫폼이었습니다. 2020년 김재원 대표를 처음 인터뷰했을 때, 김 대표는 교육 콘텐츠 이야기보다 기술 이야기를 계속 했습니다. 소비자 입장에선 ‘코딩 교육 스타트업’이라고 인식됐던 여러 스타트업이 나왔지만, 엘리스는 수강생이 실습을 할 때 어떻게 동시 평가를 할 것인지, 여러 명의 동시 수강을 관리할 것인지, 딥러닝 교육 환경 제공 등 기술에 대한 관심이 더 컸습니다.

엘리스는 최근 AI 데이터센터 구축과 이를 클라우드 서비스로 파는 사업에 나섰습니다. 빅테크들도 A100, H100 등 AI 구동에 필요한 반도체 구하기에 혈안이 되어 있고, 클라우드 산업에서도 AI 반도체 운영 및 신규 데이터센터 건축에 어려움을 겪고 있는 와중에 던진 도전장입니다. 엘리스는 교육 콘텐츠라는 최종 서비스부터 플랫폼과 SaaS를 비롯해 데이터센터까지 밸류 체인 전체를 구축한 셈이기도 하고요. 엘리스는 작년 매출 300억원과 영업이익 100억원을 돌파했습니다.

엘리스의 미션은 ‘더 나은 교육 인프라’, 그걸 위한 ‘AI 교육 필요 → AI 교육 위한 인프라 → 자체 AI 데이터센터 건립’이라는 심플한 구조로 문제를 풀어나가고 있었을지도요. 더 흥미로웠던 것은 ‘우리가 정의한 문제를 풀기 위해 우리의 한계를 스스로 설정하지 않는다’는 정신이었습니다.

김재원 엘리스그룹 대표. /엘리스 제공

1. AWS와 Azure가 아닌 엘리스 클라우드를 교육 현장에서 써야할 이유는?

-왜 굳이 AI 데이터센터를 기반으로 한 클라우드 사업에 나섰어야 했나요. 아니 무엇보다, AWS와 애저, 구글 클라우드, 네이버를 두고 엘리스를 써야할 이유가 있나요?

”우리가 풀어야 할 문제는 기존 클라우드 사용 방식이 좀 달라요. 보통 클라우드는 웹이나 앱 서비스처럼 24시간 내내 돌아가야 하잖아요. 서버 다운되면 안 되니까요. 그런 퍼블릭 클라우드가 대부분이었는데, GPU는 좀 달라요. GPU 기능은 두 가지로 나뉘어요. 하나는 추론이에요. 사용자가 AI 모델 써서 결과 뽑아내는 거죠. 이건 보통 클라우드가 하던 거예요. 요청받고 응답하고.

그런데 새로운 분야가 생겼어요. 바로 학습이에요. AI 모델 학습시키는 건데, 이게 GPU를 엄청 잡아먹어요. 언제 학습시키냐면요, 새로운 데이터가 들어올 때마다 해야 돼요. 그때마다 GPU가 엄청 필요한 거죠. 교육 실습을 위한 클라우드는 조금 다릅니다. AI 학습을 위한 GPU 리소스를 쓰지 않고, 전통적인 클라우드처럼 요청-응답에 포커스를 할 수 있어요. 24/7 GPU가 돌아가야하는 클라우드와 다르게, 교육을 위해 더 저렴하고 스펙을 구성해 클라우드를 제공할 수도 있는 것이죠.”

-PMDC. 이동형 모듈러 데이터센터라는 새로운 형식의 데이터센터를 구축했습니다.

“일반 데이터센터는 다 규격화되어 있어서 바꿀 게 별로 없어요. 근데 PMDC는 달라요. 냉조랑 공조를 어떻게 구성할지, 낙뢰 맞았을 때 배터리는 얼마나 버틸지, 이런 걸 다 조절할 수 있어요.

-PMDC를 찾아보니 사실상 컨테이너 박스 안에 서버를 넣은 형태더군요. 여러 냉각 장치와 안정성을 구축한 빅테크 데이터센터가 아닌 컨테이너 박스에 컴퓨팅 파워를 맡기기엔 고객 입장에서 불안하지 않을까요?

”교육이나 연구 쪽은 안정성을 좀 포기해도 돼요. 대신 비용이 싸야 돼요. 그런 수요가 있을 거라고 봤죠. 교육 플랫폼 중에서도 24시간 돌아가야 하는 건 그냥 퍼블릭 클라우드 써요. 우리는 실습 환경만 제공하는 거예요. AWS나 애저랑 경쟁하자는 게 아니라, 멀티 클라우드 시대가 올 거라고 본 거죠. 전기도 친환경, 원자력 이렇게 종류가 여러 개잖아요. 클라우드도 마찬가지예요. 겉으로 보기엔 다 똑같은 연산이지만, 사용자 니즈에 따라 구조가 다를 수 있어요. 우리는 교육, 연구 쪽에 최적화된 구조를 만들고 있는 거죠.”

-수천평에 달하는 데이터센터들. 지금은 병목현상이 있지만 계속 신규로 지어질 겁니다.

“기존의 데이터센터(IDC)는 비용 문제가 아니라 일단 고전력 구조부터 만들어야 돼요. 전력 끌어오는 것도 없을 텐데 말이죠. 전력부터 건물 설계, 건축까지 3년은 봐야 해요. 허가부터 받아야 되거든요. 서버 랙당 전력을 얼마나 만들어야 하는지, 그 전력에 맞는 쿨링은 어떻게 해야 하는지, 그러면 건물 구조는 또 어떻게 되어야 하는지... 건물 짓는 데 들어가는 돈이 천문학적이에요. 시간도 엄청 오래 걸리고요. 그러니까 지금 당장 쓰고 싶은 AI 수요를 맞출 수가 없는 거예요. 그래서 ‘얼마나 들어요?’라고 물어보셨는데, 사실 이걸 계산할 수도 없는 상황이에요.”

엘리스 클라우드. 실물 사진은 비공개라고 한다. /엘리스 제공
PMDC 이해를 돕기 위해 2호는 열심히 구글링을 해보았지만 PMDC 실물 사진을 찾기 쉽지 않았다. 몇 안 되는 PMDC의 실물 사진으로, IBM의 제품. 엘리스 PMDC도 이런 컨테이너 박스일 가능성이 높다. 사진 속 PMDC는 2011년 테스트 제품으로 개념은 2010년대부터 있었다고 한다. /위키미디어 제공

2. “꼭 큰 데이터센터를 수도권에 지어야 할 이유가 있나요?”

-PMDC는 어디에 있나요. 실물이 궁금합니다.

“비밀입니다.”

-여러 정보를 종합하니, PMDC는 한 곳에 모여있는 것이 아니라 지방을 비롯해 여러 곳에 흩어져있는 시스템이더군요.

”클라우드 데이터센터(IDC)의 문제가 뭐냐면요, 장애 나면 2시간 안에 뛰어들어가야 돼요. 보통 엔지니어들은 수도권에 있잖아요. 지방에 가기가 힘든 거죠. 그래서 지방에는 IDC가 별로 없어요. 근데 지방에도 공장도 있고 전력 수요는 있거든요. 수도권이 문제지, 밖으로 나가면 전력 부족 문제가 괜찮아요.

여기서 PMDC의 장점이 부각됩니다. PMDC는 한 곳에 다 모아서 지을 필요가 없거든요. 오히려 여러 군데 작게 짓는 게 더 좋을 수도 있어요. 전기 규제나 보안 정책이 전력량에 따라 복잡해지거든요. 여러 곳에 분산시키면 더 유연하게, 수요에 맞춰 전력을 공급받고 운영할 수 있죠. PMDC 클라우드 모델은 미국이나 해외에서도 시도하고 있습니다. 한국에서 다른 업체도 시도는 하고 있는데, 할 수 있는 곳이 많아 보이진 않아요. 스타트업 중에서는 이 정도 자본을 투자할 수 있는 데가 없어 보이고요. 대기업은 자신들의 서버 인프라로 PMDC를 사용하니, 엘리스처럼 고객에게 서비스한 케이스를 만드는 곳은 없는 걸로 압니다.”

-수치적으로 PMDC가 일반적인 데이터센터(IDC)에 비해 어느 정도 낫나요.

“보통 전력효율지수, PUE로 데이터센터의 전력 효율을 평가하는데, 한국 데이터센터 평균이 2~2.3 정도예요. 근데 우리는 1.5예요. 이게 낮을수록 좋은 거거든요. 낮을수록 전기가 쿨링에 덜 쓰이고 실제 반도체에 더 많이 쓰인다는 뜻이죠. 1이면 완벽한 것이고요. 엘리스가 이렇게 할 수 있는 이유가 뭐냐면, PMDC 자체가 공간을 집약적으로 만들어서 고밀도 부분만 쿨링하면 되게 만들었거든요. GPU는 고밀도 전력이 필요하니까 공간이 크게 필요한 게 아니라, 작은 공간에 전력 밀도가 높아야 돼요.”

-A100, H100 등 엔비디아의 칩을 구하는 것이 관건입니다.

“엔비디아 GPU를 AI 용으로 구입한 회사는 아마 국내 교육 회사 중에선 엘리스가 최초일겁니다. 다들 AI 반도체의 물량 걱정을 하지만, PMDC 모델이 좋은 게, 지금 수요에 맞춰서 늘려갈 수 있어요. 데이터센터처럼 수천억, 수조원을 투자해서 큰 건물을 먼저 짓고 입주사를 모으는 방식이 아니라, 수요에 탄력적으로 컨테이너 박스를 늘린다고 생각하면 되거든요. PMDC는 달라요. 고객이 줄어들면 중간에 구입을 멈출 수도 있어요. 수요에 맞춰서 대응할 수 있는 거죠. 우선, PMDC 기반 시장에선 하드웨어보다 엔지니어가 훨씬 더 중요해요. 인프라를 운영할 엔지니어가 계속 보강이 되어야 하고, 최근에도 지속적으로 애플을 비롯한 해외 빅테크 출신들을 모시고 있습니다.”

-지금은 PMDC의 가격 경쟁력이 있지만, AI 반도체 가격이 하락하고 규모의 경제가 완전히 정착하는 시간. 그 쯤엔 AI 클라우드 가격도 싸질 겁니다.

“물론입니다. 솔직히 자본이 이길 가능성이 커요. 하지만 국가적, 사회적 대응을 해야하는 곳에 또다른 멀티 클라우드의 자리가 있을 겁니다. 예를 들어 교육부가 AI 교육 사업을 하는 인프라를 조성하겠다고 한다면, 혹은 정부 차원의 AI 클라우드 인프라를 구성해야 한다면 유연하게 쓰일 수 있고 국내 자체 기업이 만들 수 있는 PMDC가 쓰일 가능성도 존재하는 것이죠.”

그래픽=조선디자인랩 정다운

3. “2021년부터 AI 데이터센터 기획, 챗GPT가 너무 빨리 나와 화가 났다”

-PMDC가 새로운 도입되는 기술이더라도, 고객들 입장에서 클라우드는 검증되고 신뢰할 수 있는 제품을 쓰려할 겁니다.

“고전력 데이터센터 지었던 몇몇 업체들이 우리 모델을 벤치마킹하기 시작했어요. 이런 모델로 가려는 데가 있더라고요. 일단 후발주자가 생겼다는 점에서, 엘리스 모델이 어느 정도 검증은 된 것 같아요. 클라우드도 결국 신뢰가 중요하잖아요. 고객 사례가 몇 개씩 생기면서 하반기부터는 고객 문의가 늘어나고 비롯해 매출 증가 속도가 굉장히 빨라지고 있어요.”

-AI 인프라 구축과 서비스까지. 전부 계획에 있던 것입니까. 그렇지 않고는 AI 반도체 대란에 칩을 구하기도 어려웠을텐데요.

“AI 교육을 위해 이동형 모듈 데이터센터 방식으로 인프라를 만들겠다고 결심한 건 챗GPT도 나오기 전이었어요. 2021년, 3년 전에 이미 이런 얘기를 했죠. 롤모델로 삼은 건 Lambda Labs예요. 박사 과정 때부터 GPU 관리의 어려움을 겪었거든요. 그래서 AI 연구하는 데 필요한 걸 실제로 확인해보고 진행했어요. GPU는 딥러닝을 위해서도 필요했고, PMDC 설계는 2021년 들어갔습다. 2022년부터 만들기 시작했고요. 2023년이 챗GPT가 본격적으로 활성화됐는데, 챗GPT가 너무 일찍 나와서 화가 났어요. 우리가 다 준비도 안 됐는데 벌써 화제가 돼버려서요. 이미 PMDC에 들어갈 엔비디아의 반도체 A100 주문이 들어가있던 상태였습니다. 아마 물량난 없이 A100를 구매한 얼마 안되는 기업이 엘리스일겁니다.”

-아마존이 대표적으로 자신들의 쇼핑 트래픽을 위해 서버를 증설하고 운영 노하우를 쌓으면서 클라우드라는 산업을 기획했죠.

”AWS 같은 케이스도 있어서 AI 데이터센터 구축 이후 클라우드 사업을 생각했었습니다. 근데 실제로 판매하려고 하니까 진짜 어려워요. 특히 AI 클라우드는 규격화된 게 하나도 없거든요. 어느 고객사는 A100을 4개로 구성해 달라 하고, 어떤 데는 8개, 32개로 해달라고 해요. H100도 마찬가지고요. 과거 일반적인 퍼블릭 클라우드는 다 규격화돼 있어서 스펙 보고 정하면 되는데, 이건 AI 시장은 규격 자체를 만들어가는 과정이거든요.

거기다 엔비디아가 A100, H100, B100 계속 진보한 반도체를 공개하잖아요. 중간에 H200도 공개하고. 신제품 반도체가 나오고, 그때마다 서비스 업체 입장에선 계속 대처해야 되니까 2배로 난이도가 높습니다. 빅테크든 국내 대기업이든 어떤 구조로 가야 할지 아직 규격화된 게 없어서 다들 정답을 탐색 중이에요. 너무 비싼 제품이라 올인했다가 큰 손실을 볼 수도 있으니, 다들 수요에 맞춰 천천히 간을 보는 형국입니다.”

-결국 AI 데이터센터와 하드웨어의 핵심은 엔비디아의 GPU 아닌가요?

”클라우드를 하드웨어만 보면 안 돼요. NPU, GPU, IDC 모든 걸 소프트웨어랑 하드웨어 같이 패키징해서 봐야 해요. 밖에서는 H100 몇 개 구했네, A100 몇 개 구했네 이런 얘기만 하는데, 사실 칩 구하는 것보다 더 어려운 게 그걸 돌려서 고객한테 제공하는 거예요. 클라우드 시스템 안에서 구성하고 문제없이 돌아가게 하는 것도 생각보다 엄청 어려워요.3. “2021년부터 AI 데이터센터 기획, 챗GPT가 너무 빨리 나와 화가 났다”

엘리스의 교육 AI, '헬피'. /엘리스 제공

4. 델 창업자(마이클 델)도 흥미를 보인 비즈니스

-이번 AI 데이터센터 구축 과정에서 미국 델의 창업자이자 여전히 현역으로 뛰는, 마이클 델 CEO를 1대1로 만나고 왔다고요.

“델 CEO가 한국 스타트업의 시도를 흥미롭게 여겼는지, 1대1 미팅이 들어왔습니다. 델에 PMDC에 들어갈 서버 제작을 의뢰했었거든요. 우리가 먼저 만나자고 한 게 아니에요. 한국과 마찬가지로 미국에서도 가장 큰 이슈는 데이터센터를 위한 전기예요. 전기가 부족한 것이 문제거든요. 미국에서도 전기 있는 주변에 컨테이너 형태로 엣지 GPU 데이터센터 만드는 걸 고민하고 있다고 하더군요. 델 회장은 PMDC처럼 데이터센터가 아주 크고 거대한, 중앙화된 방식이 아니라 분산되어 연결될 것이라도 봤어요. 엘리스의 시도 같은 다양한 시도가 동시다발적으로 이뤄질 것이고, 한국 스타트업이 어떤 상상을 하는지 궁금했던 것이죠.”

-델 CEO가 꼽은 AI 시대 다음으로 중요한 인프라는요?

“델 CEO가 다음으로 중요하게 생각하는 것이 네트워크라고 이야기했습니다. 하드웨어 자체는 이제 GPU가 CPU처럼 엄청난 연산 능력을 가져왔으니까, 그 다음은 네트워크, 이 하드웨어를 연결하는 것이 중요해진다는 것이죠. CPU 성능의 업그레이드 이후, 인터넷 네트워크가 중요해졌던 것처럼요.”

-PMDC가 독보적 기술일까요? 결론적으로 기술 해자를 계속 유지할 수 있는?

“꼭 그런 것은 아닙니다. 국내 모두가 알만한 대기업에서도 PMDC를 GPU 파워를 위해 씁니다. 다만, 고객들을 위한 클라우드 방식이 아니라 회사 AI를 위한 용도로 사용하고, 그 내용을 외부에 공개하지 않을 뿐이죠.”

-적어도 수십억원, 수백억원이 들어가는 이 비즈니스를 하려고 했다면 투자사들의 반발이 있을 수도 있습니다. 이런 리스크를 감당해야겠냐고요.

“왜냐하면 자본 집약적이거든요. 스타트업이 투자자한테 200-300억 받아서 GPU 다 사겠다고 하면 웬만하면 안 하죠. 우리 투자사도 뭐라 그래요. 정작 엘리스 입장에선 AI 데이터센터, 클라우드 사업의 가장 큰 문제는 돈이 아닙니다. 인적 자본이예요. 클라우드 관련 인재가 정말 부족합니다. 현재 엘리스 내부 클라우드 개발팀원이 약30명 정도 되는데, 베트남 법인과 협업, 미국 법인에서도 채용하고. 한국, 해외를 가리지 않고 채용한 결과입니다. 더 뽑고 싶어도 한국에선 찾기가 정말 어렵습니다. 아무래도 한국은 클라우드 사업을 하는 기업이 제한적이고, 이런 기업들에서 인재들이 경쟁적으로 나오지 못했던 것 같기도 하고요.”

그래픽=조선디자인랩 정다운
쫌아는기자들이 만드는, 뉴스레터 [스타트업]은 주 3회 발행하는 유료레터입니다. 오늘의 무료 콘텐츠는 여기까지 입니다. 나머지는 ‘질문’을 비롯해 일부만 공개합니다. 유료 구독하면 과거 3년간 모든 콘텐츠를 볼 수 있습니다.

5. “밸류체인의 시작을 교육으로, 이제는 AI와 인프라로”

-초기 엘리스는 코딩 교육의 콘텐츠로 더 주목을 받았습니다.

-AI 인프라에 대한 투자는 결국 시장 못지 않게 정부가 주도할 수도 있습니다. 한국이라는 후발주자의 성격상 말이죠.

-국가의 자원분배를 설득할 때, 해외에서 수출이 되느냐는 중요한 문제입니다.

엘리스의 교육 플랫폼 LXP의 AI 대시보드. /엘리스 제공


6. AI 디지털교과서가 필요한 이유, “선생님들의 일을 줄여야 한다”

- 엘리스는 AI 교과서를 개발 중입니다. AI 디지털 교과서에 대한 반론이 엄청 셉니다.

- AI 교과서가 필요한 진정한 이유는 무엇일까요. 맞춤형 학업 성취 반영을 이야기하지만, 그 이상의 무엇이 있다면.

-더 나은 퀄리티의 교육을 위해선 선생님의 업무를 줄여야 하는데, 미국이 기술 도입에 소극적이다가 교육 시스템이 데미지를 입었다는 것이군요. 한국도 선생님들의 서류 업무가 많다는 지적이 늘 나왔습니다.

-AI 데이터센터와 클라우드는 AI 교과서 서비스를 위한 일종의 인프라로도 작용하겠군요.

엘리스 그룹의 전사 워크숍. /엘리스 제공


7. 교육에 한국의 AI가 필요한 이유, “챗GPT나 해외 모델이 과연 독도와 안중근 의사를 한국의 입장에서 설명할까요?”

-자체 AI 모델, 정확히는 SLM(소형언어모델)이죠. ‘헬피’라는 이름의 AI 모델을 구축했습니다.

-교육을 위한 한국의 AI가 필요할까요. 교육이야말로 만국 공통 적용되는 것 아닐까요.

-AI와 교육에 관해서 엘리스는 일단 다 하는군요. 이렇게 해서 얻는 것은? 뒤처지지 않기?