엔비디아는 작년 말부터 AI(인공지능) 기업들에 최신 GPU(그래픽 처리 장치) 블랙웰 기반 AI 가속기 ‘GB200’을 공급하기 시작했다. GB200은 엔비디아의 기존 주력 AI 가속기 H100보다 추론 능력은 5배, 데이터 처리 능력은 무려 18배나 빠르다. GB200을 포함한 블랙웰 기반 AI 가속기는 작년 4분기에만 110억달러(약 15조9000억원)어치가 팔려나갔다.

젠슨 황 엔비디아 최고경영자(CEO)는 최근 실적 설명회에서 “(블랙웰은) 회사 역사상 가장 빠른 생산량 증가를 달성했고, 속도와 규모 면에서 전례가 없다”며 “첫 블랙웰 제품은 장애물 때문에 몇 달을 허비했지만 완전히 회복했고, 수요가 엄청나다”고 강조했다.

그래픽=백형선

이때 젠슨 황 CEO가 언급한 ‘장애물’은 바로 발열(發熱). GPU 속도가 빨라진 만큼 발생하는 열도 많아진 것이다. 당초 작년 2분기 출시를 계획했지만, 발열 문제로 출시 시기가 늦춰져 작년 말 출시한 이유다. 여러 기술 보고서와 외신 등에 따르면, 발열 원인은 이전 제품보다 많은 전기 사용량, 성능을 높이는 과정에서 생긴 반도체 내부 고밀도, 미완성 패키징 기술 도입으로 인한 뒤틀림 현상으로 요약된다.

◇기존보다 4배 많은 소모 전력

작년 초 엔비디아가 선보인 차세대 AI 칩 블랙웰은 기존 칩 ‘호퍼’보다 성능이 뛰어나다. 트랜지스터 수가 2080억개로 호퍼(800억개)의 두 배가 넘어, 많아야 25분의 1밖에 안 되는 비용으로 같은 결과물을 내놓을 수 있었기 때문이다.

트랜지스터는 전류 흐름을 제어하는 일종의 스위치로, 연산을 처리하는 업무를 담당한다. 수가 많을수록 일할 사람이 많아지는 것과 마찬가지다. 블랙웰의 트랜지스터 수가 호퍼보다 월등하게 많아진 비결은 트랜지스터 1040억개 탑재한 단일 칩 2개를 붙인 덕분이다.

속도가 빨라진 만큼 전력 사용량도 급증했다. 호퍼 GPU가 탑재된 H100은 소모 전력이 700W다. 하지만 블랙웰이 탑재된 B100과 B200은 700~1000W이고, 블랙웰 GPU 2개를 붙인 GB200은 2700W까지 소비한다.

그래픽=백형선

◇최신 패키징 기술도 발열 가능성

단일 칩 두 개를 붙이는 과정에서 엔비디아는 처음으로 ‘칩렛(MCM)’ 설계를 도입했다. 칩렛은 연산·저장·통신 같은 기능별로 쪼개 제작한 다음 다시 조립하는 방식인데, 이때 쓴 기술이 TSMC의 ‘CoWoS-L’이다. 대만 TSMC가 개발한 ‘칩온웨이퍼온 서브스트레이트(CoWoS)’는 수직으로 칩과 기판을 연결하는 기술인데, CoWoS-L은 그동안 써오던 CoWoS-S의 상위 패키징 기술이다. CoWoS-S가 GPU 다이와 HBM 전체를 실리콘으로 덮는 형태라면, CoWoS-L은 HBM의 가장자리만 GPU와 연결하는 식이다. 집적도가 높고 정교한 공정이 가능하다.

하지만 완성도가 떨어진다는 점이 문제였다. CoWoS-S의 수율(정상품 비율)은 90% 이상인 반면 CoWoS-L은 70~80% 수준으로 알려져 있다. 즉 기술적 한계로 칩 뒤틀림 현상이 발생할 수 있고, 이는 칩 간 연결을 손상해 과열을 유발했을 가능성이 큰 것이다. 고밀도 설계로 단위 면적당 발열량이 크게 증가한 것도 원인으로 지목된다.

◇서버 랙 공간 확보로 온도 낮춰

블랙웰 AI 가속기가 작년 말부터 공급되기 시작했지만 발열 문제는 완전히 해결하지 못한 것으로 전해졌다. 마이크로소프트(MS), 구글 등 고객사들은 올해 초 GB200 주문량을 일부 줄이기도 했다. 근본 해결은 칩 설계 단계부터 이뤄져야 한다. 엔비디아는 국내 반도체 기업들에 HBM의 전력 효율을 개선해 달라고 요구하기도 했지만 단기간에 해결할 수 있는 방법은 아니다.

그렇다 보니 엔비디아는 칩 설계 변경과 함께 전력 소비량을 조절할 수 있는 알고리즘과 서버 랙, 냉각 시스템 개선에 집중했다. 냉각 방식과 사용 환경에 따라 최적 성능과 발열 관리가 가능하도록 한 알고리즘을 도입하고, 수십 개의 GPU가 탑재된 서버 랙 구조를 여러 차례 변경하면서 블랙웰 GPU를 위한 서버 랙을 개발했다. 100파운드 이상 강철 보강재를 추가하고, 후면을 확장해 공기 순환 공간을 확보했다. 또 액체 냉각 기반 설계로 기존 공랭식보다 최대 28%가량 전력 사용량을 줄였다.