NVIDIA NVLink & NVLink Network

NVLink & NVLink Network 기술 심층 분석

NVLink는 현재 AI 데이터센터를 지배하는 NVIDIA 생태계의 가장 강력한 해자(Moat)이자, 경쟁사들이 UALink와 같은 연합을 만들어 따라잡으려 하는 ‘사실상 표준(Gold Standard)’ 기술입니다.

독점 기술 특성상 세부 프로토콜이 공개되지 않아 베일에 싸여 있지만, GTC 발표 자료와 기술 백서(Whitepaper)를 통해 그 작동 원리를 파헤쳐 봅니다. 이 글은 H100(Hopper) 아키텍처의 NVLink 4와 최신 B200(Blackwell)의 NVLink 5를 중심으로 분석합니다.

1. 설계 철학: “네트워크가 아닌, GPU 메모리의 확장”

NVLink는 Ethernet이나 InfiniBand와 같은 범용 네트워크와 출발점부터 다릅니다. NVIDIA는 이를 네트워크가 아닌 “GPU 메모리 패브릭(Memory Fabric)”으로 정의합니다.

1.1 Load/Store 시맨틱 (L2 Cache Semantics)

  • 통신 방식의 차이: 일반 네트워크는 데이터를 패킷으로 포장해 보내고 받는 Send/Receive 방식을 씁니다. 반면, NVLink는 CPU가 메모리에 데이터를 쓰듯 Load/Store 명령어를 사용합니다.
  • L2 캐시 통합: 연결된 모든 GPU는 서로의 HBM(High Bandwidth Memory)을 자신의 메모리처럼 볼 수 있습니다. 원격 GPU의 메모리에 접근할 때도 L2 캐시 시맨틱을 따르므로, 소프트웨어 오버헤드가 극단적으로 낮고 프로그래머에게 투명성(Transparency)을 제공합니다.

1.2 프로토콜 스택의 간소화

  • 복잡한 OSI 7계층을 걷어냈습니다. 전송/세션/프레젠테이션 계층의 기능을 하드웨어와 CUDA 드라이버/NCCL 라이브러리에 통합하여, 커널(OS) 개입 없이 애플리케이션이 하드웨어를 직접 제어(Kernel Bypass)합니다.

H100 세대(NVLink 4)에 오면서 가장 큰 변화는 “NVLink Network”의 도입입니다. 기존 NVLink가 서버 내부(Intra-Node) 연결에 그쳤다면, 이제는 서버 외부(Inter-Node)로 확장되었습니다.

2.1 주소 공간의 분리 (Address Space Isolation)

기존 NVLink와 NVLink Network의 결정적 차이는 주소 체계입니다.

  • 기존 NVLink (Bridge): 서버 내 모든 GPU가 부팅 시 단일 공유 주소 공간(Global Shared Address Space)으로 묶입니다. 한 번 켜지면 구성 변경이 어렵습니다.
  • NVLink Network: 서버 간 연결을 위해 독립된 주소 공간(Independent Address Spaces)을 도입했습니다.
    • 동적 연결: 런타임 API를 통해 필요에 따라 GPU 그룹을 묶거나 풀 수 있습니다.
    • 격리(Isolation): 멀티 테넌트 클라우드 환경에서 사용자 간 데이터 침범을 원천적으로 차단합니다.

2.2 물리 계층과 호환성

  • Ethernet/IB PHY 공유: 놀랍게도 NVLink Network는 400G/800G 이더넷 및 인피니밴드와 물리적 인터페이스(PHY, SerDes)를 공유합니다.
  • 케이블링: 표준 OSFP 커넥터와 구리(DAC)/광케이블을 사용합니다. 즉, 데이터센터의 기존 물리 인프라 위에서 NVIDIA만의 독자 프로토콜을 구동하는 전략입니다.

3. 압도적인 성능: Blackwell과 NVL72

NVLink는 세대를 거듭하며 대역폭을 2배씩 늘려왔습니다.

3.1 세대별 대역폭 비교 (양방향 기준)

세대적용 GPU링크당 속도GPU당 총 대역폭비고
NVLink 3A10050 GB/s600 GB/sNVSwitch v2
NVLink 4H100100 GB/s900 GB/sNVLink Network 도입
NVLink 5B200200 GB/s1,800 GB/s (1.8 TB/s)PCIe Gen6 대비 14배
  • 비교: 최신 PCIe Gen5 x16의 대역폭이 128GB/s인 점을 감안하면, B200의 1.8TB/s는 사실상 “무한한 대역폭”에 가깝습니다.

3.2 NVL72: 랙 전체가 하나의 GPU로

Blackwell 세대의 핵심은 NVL72 아키텍처입니다.

  • Copper Spine: 랙(Rack) 내의 72개 GPU를 광케이블이 아닌 구리 백플레인(Copper Backplane)으로 전량 연결합니다.
  • 단일 도메인: 72개의 GPU(B200)가 NVLink 5 스위치를 통해 하나의 거대한 GPU(Exaflop급 성능)처럼 동작합니다. 최대 576개의 GPU까지 단일 NVLink 도메인으로 묶을 수 있습니다.

4. 핵심 기술: 인-네트워크 컴퓨팅 (SHARP)

NVSwitch는 단순한 패킷 스위칭 장비가 아니라, 연산 코어(ALU)가 내장된 가속기입니다. 이 기능을 SHARP (Scalable Hierarchical Aggregation and Reduction Protocol)라고 합니다.

4.1 데이터 이동 중 연산 (In-Network Computing)

AI 학습(LLM)에서는 수천 개의 GPU가 계산한 결과(Gradients)를 모두 더해서 다시 나누는 AllReduce 연산이 빈번합니다.

  1. 기존 방식: 데이터를 GPU -> CPU -> GPU로 이동하며 합산합니다. 병목현상의 주범입니다.
  2. SHARP 적용: GPU는 데이터만 보냅니다. 합산 연산은 데이터가 지나가는 도중에 NVSwitch 내부에서 수행됩니다.
  3. 효과: * 네트워크 트래픽이 절반으로 감소합니다.
    • AI 애플리케이션의 유효 대역폭(Effective Bandwidth)이 2배 증가하는 효과를 냅니다.
    • FP16, BF16, FP32 등 AI 데이터 포맷을 하드웨어적으로 이해하고 처리합니다.

5. 보안 및 관리 (RAS & Security)

초거대 모델 학습은 수개월이 걸리므로 안정성이 생명입니다.

  • 하드웨어 보안: NVSwitch 칩 내부에 전용 보안 프로세서(Security Processor)를 탑재했습니다. 모든 데이터 패킷을 암호화(Encryption)하고, 비인가된 펌웨어 변조를 막는 Root of Trust 기능을 수행합니다.
  • 텔레메트리: InfiniBand의 강점을 흡수하여, 나노초(ns) 단위의 버퍼 점유율, 링크 상태 등을 실시간으로 모니터링합니다. 이는 장애 발생 시 어떤 GPU나 링크가 문제인지 즉시 격리(Isolation)하는 데 사용됩니다.

특징NVIDIA NVLinkUALink (Anti-NVIDIA)
접근 방식Closed Garden (독점)Open Standard (개방형)
최대 대역폭1.8 TB/s (B200)목표치 800G~1.6T 추정
최대 확장576 GPU (NVLink 5)1,024 가속기 (Pod)
주요 기능SHARP (스위치 연산), NVL72Load/Store, Atomic
물리 매체Custom on Ethernet PHYStandard Ethernet PHY

NVLink는 단순한 케이블이 아닙니다. “데이터센터 전체를 하나의 GPU로 만드는(Data Center as a Chip)” NVIDIA 전략의 핵심 결합 조직입니다. UALink가 빠르게 추격하고 있지만, SHARP와 같은 하드웨어 가속 기능과 성숙한 소프트웨어 스택(NCCL)은 여전히 NVLink만의 강력한 무기입니다.