CAE/CFD 워크로드에서 InfiniBand vs. RoCE 아키텍처 비교 분석 보고서

CAE/CFD 워크로드에서 InfiniBand vs. RoCE 아키텍처 비교


전산 유체 역학(CFD) 애플리케이션은 복잡한 유체 흐름 현상을 시뮬레이션하기 위해 고성능 컴퓨팅(HPC) 시스템을 광범위하게 활용합니다. 이러한 시뮬레이션은 종종 수백에서 수만 개의 코어에 걸쳐 대규모 병렬 계산을 수행하며, 프로세스 간 통신(MPI 사용) 및 스토리지 시스템과의 병렬 I/O가 필수적입니다. 따라서 HPC 클러스터의 인터커넥션 네트워크는 전체 시스템 성능을 결정하는 데 있어 매우 중요한 요소입니다.

이러한 환경에서 주로 고려되는 고성능 네트워크 아키텍처는 InfiniBandRDMA over Converged Ethernet (RoCE) 입니다. 두 기술 모두 OS 커널을 우회하여 낮은 지연 시간과 높은 처리량으로 메모리 데이터에 직접 접근할 수 있게 해주는 RDMA(Remote Direct Memory Access) 기술을 활용합니다.

RDMA는 대규모 프로세스 간 통신 및 병렬 파일 시스템과의 고성능 I/O에 필수적입니다.

StarCCM+, Fluent, OpenFOAM과 같은 CFD 애플리케이션은 특히 대규모 병렬 환경(512~2000 코어 이상)에서 MPI 통신 패턴과 메모리 접근 특성으로 인해 네트워크 지연 시간과 대역폭에 매우 민감합니다. 또한, 대규모 데이터셋을 처리하고 체크포인트를 저장하는 등의 과정에서 병렬 I/O 성능이 중요합니다.

 

1. InfiniBand 와 RoCE 아키텍처 비교

infiniband 아키텍처 특징

InfiniBand는 서버 I/O 및 서버 간 프로세서 통신을 위한 산업 표준으로, 스위치 기반의 직렬 P2P 링크 패브릭 아키텍처를 기반으로 합니다. InfiniBand는 본질적으로 무손실 네트워크를 위해 크레딧(신용) 기반 흐름 제어 방식을 사용합니다. 또한 MPI, 병렬 파일 시스템 접근(GPFS, Lustre 등) 등 다양한 상위 레벨 프로토콜이 RDMA를 활용하여 InfiniBand 상에서 실행될 수 있습니다. InfiniBand는 높은 대역폭, 빠른 전송 속도, 뛰어난 확장성, 특히 낮은 지연 시간이 최대 특징이자 강점입니다.

이는 대규모 프로세스간 저지연 무손실 통신이 반드시 필요한 전통적인 HPC에 특화된 네트워크 연결 방식에 해당합니다.

RoCE 아키텍처 특징

RoCEv2는 이더넷 네트워크 상에서 RDMA를 구현한 기술로, IP 및 UDP 헤더를 사용하여 이더넷 링크 레이어 상에서 RDMA 라우팅을 가능하게 합니다. RoCE는 기존 이더넷 인프라와의 통합이 용이하고 상대적으로 비용이 저렴하다는 장점이 있습니다. 그러나 스위치에서 Headroom, PFC(Priority-based Flow Control), ECN(Explicit Congestion Notification) 등 복잡한 파라미터 설정이 필요할 수 있습니다.

이는 일반적인 IT 데이터센터, 클라우드, AI/ML, 오브젝트 스토리지 환경에 최적화되어 있습니다

 

2. InfiniBand와 RoCE 비교 (CAE/CFD 워크로드 관점)

 

CAE, CFD 분야 대규모 병렬 계산용 HPC에서의 InfiniBand와 RoCE 일반적인 사용 여부

CAE(Computer-Aided Engineering) 및 CFD(Computational Fluid Dynamics)와 같은 분야의 대규모 병렬 계산은 HPC 시스템의 성능을 매우 강하게 요구합니다. Ansys Fluent와 같은 CFD 소프트웨어는 대규모 메쉬, 복잡한 물리 모델, 수많은 반복 계산 등으로 인해 엄청난 계산 집약도를 가지며, 일반 컴퓨팅 시스템의 한계를 빠르게 드러냅니다.

HPC 시스템은 이러한 문제를 해결하기 위해 대규모 병렬 컴퓨팅, 방대한 메모리 용량, 고속 통신 및 스토리지 솔루션을 제공합니다. 특히, 수백 또는 수천 개의 코어에 걸쳐 단일 대규모 CFD 문제를 분산시키고, 노드 간에 경계 정보를 교환하며 계산을 동기화하기 위해서는 고대역폭, 저지연 네트워크 상호 연결(interconnect)이 필수적입니다. 일반적인 이더넷은 이러한 대규모 HPC의 요구 사항을 충족시키기에는 지연 시간이 높고 대역폭이 낮아 부적합합니다.

InfiniBand와 RoCE는 모두 RDMA(Remote Direct Memory Access) 네트워킹 기술을 제공하며 고대역폭 및 고효율의 통신을 지원하지만, 이 둘 간에는 차이가 있습니다.

다음 표는 CAE/CFD 워크로드 관점에서 InfiniBand와 RoCE의 주요 특징을 정리한 내용입니다.

 

항목 InfiniBand RoCE (RoCEv2) CAE/CFD 적합성
RDMA 지원 네이티브 RDMA 지원 이더넷 상에서 RDMA 구현 (RoCE 기술 필요) 두 기술 모두 RDMA를 통해 CPU 오버헤드를 줄여 고성능 통신 및 I/O를 지원합니다.
지연 시간 매우 낮음 (단일 홉 약 100~150ns) 상대적으로 높음 (단일 홉 약 500ns) CFD는 프로세스 간 통신이 빈번하여 네트워크 지연 시간에 매우 민감합니다. 낮은 지연 시간은 MPI_Allreduce와 같은 Collective 통신 성능에 결정적입니다. InfiniBand의 지연 시간 이점이 매우 중요합니다.
대역폭 높음 (HDR 200Gbps, NDR 400Gbps 상용화) 높음 (40/100Gbps 이상, 최대 400Gbps 상용화) 대규모 병렬 I/O 및 대용량 데이터 전송에 높은 대역폭이 필수적입니다. 두 기술 모두 충분한 대역폭을 제공할 수 있으나, 실제 성능은 지연 시간 및 확장성에 영향받습니다.
확장성 매우 높음 (수만 노드/GPU 검증). 중앙 집중식 서브넷 관리자 높음 (수천 노드/GPU 검증). 분산형 네트워크. 수백~수천 코어 규모의 대규모 HPC 클러스터 구성 시 InfiniBand가 더 큰 시스템 규모까지 성능 저하 없이 확장 가능함이 입증되었습니다.
운영 복잡성 RoCE 대비 성숙하고 관리 용이 (진단 기능 등) InfiniBand 대비 복잡한 설정 필요 (Flow Control 등) 대규모 클러스터의 안정적인 운영 및 관리에 있어 InfiniBand가 더 성숙한 기능을 제공합니다.
비용 높음 (특히 스위치) 상대적으로 낮음 (이더넷 인프라 활용) 구축 비용은 높지만, 성능 이점을 통한 계산 시간 단축은 전체 TCO(Total Cost of Ownership) 측면에서 이점을 가져올 수 있습니다. 성능이 최우선인 HPC에서는 성능이 비용보다 중요합니다.
주요 공급사 NVIDIA (70% 이상 점유), Intel, Cisco, HPE NVIDIA, Intel, Broadcom 등 다양 주요 공급사가 겹치나, InfiniBand 시장은 NVIDIA가 지배적입니다.
네트워크 관리 중앙 집중식 SM 분산형 (NIC 및 스위치) Apstra 등 솔루션으로 관리 가능 대규모 환경에서는 관리 용이성도 중요합니다.

 

CFD 대규모 병렬 계산 및 I/O 병렬 처리 적합성 분석

CFD 애플리케이션의 성능은 계산 능력 뿐만 아니라 노드 간 데이터 통신 및 병렬 스토리지 시스템과의 I/O 효율성에 크게 좌우됩니다. 특히, 수백에서 수천 코어 규모의 대규모 병렬 환경에서는 통신량이 기하급수적으로 증가하며 네트워크 지연 시간과 대역폭이 주요 병목 지점이 될 수 있습니다

 

낮은 지연 시간의 중요성

OpenFOAM과 같은 CFD 코드의 병목 중 하나는 선형 대수 라이브러리에서의 MPI_Allreduce 함수 호출입니다. 이는 모든 프로세스의 데이터가 집계되어 다시 분산되는 과정으로, 네트워크 지연 시간이 성능에 직접적인 영향을 미칩니다. InfiniBand는 RoCE 대비 본질적으로 낮은 지연 시간을 제공하므로, 이러한 Collective 통신이 빈번한 대규모 병렬 CFD 계산에서 절대적으로 유리합니다.

 

RDMA 성능 및 안정성

RDMA는 CPU 개입 없이 데이터 전송을 가능하게 하여 통신 및 I/O 성능을 크게 향상시킵니다. InfiniBand는 현재 RoCE 대비 RDMA 성능이 더 안정적이고 뛰어나다고 평가됩니다. 이는 대규모 확장을 고려한 HPC 환경에서 신뢰할 수 있는 확장 성능을 보장한다고 볼수 있습니다.

 

확장성

서버당 코어 밀도가 급격히 증가하는 상황에서 수백~수천 노드 규모의 HPC 클러스터는 수만~수십만 코어 규모 시스템으로 간주될 수 있습니다. InfiniBand는 수만 개 이상의 코어/GPU까지 안정적으로 확장 가능함이 오랜 기간 동안 입증된 반면, RoCE는 수천 개 규모에서 주로 검증되었습니다. 이는 CFD 시뮬레이션 규모 확장 시 InfiniBand가 더 큰 성능 여유를 제공할 수 있음을 시사합니다.

 

병렬 I/O 처리

CFD 워크로드는 대용량 데이터 로딩 및 결과 저장으로 인해 병렬 파일 시스템(Lustre, GPFS 등)과의 고성능 I/O가 필수적입니다. 특히 수천 코어 이상의 CFD 시뮬레이션 계산 시, 프로세스 별로 생성되는 I/O(작은 I/O가 빈번하게 발생되는 Scratch 형태의 I/O) 처리는 높은 대역폭과 RDMA 효율 외에도 매우 낮은 지연 성능과 병렬 파일 시스템과 결합된 병렬 I/O 처리 기능을 별도로 요구하며, 이는 대규모 시뮬레이션 전체 성능에 매우 큰 영향을 주는 요소입니다. Infiniband 의 낮은 네트워크 지연 시간과 높은 대역폭은 병렬 파일 시스템 스토리지 성능에 매우 중요한 영향을 미칩니다.

 

3. TOP HPC 시스템 네트워크 아키텍처 채택 사례

HPC 시스템의 성능 순위를 나타내는 TOP500 목록에 등재된 슈퍼컴퓨터들의 네트워크 아키텍처를 분석하면, 최고 성능 시스템들이 어떤 인터커넥트를 선호하는지 파악할 수 있습니다.

 

최신 (2024년~2025년) TOP500 HPC 시스템의 Infiniband와 RoCE 채택 비율

2024년 11월 TOP500 리스트

InfiniBand와 RoCE 기술은 전체 500개 시스템 중 365개 시스템(73%)에 사용되었습니다.

이 중 InfiniBand는 254개(TOP500, 50.8%) 시스템에서 사용되었고, RoCE 기반 이더넷 솔루션은 111개 시스템(TOP500, 22.2%)에서 사용되었습니다.

  • RoCE를 채택한 경우 전통적(CAE/CFD) HPC 보다는 클라우드, AI/ML 목적의 고성능 컴퓨팅 시스템으로 파악
  • TOP100 의 HPC 시스템에서 Infiniband 로 구성된 시스템은 66개, RoCE 는 2개 (34위, 36위)로 파악

RoCE 기반 시스템은 거의 10년 만에 처음으로 TOP100에 진입했으며, NVIDIA Israel-1과 GMO Internet의 RoCE 배포 시스템이 34위와 36위를 차지했습니다. 이는 2024년 11월 기준, 전통적 HPC 환경에서는 InfiniBand의 채택율이 RoCE보다 훨씬 높고, 최선의 선택임을 시사합니다.

참조링크 : https://www.infinibandta.org/infiniband-and-roce-advances-further-in-the-top500-november-2024-list/

4. 결론 및 제안

StarCCM+, Fluent, OpenFOAM과 같은 CFD 애플리케이션을 수백~수천 코어 규모의 대규모 병렬 프로세서에서 실행하는 HPC 환경에서는 네트워크의 낮은 지연 시간, 안정적인 고성능 RDMA, 뛰어난 확장성이 핵심 요구사항입니다.

 

RoCE는 비용 효율성과 이더넷 호환성 측면에서 장점이 있지만, InfiniBand가 제공하는 본질적으로 더 낮은 지연 시간더욱 안정적인 RDMA 성능, 그리고 수만~수십만 코어 규모까지 검증된 확장성은 통신 및 I/O 집약적인 대규모 병렬 계산 CFD 워크로드의 성능을 극대화하는 데 결정적인 역할을 합니다.

전통적인 HPC Ranking 사이트인 TOP 100 HPC 시스템의 네트워크 인터커넥트 채택 동향 또한 맞춤형 인터커넥트를 제외하면 InfiniBand가 HPC 전용 네트워크 중 대다수를 차지하는 시스템임을 확인할 수 있습니다.

CFD/CAE 대규모 병렬 계산을 위한 HPC 시스템에서 최적의 네트워크 아키텍처가 InfiniBand 이란 것은 매우 일반적인 내용입니다. 다만 현재 R&D 에서 AI/ML 목적의 고성능 컴퓨팅 활용도가 급격히 확대됨에 따라 AI/ML 목적의 고성능 컴퓨팅을 대상으로 IT 운영 관점에서 효율성이 높은 RoCE를 Infiniband 와 함께 하이브리드 형태로 적용 가능성을 검토하는 것은 충분한 의미가 있다고 판단하고 있습니다.

참고) HPC 네트워크 선택: CFD 시뮬레이션 vs AI 워크로드

구분 AI 워크로드 (LLM, DNN) CFD/CAE 시뮬레이션
주요 네트워크 요구사항 대규모 파라미터 동기화 (AllReduce, Broadcast 등) → 대역폭, 지연시간 중요 MPI 기반 분산 계산 (Domain Decomposition, Halo Exchange) → 낮은 지연시간(실시간 동기화), 집적도, 스케일아웃 효율 모두 중요
선호 네트워크 RoCE, Ethernet 기반 (AI/ML Framework 친화적) InfiniBand, OPA (RDMA 네이티브, 고성능 HPC 친화적)
네트워크 병목 영향 파라미터 서버/AllReduce 성능 Message Passing 및 Boundary Data Exchange 지연
실제 사례 NVIDIA DGX SuperPOD (RoCE), Meta Research SuperCluster (RoCE) KISTI 누리온 (InfiniBand), DOE Leadership Systems (InfiniBand, OPA)

 

 

서진우

슈퍼컴퓨팅 전문 기업 클루닉스/ 상무(기술이사)/ 정보시스템감리사/ 시스존 블로그 운영자

You may also like...