HPC 환경을 위한 최신 CPU 아키텍처 비교 분석 보고서 (CFD/CAE 소프트웨어 성능 중심)


최신 HPC/CAE 워크로드를 위한 CPU 아키텍처 비교 분석 보고서 (2020년~2025년 기준)

본 보고서는 최근 몇 년간 HPC 및 CAE(Computer-Aided Engineering) 분야에서 주로 사용되거나 관심 가져온 세 가지 주요 CPU 아키텍처인 Intel Xeon (x86), AMD EPYC (x86), 그리고 ARM 기반 프로세서의 성능, 효율성, 생태계 등을 비교 분석합니다.

특히 CFD(Computational Fluid Dynamics) 및 CAE 상용 소프트웨어에서의 벤치마크 결과와 실증 데이터를 기반으로 각 아키텍처의 강점과 약점을 평가하고, HPC/CAE 환경에 가장 적합한 솔루션을 제시합니다.

 

프로세서 별 특징 요약

항목 Intel Xeon AMD EPYC 최신 ARM 기반 프로세서
코어 수 (고성능 모델) 64 개 (Granite Papids:P-코어), 최대 144개(Sierra Forest: E-코어) 96~128개 (Genoa/Bergamo), 최대 192개 (Turin Dense) 48~256개(A64FX 48, Grace Hopper 72, AmpereOne 256, )
스레드 수 최대 256개(Granite, P-코어) Sierra Forest, E-코어(288개, HT미지원) 256개(Bergamo), 384개(Turin Dense) 모델별 상이 (예: AmperOne, Hopper, A64FX SMT 미지원)
단일 코어 성능 높음 (P-코어, 부스트 클럭 및 IPC 향상) 높음 (Zen4/Zen5 아키텍처 IPC 및 High Clock 개선 ) 모델별 상이 (Neoverse V2 > N2, A64FX는 벡터 연산 최적화)
HPC 다중 코어 계산 성능 매우 높음 (P-코어), E-코어는 클라우드 중심 높음 (코어 밀도 및 캐시 최적화), 단 특정 CFD/CAE 워크로드에서 병목 발생 가능 잠재력 높음 (A64FX, Grace Hopper AI 용), 상용 CFD/CAE용 HPC는 최적화 부족
메모리 채널 8채널 (Emerald/Granite), 12채널 (Granite 일부) 12채널 (Genoa/Bergamo) 모델별 상이 (A64FX HBM2, Altra DDR4/5, Grace Hopper HBM3)
PCIe 레인 최대 80~96개 (Emerald/Granite), CXL 지원 최대 128개 (Genoa) 모델별 상이 (Altra 128, Grace Hopper 68, A64FX 미지원)
확장성 다중 소켓 (4/6/8P) 강점 (P-코어) 2소켓 제한 (고밀도 설계) 2소켓/단일 SoC 클러스터 중심
캐시 L2 코어당 2MB, L3 다양 (Xeon Max: HBM2e 포함, Granite 320MB) 공유형 L3 L2 코어당 1MB, L3 대용량 (3D V-Cache, Genoa 512MB, Genoa-X 1.1GB) 중앙허브를 통한 분산형 L3 HBM2/3 (A64FX/Grace), L3 4MB/코어 (Altra Max)
상용 CFD/CAE 지원 성숙, 광범위 ISV 호환성 (Fluent, StarCCM, Abaqus 등) 성숙, 광범위 ISV 지원, 일부 SW 최적화 필요 제한적 (CFD/CAE 상용 SW 미비, OpenFOAM 등 포팅 중)
고 코어 스케일링 일반적으로 안정적 (64~128코어에서 효율 유지) 64~96코어 이상에서 성능 저하 사례 (메모리 병목) 검증 필요 (대규모 MPI 효율성 및 상용 SW 검증 부족)

1. Intel Xeon vs. AMD EPYC (x86 아키텍처 비교)

Intel Xeon과 AMD EPYC 프로세서는 HPC 서버 시장에서 오랫동안 경쟁해 온 주요 x86 기반 아키텍처입니다. 최근 세대에서는 두 제조사 모두 코어 밀도와 성능을 크게 향상시켰습니다.

1.1. 성능 및 효율성 비교

코어 수 및 스레드:

2025년 기준으로 AMD EPYC 9004 시리즈(Genoa 및 Bergamo)는 최대 96코어 192스레드 또는 Zen 4c 기반 128코어 프로세서를 제공하며 코어 밀도에서 우위를 보입니다. Intel Xeon Scalable 4세대(Sapphire Rapids)는 최대 60코어 120스레드, Sierra Forest는 136~144개의 효율적인 코어를 제공하여 코어 수는 따라잡고 있으나 스레드 수는 AMD가 여전히 앞섭니다.

 

단일 코어 성능:

과거에는 Intel이 높은 클럭과 아키텍처로 우위를 점했으나, AMD Zen 4 아키텍처가 IPC(Instructions Per Clock) 성능을 향상시키며 격차를 좁혔습니다. 단일 스레드 작업에서는 Intel이 부스팅 기술로 약간 앞설 수 있으나, 일반적인 서버 워크로드는 다중 스레드를 많이 활용합니다. 다만, HPC처럼 코어 중심의 작업에서는 하이퍼스레딩을 비활성화하는 것이 성능에 유리한 경우가 많습니다.

 

다중 코어 성능:

멀티 스레드 워크로드(가상화, 데이터베이스, 렌더링 등)에서는 AMD가 코어 수의 이점을 활용하여 강점을 보입니다. Cinebench R23 벤치마크에서 96코어 듀얼 EPYC 구성이 56코어 듀얼 Xeon보다 약 40% 더 나은 성능을 보였습니다. (참조: https://www.tomshardware.com/news/amd-genoa-96-core-cpu-towers-over-intel-sapphire-rapids-56-core-cpu-in-2p-system-benchmark)

다만, CFD/CAE 워크로드(예: STAR-CCM+)는 일반적인 멀티 스레드 워크로드와는 다르게 메모리 대역폭, NUMA 구조, 병렬 통신 효율 등의 영향을 크게 받기 때문에, 단순히 코어 수 증가만으로는 성능 향상이 제한되거나 오히려 효율이 저하되는 경우도 있습니다. 실제 BMT 결과에서도 AMD EPYC 고코어 모델은 특정 CFD 워크로드에서 병렬 효율 급감 및 성능 저하 현상이 관찰되었으며, Intel Xeon의 경우 상대적으로 안정적인 스케일링 성능을 보이는 경향이 있음을 확인할 수 있었습니다.

(참조: https://www.cfd-online.com/Forums/hardware/240832-poor-performance-star-ccm-dell-r7425.html 외 여러 차례 클루닉스에서 실시한 검증 BMT 과정에서 확인)

  • A사 BMT 측정 사례 : Intel Xeon vs. AMD EPYC 코어 증가에 따른 STARCCM+ 스케일 성능 비교
    항목 Intel Xeon (P-코어, 64코어) AMD EPYC (Zen3~4세대, 96코어)
    코어 증가 시 성능 특성 64코어 구간까지 안정적인 병렬 효율 유지, 선형 또는 준선형 스케일링 16코어 부터 병렬 효율 불안정 현상 시작
    병렬 효율 유지 범위 최대 50~60% (64코어 기준) 33% (96코어 기준), 16~32코어 구간에서 효율 급감 현상 (85% →55%)
    고코어 환경 성능 특징 P-코어 기반 HPC 워크로드 최적화, 메모리/캐시 구조의 안정성 CC-NUMA 기반 아키텍처의 한계로 고코어에서 메모리 병목 및 통신 오버헤드 발생
    BMT 주요 데이터 근거 64코어 Intel Xeon: 9874초 (병렬 효율 50%) 64코어 AMD EPYC: 11146초 (병렬효율 44%) 96코어 AMD EPYC: 10042초 (병렬효율 33%)

 

  • H사 BMT 사례 : AMD EPYC 단일 노드 기준 코어 증가에 따른 OpenFOAM 성능 분석

주 해석 과정인 simplefoam 단계에서는 core 수가 80까지 증가했을 때는 계산 시간이 단축되지만 80core 이상으로 증가시킬 경우 계산 시간이 점차 늘어나는 것을 확인.

 

  • H사 BMT 사례 : AMD EPYC 다중 노드 기준 코어 증가에 따른 OpenFOAM 성능 분석

    단일 노드에서의 파악된 최적 병렬 계산 Core 수인 80 core 구성이 분산 노드 계산에서도 가장 빠른 계산 성능과 병렬 효율를 보이는 것으로 확인되었습니다.

 

  • C사 BMT 사례 : AMD EPYC_Intel Xeon/Platinum 단일 노드 기준 코어 증가에 따른 Fluent 성능 분석

    Hydra (Platinum)는 고코어 환경에서 가장 안정적으로 병렬 확장. 96코어까지 효율 지속 증가 (22.2x). Intel Xeon Gold 도 안정적인 병렬 확장 확인. 다만, AMD EPYC는 64코어 구간에서 성능이 정점이며, 이후 코어 증가에 따른 효율 하락 → 병렬 최적 코어수는 64C 전후.

이러한 결과는 https://arxiv.org/html/2505.17934v1 논문에서 언급된 아래 내용에서도 연관성 확인이 가능합니다.

 

CFD/CAE 소프트웨어 성능

OpenFOAM 벤치마크 결과에 따르면, AMD EPYC 9004 시리즈(Genoa, Genoa X, Bergamo)는 이전 세대(Rome, Milan, Milan X) 대비 상당한 성능 향상을 보였습니다. 특히 Genoa X 플랫폼은 3D V-Cache 기술을 통해 L3 캐시 용량을 크게 늘려 중대형 메쉬 크기 문제에서 다른 시스템보다 뛰어난 성능을 보였습니다. 반면, 더 작은 메쉬 크기에서는 64코어 Genoa 프로세서가 96/128코어 Genoa/Bergamo 프로세서보다 더 나은 성능을 보였는데, 이는 코어당 더 많은 메모리 대역폭을 제공하기 때문일 수 있습니다. Milan X와 Genoa X와 같이 3D V-Cache 기술이 적용된 프로세서는 일반 Milan 및 Genoa 프로세서 대비 L3 캐시 미스율을 최대 29-30%p 감소시켜 성능 향상을 가져왔습니다. 새로운 AMD EPYC 9004 시리즈 프로세서는 DDR5 기반 12채널 메모리 서브시스템 덕분에 이전 세대보다 더 높은 성능을 제공합니다.

고코어 밀도 프로세서의 성능 효율:

AMD EPYC 프로세서는 코어 수가 증가함에 따라 계산 효율성(FVOPS)이 특정 지점(예: motorBike 벤치마크의 경우 코어당 약 4.7k~20k 셀)까지는 증가하지만, 그 이후에는 감소하는 경향을 보였습니다. 이는 코어당 데이터 양 증가로 인한 L3 캐시 포화 및 메모리 채널 대역폭 제한과 관련이 있을 수 있습니다. 코어 수와 캐시 크기를 늘려도 성능이 비례적으로 증가하지는 않으며, 특히 L3 캐시 미스율이 증가할 때 더욱 두드러집니다. Bergamo(128코어) 프로세서는 코어당 L3 캐시 크기가 더 작고 메모리 대역폭이 제한되어 Genoa(96코어) 대비 성능 이점을 보이지 못했습니다. 소스들은 모든 코어를 활용할 때 성능 저하 (경과 시간 증가) 현상이 모든 워크로드 및 고코어 모델에서 일관되게 발생한다고 명시하지는 않지만, 코어 수 증가에 따른 성능 증가율이 둔화되거나 특정 코어 수 구성(동일 세대 내)이 특정 워크로드/크기에서 더 효율적일 수 있음을 보여줍니다.

1.2. 플랫폼 아키텍처 및 기능

캐시 구조

AMD EPYC 프로세서는 하이브리드 멀티 다이 아키텍처를 특징으로 하며, Core Complex Dies (CCDs)와 중앙 I/O 허브(IOD)로 구성됩니다. CCD는 Zen 코어, L2 캐시, 공유 L3 캐시를 포함하며, 2~3세대 EPYC은 0.5MB L2 캐시, 4세대 EPYC은 코어당 1MB L2 캐시로 구성되어 L2 미스율을 감소시켰습니다. 특히 Milan X 및 Genoa X에 적용된 3D V-Cache 기술은 L3 캐시 용량을 획기적으로 확장하여 대규모 워크로드에 유리한 구조를 제공합니다.

반면, Intel Xeon 프로세서는 코어 간 일관된 공유형 L3 캐시 아키텍처를 채택하여 모든 코어가 동일한 L3 영역에 접근할 수 있도록 설계되어 있어, 멀티코어 환경에서 예측 가능한 캐시 응답성과 낮은 지연시간을 제공하는 것이 특징입니다. 이는 분산형 L3 구조를 사용하는 AMD EPYC과 대비되는 구조로, 특히 CAE 워크로드 등에서 일관된 캐시 접근 패턴이 중요한 환경에 적합합니다.

 

메모리 및 I/O

AMD EPYC 프로세서는 소켓당 12채널 DDR5 메모리를 지원하는 반면, Intel Xeon은 8채널 메모리를 지원하여 스펙상으로 AMD가 메모리 대역폭 측면에서 잠재적으로 우위를 가집니다. PCIe 레인 수도 AMD가 소켓당 128개 (듀얼 소켓 구성 시 최대 160개 사용 가능)로 Intel(80개)보다 많아 NVMe 스토리지, GPU, 네트워크 확장에 유리합니다. 다만, Intel은 최신 Xeon 프로세서에서 CXL(Compute Express Link) 지원을 강화하고 있으며, 이는 메모리 및 디바이스 확장성 측면에서 새로운 가능성을 제시합니다.

 

인터커넥트

AMD는 Infinity Fabric을 사용하여 CPU 컴포넌트 및 소켓 간 통신을 관리하며 예측 가능한 지연 시간과 대역폭으로 평가됩니다. Intel은 멀티 소켓 구성에 강점을 가지며 (4, 6, 8 소켓 지원), CXL(Compute Express Link)과 같은 새로운 기술 지원에 주력하고 있습니다.

 

NUMA 구조

NUMA 구조에서도 AMD EPYC 4세대는 듀얼 소켓 구성 시 일반적으로 2×4 NUMA 도메인으로 나뉘며, 각 CCD가 독립된 메모리 접근 지연 특성을 가집니다. 이에 따라 워크로드에 따라 NUMA 간 통신 최적화가 요구됩니다. 이에 비해 Intel Xeon은 단일 또는 이중 NUMA 도메인 구성을 통해 OS 및 하이퍼바이저 수준에서 보다 직관적이고 효율적인 메모리 관리가 가능하며, NUMA 거리(지연 시간)가 일관적이어서 복잡한 워크로드에서도 보다 예측 가능한 성능을 제공합니다.

1.3. 비용 및 총 소유 비용 (TCO)

초기 비용

AMD는 일반적으로 Intel 대비 코어당 가격이 저렴한 평가를 받기에 초기 투자 비용 절감에 유리한 강점이 있습니다.

운영 비용 (OPEX)

AMD EPYC 프로세서는 에너지 효율성 측면에서 강점을 보입니다. 4세대 EPYC 프로세서는 경쟁 제품 대비 VM당 서버 수를 최대 35% 줄이고, 3년 동안 전력 소비량을 36% 감소시킬 수 있습니다. 이는 데이터 센터 공간 및 전력 비용 절감으로 이어져 OPEX 절감에 기여합니다. (AMD 브로셜 내용 참조)

소프트웨어 라이선스

코어 단위로 과금되는 소프트웨어의 경우, 코어 수가 많은 AMD가 불리할 수 있습니다. 일부 고객은 라이선스 비용 절감을 위해 적은 코어 수에서 상대적으로 성능이 우수한 Intel Xeon을 선택하기도 합니다. (LS-Dyna, Ansys, Fluent, CFX, HFSS, Maxwell, Abaqus 등 )

업그레이드 용이성

AMD는 소켓(SP5) 수명을 길게 가져가는 경향이 있어 향후 업그레이드 시 유리하다는 의견이 있습니다.

1.4. 생태계 및 지원

컴파일러 및 라이브러리

GNU, LLVM, Cray, Fujitsu, Arm 등 다양한 컴파일러와 OpenMPI, MPICH, MVAPICH2, Cray, HPE, Intel MPI, Bullx MPI 등 다양한 MPI 라이브러리가 HPC 환경에서 사용 가능하며, Arm 기반 환경에서도 지원됩니다. Intel은 자사의 컴파일러(ICC) 및 MPI 라이브러리(IMPI)를 제공하며 Intel 프로세서에 최적화되어 있습니다. AMD 또한 최적화된 컴파일러(AOCC)를 제공합니다.

상용 소프트웨어 호환성 및 최적화

OpenFOAM과 같은 오픈 소스 CFD 소프트웨어는 다양한 아키텍처에 포팅 및 테스트되었습니다. StarCCM+, Fluent, Ansys Fluent 등 상용 CFD/CAE 소프트웨어는 전통적으로 x86 아키텍처에 최적화되어 있으며, Oracle Cloud Infrastructure에서 Intel Skylake 또는 AMD 프로세서 기반으로 테스트 및 검증되었습니다. 다만 대부분의 CAE/CFD SW 의 경우 Intel MPI 채택 비중이 가장 많으며, Intel은 펌웨어 성숙도 및 ISV(Independent Software Vendor) 인증 측면에서 AMD 대비 우위를 가질 수 있습니다. (Ansys, Fluent, CFX, Abaqus, StarCCM+ 등 대부분 CAE SW 의 기본 MPI 환경은 Intel MPI 를 채택하고 있음)

1.5. Intel Xeon vs. AMD EPYC 요약 테이블

구분 Intel Xeon (x86) AMD EPYC (x86)
코어 수 최대 60-144 코어 (최신 세대) 최대 96-128 코어 (최신 세대)
스레드 수 코어 수와 유사 (Hyper-Threading 시 2배) 코어 수의 2배 (SMT 활성화 시)
단일 코어 성능 상대적으로 높은 클럭 및 IPC. (AMD Zen 4와 격차 축소) 높은 IPC 및 클럭. (Intel 대비 미미한 차이)
다중 코어 성능 특정 벤치마크에서 AMD 대비 높은 성능. 일부 CFD에서 효율성 차이. 높은 코어 밀도로 다중 스레드 워크로드에 유리. 특정 CFD 벤치마크에서 우위.
고코어 효율성 코어 수 증가에 따른 성능 스케일링 비교적 안정적. 특정 워크로드 및 메쉬 크기에서 코어 수 증가에 따른 성능 증가율 둔화 또는 효율성 감소.
캐시 공유형 L3 캐시, L2 미스율 감소 (4세대), 멀티코어간 병렬 계산에서 응답성과 저지연 우수 분산형 L3 캐시, 대용량 특징(Milan X, Genoa X의 3D V-Cache) 대형 메쉬에 유리
메모리 8채널 DDR5 지원. 12채널 DDR5 지원.
PCIe 레인 최대 80개 (일부 플랫폼). CXL 지원. 최대 128개.
확장성 멀티 소켓 구성(4, 6, 8 소켓) 지원으로 수직 확장 우수. 주로 듀얼 소켓 구성으로 노드당 높은 밀도 제공.
비용 (CAPEX) AMD 대비 코어당 가격 높음. 코어당 가격 경쟁력 높음.
에너지 효율성 AMD 대비 다소 떨어짐. 경쟁 제품 대비 높은 효율성.
라이선스 (코어) 코어당 라이선스 시 유리할 수 있음. 코어당 라이선스 시 불리할 수 있음.
생태계/지원 성숙된 펌웨어, ISV 인증, 엔터프라이즈 지원 우수. 다양한 컴파일러/MPI 지원. 대다수 ISV에서 기본 채택한 Intel-MPI 에 최적화 성장하는 생태계, 지원 강화. 다양한 컴파일러/MPI 지원.
주요 장점 검증된 안정성 및 호환성, 강력한 엔터프라이즈 지원, 멀티 소켓 확장성. 뛰어난 가격 대비 성능 (코어 수), 높은 에너지 효율성, 높은 메모리/PCIe 대역폭.
주요 단점 AMD 대비 코어 밀도 및 에너지 효율성 다소 낮음, 소켓 수명 짧을 수 있음. 고코어 모델에서 성능 증가율 둔화/효율성 이슈, ISV 인증/생태계 상대적 발전 중.

2. Intel/AMD (x86) vs. 최신 ARM 기반 프로세서 비교

ARM 아키텍처는 모바일 시장을 넘어 서버 및 HPC 분야로 빠르게 확장하고 있습니다. Fugaku 슈퍼컴퓨터와 같이 ARM 기반 시스템의 대규모 구축 사례가 늘어나고 있습니다.

2.1. 성능 및 효율성

ARM 프로세서 발전: AMD Opteron A1100 (32/64비트), Cavium ThunderX (64비트 48코어), Fujitsu A64FX (SVE 벡터화, 48코어), Ampere Altra Max (256코어), NVIDIA Grace Hopper (72코어) 등 다양한 ARM 기반 HPC 프로세서가 개발 및 출시되었습니다.

CFD/CAE 성능: OpenFOAM과 같은 소스코드가 공개된 일부 애플리케이션은 Arm 기반 시스템에 포팅되어 테스트된 사례가 있습니다. 특정 OpenFOAM 마이크로벤치마크 테스트에서 AMD 및 Intel x86 프로세서와 비교 가능한 성능(95%수준)을 보였다는 결과도 있습니다. (참고: https://www.stonybrook.edu/commcms/ookami/_pdf/Xue_UGM2023.pdf)

2.2. 소프트웨어 생태계 및 호환성

성장하는 생태계: GNU, LLVM, Arm, Cray, Fujitsu 컴파일러와 OpenMPI 등 주요 MPI 라이브러리, HDF5, NetCDF 등 I/O 라이브러리, 디버깅 및 성능 분석 도구(Arm Allinea Studio, Forge, Performance Reports) 등이 Arm 환경을 지원합니다. TensorFlow, PyTorch, MXNet 등 주요 머신러닝 프레임워크도 AArch64에서 빌드되어 있습니다.

포팅 및 최적화 필요: Arm을 실행 가능한 대안으로 만들기 위해서는 해당 응용의 소스코드가 공개되어 있고, 코드 포팅 및 최적화 작업이 필요합니다.

상용 소프트웨어 호환성: StarCCM+, Fluent, Ansys Fluent 등 주요 상용 CAE 소프트웨어는 전통적으로 x86 아키텍처를 중심으로 개발 및 최적화되었습니다. 비록 Arm 기반 시스템에서의 성능 테스트 사례가 있지만, x86 대비 상용 소프트웨어의 검증된 호환성, 안정성, 광범위한 최적화 수준은 아직 부족한 측면이 있습니다.

2.3. Intel/AMD (x86) vs. ARM 요약 테이블

구분 Intel/AMD (x86) 아키텍처 ARM 아키텍처
성능 성숙된 아키텍처 기반, 다양한 워크로드에서 검증된 성능. 특정 HPC/AI 워크로드에서 경쟁 가능한 성능. 최신 프로세서 성능 지속 향상.
코어 밀도 높은 코어 수 제공 (최대 128+ @ AMD Bergamo, 144 @ Intel Sierra Forest). 높은 코어 밀도 제공 (예: Ampere Altra Max 256코어).
전력 효율성 지속적으로 개선되고 있으나 ARM 대비 낮은 경향. 모바일 기반 기술로 높은 전력 효율성 잠재력.
소프트웨어 생태계 매우 성숙되고 광범위함. 상용 소프트웨어 호환성 및 최적화 우수. 다양한 개발 도구 지원. 빠르게 성장 중. 오픈 소스 소프트웨어 지원 활발. 상용 소프트웨어 포팅/최적화 진행 중.
호환성 및 안정성 오랜 역사와 광범위한 사용으로 높은 수준의 호환성 및 안정성 제공. x86 대비 호환성 확보 및 최적화 노력 필요. 생태계 성숙도 x86 대비 낮음.
기술 지원 광범위한 벤더 및 커뮤니티 지원, 특히 상용 소프트웨어 분야. 성장 중인 지원 생태계, Arm 및 파트너사 지원 제공.
구축 사례 대규모 HPC 및 엔터프라이즈 환경에서 압도적인 점유율 Fugaku, Astra 등 대규모 구축 사례 증가 추세. 클라우드 환경에서 도입 확대.
주요 장점 사실상 표준 HPC 아키텍처, 검증된 안정성/호환성, 풍부한 상용 SW 지원. 높은 코어 밀도, 전력 효율성 잠재력, 성장하는 생태계.
주요 단점 ARM 대비 전력 효율성 낮음, 코어 밀도/가격 경쟁력에서 일부 열세. 상용 SW 호환성/최적화 부족, 포팅/개발 노력 필요, 생태계 성숙도 발전 중.

3. 결론 및 제언

다양한 관계 자료 검토와 당사의 실제 BMT 경험을 종합했을 때 AMD EPYC 프로세서는 높은 코어 밀도와 뛰어난 가격 대비 효율, 그리고 에너지 효율성 측면에서 강점을 가지며 많은 HPC 워크로드에서 우수한 효과가지고 있습니다. 특히 대용량 L3 캐시가 탑재된 모델(Milan X, Genoa X)은 메모리 바운드 CFD 애플리케이션의 성능 개선 사례도 제시하고 있습니다. 그러나 실제 복합적 워크로드를 포함하는 실제 CAE/CFD 해석 환경에서 AMD EPYC의 고밀도 코어 모델(128Core이상)은 코어 수 증가(노드 당 64~96Core이상 증가)에 따른 성능 증가율이 둔화되거나 특정 워크로드 및 메쉬 크기따라 효율성이 극격히 감소하는 경향을 자주 보였습니다. 이는 L2, L3 캐시 크기, 코어당 메모리 대역폭 등 아키텍처적 특성과 관련된 것으로 최적의 성능을 위해서는 워크로드 특성 및 데이터 크기를 고려하여 적절한 코어 수를 활용하는 것이 중요하며, 무조건 많은 코어를 사용하는 것이 최적의 결과를 보장하지 않을 수 있습니다.

Intel Xeon 프로세서는 오랜 기간 HPC 분야에서 표준으로 자리 잡으며 검증된 호환성과 안정성, 그리고 성숙한 기술 지원 생태계를 강점으로 가집니다. StarCCM, Ansys Fluent, LS-Dyna 모두 병렬 계산 MPI Framework를 Intel 프로세서에 최적화된 Intel MPI를 기본 채택하고 최신 버전 출시 시, 최우선으로 검증하여 패키지에 탑재하는 것도 같은 영향이라 봅니다. (Ansys, StarCCM 최신 버전 출시 시점, Intel MPI 외 다른 MPI의 경우 정상 지원되는 않는 경우 다수 경험. 또한 AMD EPYC 에서 SW에 기본 탑재된 Intel MPI 버전으로 대규모 병렬 계산 실행 시, 초기 모델 로딩 및 도메인 분할 단계에서 문제가 발생되는 사례 경험)

또한, 당사에서 Starccm, Ansys fluent 등 실제 CAE SW로 BMT한 결과 Intel Xeon (3세대~4세대 P-코어)프로세서의 경우, 프로세서 당 코어 밀도는 AMD EPYC 에 비해 낮아도 코어 증가에 대한 안정적인 스케일링 성능(다중 코어의 병렬 계산 성능)은 우위에 있다는 것을 확인할 수 있었습니다.

이는 AMD EPYC의 고밀도 코어 설계가 복잡한 HPC 워크로드, 특히 메모리 및 통신 집약적인 CFD/CAE 애플리케이션에서는 메모리 대역폭 및 NUMA 오버헤드로 인한 병목 현상을 초래할 수 있으며, 소프트웨어 최적화 수준 또한 Intel Xeon 대비 상대적으로 부족할 수 있음을 확인했던 사례라 볼수 있습니다.

ARM 아키텍처는 최근 고성능 컴퓨팅 시장에서 빠르게 부상하고 있으며, OpenFOAM 등 애플리케이션의 일부 기능에서는 컨버팅되어 지원되는 사례가 확인되고 있습니다. 그러나 현재 시점에서는 주요 상용 CFD/CAE 소프트웨어의 광범위한 호환성, 검증된 안정성, 심도 깊은 최적화 측면에서 x86 아키텍처 대비 부족한 점이 있습니다. ARM 버전이 출시된 Ansys, StarCCM 의 경우 지원 영역이 batch 로만 동작 가능한 일부 Solver 기능만 지원되고 pre/post 단계에서의 GUI 부분은 모두 지원하지 않고 있습니다. 이는 pre/solver/post/visualization 단계로 이어지는 CAE 워크플로우 과정을 완벽히 지원한다고 볼수 없습니다. ARM 기반 시스템에서 상용 소프트웨어를 사용하기 위해서는 추가적인 포팅 및 최적화 노력이 필요할 수 있으며, 이는 구축 및 운영의 복잡성을 증가시킬 수 있습니다. 따라서 현 시점에서는 상용 CFD/CAE 워크로드를 위한 주력 HPC 플랫폼으로 ARM 아키텍처를 고려하기에는 제한적이라 판단됩니다.

 

종합적으로, 안정적인 상용 CFD/CAE 소프트웨어 운영, 폭넓은 하드웨어/소프트웨어 호환성, 검증된 기술 지원 생태계, 고밀도 프로세서 성능 효율성(코어수 증가 대비 성능 향상)를 최우선 가치로 고려할 때, Intel Xeon 아키텍처가 아직은 CAE/CFD 현장에서 가장 신뢰할 수 있는 선택이라 판단하고 있습니다. 다만, 지속적으로 HPC 규모가 확대되고, 이로 인한 상면/전력/비용 등 인프라 운영 효율 관점을 고려한다면 AMD EPYC 선택 역시 충분한 가치가 있다 판단하고 있습니다. AMD EPYC 도입 후, SW별 최적화된 MPI Framework 선택과 최적의 노드별 코어수 할당을 통합 솔루션에서 제어할 수 있다면 AMD EPYC 역시 효과적인 HPC 성능 상태를 유지할 수 있을 것입니다.

 

 

서진우

슈퍼컴퓨팅 전문 기업 클루닉스/ 상무(기술이사)/ 정보시스템감리사/ 시스존 블로그 운영자

You may also like...