NVIDIA H100 NVL ベンチマークまとめ

GPU・グラフィックボード

2025.03.22

H100 NVLのアーキテクチャと主要機能

NVIDIA H100 NVLは、データセンターにおける要求の厳しいワークロード、特にディープラーニング、科学シミュレーション、データ分析のために設計された高性能GPUです ¹。このGPUはNVIDIA Hopperアーキテクチャに基づいており、コンパクトな設計でありながら、高いメモリ帯域幅を提供します ¹. H100 NVLは、NVIDIAのNVLinkベースのシステムでの使用を想定しており、AI推論を大規模に行うために最適化されています ². 注目すべき点として、H100 NVLは従来のPCIeカードとは異なり、2つのH100 PCIeカードがNVLinkブリッジで接続された構成となっています ³. この設計により、高い演算密度、メモリ帯域幅、エネルギー効率、そして独自のNVLinkアーキテクチャが実現されています ².

H100 NVLの性能を支える主要な技術要素には、Transformer Engine、NVLink、そしてHBM3メモリが含まれます ². Transformer Engineは、大規模言語モデル（LLM）のトレーニングと推論を高速化するために設計された専用のハードウェアです ². このエンジンは、FP8やFP16などの混合精度計算を効率的に処理することで、精度を維持しながら高いパフォーマンスを発揮します ⁵. 特に、GPTのようなTransformerベースのモデルのトレーニングを、前世代のGPUと比較して最大で4倍高速化することが可能です ⁵.

NVLinkは、GPU間およびGPU-CPU間の高速なインターコネクト技術であり、H100 NVLにおける2つのGPU間の連携に不可欠です ². H100 NVLは3つのNVLinkブリッジを使用し、2つのGPU間で600 GB/sの双方向帯域幅を提供します ². これはPCIe Gen4の帯域幅の10倍に相当し、大規模なワークロードにおけるアプリケーションのパフォーマンスを最大化します ². この高速なインターコネクトにより、複数のGPUが連携して1つの大きなGPUとして機能し、ディープラーニングや複雑なデータ分析、科学シミュレーションなどのデータ集約型アプリケーションにおいて、同期された処理と優れたデータ転送速度を実現します ⁹.

HBM3メモリは、高い帯域幅を持つメモリ技術であり、H100 NVLは合計で188GB (2 x 94GB) のHBM3メモリを搭載し、メモリ帯域幅は2 x 3.9 TB/sに達します ². この大容量かつ高帯域幅のメモリは、大規模なモデルやデータセットを扱うAIやHPCのワークロードにおいて、メモリボトルネックを解消し、データアクセスを高速化する上で重要な役割を果たします ³.

AIおよび機械学習の性能

大規模言語モデル (LLM) の推論とトレーニング

推論性能

H100 NVLは、大規模言語モデル（LLM）の推論において優れた性能を発揮します。例えば、GPT-175Bモデルの性能をNVIDIA DGX™ A100システムと比較した場合、最大で12倍の性能向上が見られます ². また、Llama 2 70Bモデルの推論においては、H100 PCIeと比較してほぼ2倍の性能を実現しています ¹¹. これらの結果は、H100 NVLのアーキテクチャ、特にTransformer Engineと高メモリ帯域幅が、LLM推論のスループットを大幅に向上させ、遅延を低減することに直接的に貢献していることを示しています。Transformer Engineによる混合精度計算の最適化と、高速なメモリによるデータ供給が、この高い推論性能を支えています。

トレーニング性能

H100 NVLは主に推論向けとして位置づけられていますが、基盤となるH100 GPUはトレーニングにおいても強力な性能を発揮します。MLPerfベンチマークでは、H100はLLMを含むすべてのワークロードにおいて、最大スケールで最速のトレーニング時間を記録しました ¹². 具体的には、GPT-3 (175B) モデルのトレーニングにおいて、FP8精度とTransformer Engineの組み合わせにより、前世代と比較して最大で4倍の高速化を達成しています ⁵. H100 NVLは2つのH100 GPUを搭載しているため、その大きなメモリ容量は、大規模なモデルのトレーニングにおいても有効であると考えられます。

自然言語処理 (NLP)

BERTベンチマーク

自然言語処理の代表的なモデルであるBERTを用いたベンチマークにおいても、H100 NVLは高い性能を示しています。BERT Large Modelベンチマークでは、H100 NVLは10,000シーケンス/秒のスループットを達成しました ¹. また、A100 SXM4と比較した場合、BERTベンチマークにおいてH100 NVLはスループットで25%、消費電力で15%の改善を示しています ¹³. これらの結果から、H100 NVLは前世代のGPUと比較してNLPタスクにおいて明確な性能優位性を持っており、幅広い言語ベースのアプリケーションに効果的であることがわかります。Hopperアーキテクチャにおける性能向上が、NLPワークロードにおいても恩恵をもたらしていると考えられます。

画像認識

ResNetベンチマーク

画像認識タスクにおけるH100 NVLの性能評価として、ResNetベンチマークの結果があります。ResNet-50ベンチマークでは、H100 NVLは10,000画像/秒のスループットを達成しました ¹. さらに、A100 SXM4との比較では、ResNet-50においてH100 NVLはスループットで30%の向上、消費電力で20%の削減を実現しています ¹³. NLPと同様に、画像認識の分野においてもH100 NVLは旧世代のアーキテクチャと比較して大きな性能向上を提供しており、多様なAI領域でその汎用性の高さを示しています。

ハイパフォーマンスコンピューティング (HPC) の性能

計算流体力学 (CFD)

FluidX3Dベンチマーク

計算流体力学（CFD）アプリケーションにおけるH100 NVLの性能は、FluidX3Dベンチマークによって評価されています。このベンチマークでは、94GBのVRAMを搭載したNVIDIA H100 NVLが、80GBのH100を2倍の性能で上回りました ¹⁵. これは、H100 NVLの3938 GB/sという非常に高いVRAM帯域幅によるものです。このように、H100 NVLの卓越したメモリ帯域幅は、CFDのようなメモリ帯域幅を多用するHPCワークロードにおいて、その強力な性能を発揮する重要な要因となっています。

線形代数演算 (Linpack)

HPLベンチマーク

HPCシステムの浮動小数点演算性能を測る指標であるLinpackベンチマーク（HPL）においても、H100 GPU（NVLを含む）は高い性能を示唆しています。H100 PCIe GPUは、LinpackベンチマークにおいてA100 (80GB) PCIe GPUよりも約14.7%高い性能を発揮しています ¹⁶. また、4つのNVIDIA H100 NVL GPUを搭載したPowerEdge R760xaサーバーと、同様の構成でH200 GPUを搭載したサーバーを比較すると、H200の方が性能が高いという結果が出ています ¹⁷. 一方で、Linpackベンチマークテストにおいて、H100 NVLはA100 SXM4よりも消費電力が10%低いものの、A100 SXM4の方が高い性能を提供しています ¹⁸. これらのデータから、H100 NVLは競争力のあるHPC性能を提供し、場合によっては電力効率に優れている可能性が示唆されます。

競合製品との性能比較

NVIDIA製GPUとの比較

H100 PCIe

ディープラーニングワークロードにおけるH100 NVLとH100 PCIeの性能を比較すると、一般的にH100 PCIeの方が高いメモリ帯域幅を必要とするアプリケーションにおいて優れた性能を発揮します ¹. 例えば、BERT Large Modelベンチマークでは、H100 PCIeのスループットが12,000シーケンス/秒であるのに対し、H100 NVLは10,000シーケンス/秒でした ¹. 同様に、ResNet-50やTransformer-XLのベンチマークでも、H100 PCIeの方が高いスループットを示しています ¹. しかし、H100 NVLのコンパクトな設計と低い消費電力は、特定のユースケースにおいてより魅力的な選択肢となる可能性があります ¹. 特に、Llama 2 70Bの推論においては、H100 NVLがH100 PCIeのほぼ2倍の性能を達成しています ¹¹. これは、H100 NVLのデュアルGPU構成とより大きなメモリ容量が、特定のLLM推論シナリオにおいて有利に働くためと考えられます。

H100 SXM5

H100 NVLとH100 SXM5は、それぞれ異なる用途に最適化されています。H100 SXM5は主にAIトレーニング向けに設計されており、一方のH100 NVLは大規模なAI推論向けに構築されています ³. H100 SXM5は、GPU-GPU間のインターコネクト帯域幅が900 GB/sと、H100 NVLの600 GB/sよりも高くなっています ³. このため、複数のGPUを連携させて行う大規模なAIモデルのトレーニングには、H100 SXM5の方が適しています。対照的に、H100 NVLはそのより大きなメモリ容量を活かし、特に大規模なモデルを扱う推論タスクにおいて優れた性能を発揮します。

A100

前世代のGPUであるA100と比較すると、H100 NVLはAIワークロードにおいて大幅な性能向上を実現しています。大規模言語モデルのトレーニング性能においては、H100 NVLはA100と比較して2.5倍の向上を達成しています ¹⁹. 全般的に、H100 GPUはAIトレーニングにおいて最大9倍、推論においては最大30倍高速であると報告されています ²⁰. この性能の飛躍は、Transformer Engine、増加したメモリ帯域幅、そしてFP8のような新しいデータ型のサポートといった、Hopperアーキテクチャの強化によってもたらされています ⁷.

AMD製GPUとの比較

MI300X

AMDのMI300Xは、HPCおよびAI分野におけるNVIDIAの主要な競合製品です。一部のベンチマークでは、AMDのMI300XがNVIDIAの現行世代のトップエンドデータセンターGPUを明確に上回っているという結果が出ています ¹⁵. MI300Xは、H100 SXMと比較してメモリ容量（192GB対80GB）と帯域幅において優れたスペックを持っています ²³. LLM推論においては、小規模なバッチサイズではNVIDIA H100 SXMがMI300Xを上回るものの、バッチサイズが大きくなるにつれてMI300Xが追い上げ、最終的にはスループットでH100 SXMを凌駕します ²³. これらの比較から、AMD MI300Xは特に大きなメモリ容量と帯域幅を必要とするワークロードにおいて、NVIDIA H100ファミリーにとって強力な競争相手となることがわかります。

特徴	NVIDIA H100 NVL	NVIDIA H100 PCIe	NVIDIA H100 SXM5	NVIDIA A100
メモリ容量	188 GB (2 x 94 GB) HBM3	80 GB HBM2e	80 GB HBM3	40 GB / 80 GB HBM2
メモリ帯域幅	7.8 TB/s (2 x 3.9 TB/s)	2 TB/s	3.35 TB/s	1.6 TB/s / 2 TB/s
NVLink帯域幅	600 GB/s	600 GB/s	900 GB/s	600 GB/s
TDP	700-800 W	350 W	700 W	300 W / 400 W
LLM推論性能 (GPT-175B)	A100比最大12倍	–	–	基準
LLM推論性能 (Llama 2 70B)	H100 PCIe比約2倍	基準	–	–
ResNet-50スループット	10,000 画像/秒 (A100 SXM4比 30%向上)	12,000 画像/秒	–	A100 SXM4比 30%低い
Linpack性能	A100 SXM4比消費電力10%低 (性能はA100 SXM4に劣る)	A100 (80GB) PCIe比約14.7%向上	–	基準

特徴	NVIDIA H100 NVL	AMD MI300X
メモリ容量	188 GB (2 x 94 GB) HBM3	192 GB HBM3
メモリ帯域幅	7.8 TB/s (2 x 3.9 TB/s)	5.2 TB/s
NVLink相当帯域幅	600 GB/s	Infinity Fabric: 128 GB/s (GPUあたり)
TDP	700-800 W	750 W (推定)
LLM推論性能	小バッチサイズでH100 SXMに劣る可能性	大バッチサイズでH100 SXMを上回る
HPC性能	FluidX3DでH100 80GBを2倍上回る	一部のベンチマークでNVIDIAトップエンドGPUを上回る

主要技術要素がベンチマークに与える影響

Transformer Engine

Transformer Engineは、H100 NVLが大規模言語モデルのタスクにおいて高い性能を発揮するための重要な要素です ². 混合精度計算を最適化することで、Transformerベースのモデルに対してA100と比較して最大6倍の高速化を実現し ⁷, LLMのトレーニングと推論を効率的に行うことを可能にします。この技術により、H100 NVLはLLMタスクにおいて非常に高い効率性を発揮します。

NVLink

NVLinkは、H100 NVLにおける2つのGPU間の連携をスムーズにし、マルチGPU環境でのスケーラビリティを高める上で不可欠です ². H100 NVLでは600 GB/sの双方向帯域幅を持つNVLinkにより、2つのH100 GPU間での高速なデータ共有と同期が可能になり、特にLLM推論のような並列処理が可能なワークロードにおいて、全体的なパフォーマンスを大幅に向上させます。

メモリ帯域幅 (HBM3)

H100 NVLの高いHBM3メモリ帯域幅（2 x 3.9 TB/s）は、AIやHPCアプリケーションにおけるデータ集約型のワークロードにおいて、メモリボトルネックを最小限に抑え、データアクセスを高速化する上で重要な役割を果たします ². 大規模なデータセットを処理するLLMやCFDシミュレーションなどのアプリケーションにおいて、この高帯域幅がH100 NVLの優れた性能を支える重要な要因となっています。

結論と考察

NVIDIA H100 NVLは、その高度なアーキテクチャと主要技術要素により、特に大規模言語モデルの推論において卓越した性能を発揮することがベンチマーク結果から明らかになりました。Transformer EngineによるLLM処理の最適化、NVLinkによる効率的なマルチGPU連携、そして大容量かつ高帯域幅のHBM3メモリが、このGPUの強みです。BERTやResNetといった他のAIワークロードにおいても、前世代のGPUと比較して顕著な性能向上が見られます。また、CFDのようなHPCアプリケーションにおいても、その高いメモリ帯域幅が性能に大きく貢献しています。

競合製品との比較では、同じNVIDIAのGPUであるH100 PCIeやSXM5とは、それぞれ異なる特性と最適な用途を持っていることがわかります。H100 PCIeは一部のディープラーニングタスクで高いスループットを示す一方、H100 NVLはLLM推論で優位性があります。H100 SXM5はAIトレーニングに特化しているのに対し、H100 NVLは推論に強みを持っています。AMDのMI300Xは、特にメモリ容量と帯域幅においてH100ファミリーと競合しており、ワークロードによってはH100を上回る性能を示すこともあります。

H100 NVLの潜在的な制約としては、そのデュアルGPU構成による高い消費電力や、特定のHPCワークロードにおいては他のGPUに性能面で劣る可能性がある点が挙げられます。しかし、AI、特にLLMの分野におけるその性能は非常に高く評価されており、今後のAI技術の発展と普及に大きく貢献することが期待されます。