MLCommonsは先日、最新のMLPerf Training v5.1ベンチマークテストの結果を発表しました。これはAIコンピューティング分野における年間最終試験であるだけでなく、NVIDIAとAMDが次世代アーキテクチャの実力を披露する場でもあります。NVIDIAはBlackwell Ultraアーキテクチャで競争を席巻し、AMDはCDNA 4アーキテクチャのMI350シリーズで初めてトレーニングテストに参加し、僅差で競争力を発揮しました。
NVIDIA: Blackwell UltraとNVFP4の精度の組み合わせでパフォーマンスが2倍に
このテストでは、NVIDIA は予想通り、大規模言語モデル (LLM) や画像生成を含む 7 つのテストすべてで最速のトレーニング速度を達成し、すべてのプロジェクトで結果を提出した唯一のプラットフォームとなりました。
NVIDIAの今回の「切り札」は、Blackwell Ultra GPUアーキテクチャをベースにしたGB300 NVL72ラックマウントシステムです。究極のパフォーマンスを引き出すため、NVIDIAはMLPerfトレーニング史上初めてNVFP4低精度コンピューティングを採用しました。
NVIDIA が発表した公式データによると、Blackwell Ultra は、同じ数の GPU を搭載した前世代の Hopper アーキテクチャと比較して、大幅なパフォーマンスの向上を実現します。
• Llama 3.1 405B 事前トレーニング:効率が4倍以上向上します。
• Llama 2 70B LoRAの微調整:効率が5倍近く向上しました。
Blackwell Ultraのアーキテクチャ上の優位性は、15ペタフロップスのNVFP4 AIコンピューティング能力と最大279GBのHBM3e高帯域幅メモリを備えた新しいTensorコアにあります。さらに、NVIDIAはLlama 3.1 405Bテストにおいて5000基以上のBlackwell GPUを活用し、わずか10分でトレーニングを完了するという記録を樹立しました。
AMD: CDNA 4 アーキテクチャがデビュー、MI355X は前世代機の 2.8 倍のパフォーマンスを実現。
一方、AMDもこのテストで印象的な結果を示しました。AMDがInstinct MI350シリーズGPU(MI355XおよびMI350Xを含む)をMLPerfトレーニングテストに使用したのは今回が初めてです。
AMD Instinct MI355X GPUは、3nm製造プロセスとCDNA 4アーキテクチャを採用し、288GBのHBM3e高帯域幅メモリを搭載しています。AMDは、その顕著なパフォーマンス向上を強調しています。
• 効率性の飛躍的向上:MI355X は、前モデルの MI300X と比較して、トレーニング パフォーマンスが 2.8 倍向上しています。
• Llama 2 70B LoRAの微調整:MI355X プラットフォームは 10.18 分で完了し、MI300X の 27.97 分と比べて大幅に短縮されました。
NVIDIA の B200 プラットフォームは、絶対速度では 9.85 分で AMD MI355X をわずかに上回りましたが、AMD MI355X の 10.18 分は非常に競争力のあるパフォーマンスを示し、両者の差が縮まっていることがわかりました。
エコシステムと将来のレイアウト
このテストでは、両社のエコシステムの拡大も浮き彫りになりました。NVIDIAは、ASUS、Dell、Quanta Computer、Wistronなど15社のパートナー企業から結果が提出されました。AMDも負けず劣らず、ASUS、Dell、GIGABYTEなど9社のパートナー企業がAMD Instinctハードウェアに基づくテスト結果を提出しました。
今後の展望として、AMD は Financial Analyst Day カンファレンスで製品ロードマップを更新し、今後も維持していくことを確認しました...「年に一度」の更新スケジュールMI400 シリーズは 2026 年に発売される予定で、MI500 シリーズは NVIDIA とのさらなる競争のために 2027 年にデビューする予定です。




