
![]() 販売終了 |
![]() 販売終了 |
![]() 販売終了 |
![]() |
![]() |
![]() |
|
---|---|---|---|---|---|---|
GPUメモリ | 80GB HBM2e | 48GB GDDR6 | 24GB HBM2 | 4x 16GB GDDR6 | 24GB GDDR6 | 16GB GDDR6 |
メモリー帯域幅 | 1,935GB/s | 696GB/s | 933GB/s | 200GB/s | 600GB/s | 200GB/s |
最大消費電力 | 300W | 300W | 165W | 250W | 150W | 40W-60W(初期設定60W) |
マルチインスタンスGPU | 最大7GPU | N/A | 4GPU 6GB 2GPU 12GB 1GPU 24GB |
N/A | N/A | N/A |
フォームファクター | PCIe 2スロット |
2スロット FHFL |
2スロット FHFL |
2スロット FHFL |
1スロット FHFL |
1スロット LP |
NVLink | NVIDIA NVLink 600 GB/s
PCIe Gen4 64 GB/s |
2 ウェイ ロー プロファイル (2 スロット) |
NVIDIA NVLink 200 GB/s
PCIe Gen4 64 GB/s |
N/A | N/A | N/A |
排熱機構 | パッシブ(冷却ファンなし) | パッシブ(冷却ファンなし) | パッシブ(冷却ファンなし) | パッシブ(冷却ファンなし) | パッシブ(冷却ファンなし) | パッシブ(冷却ファンなし) |
FP64(TFLOPS) | 9.7 | 0.58464 | 5.2 | 4x 0.00702 | – | 0.11702 |
FP64 Tensorコア(TFLOPS) | 19.5 | – | 10.3 | – | – | – |
Tensor Float 32(TFLOPS) | 156 / 312 | 74.8 / 149.6 | 82 / 165 | 4×9 / 4x 18 | 62.5 / 125 | 9 / 18 |
BFLOAT16 Tensorコア(TFLOPS) | 312 / 624 | 149.7 / 299.4 | 165 / 330 | 4x 17.9 / 4x 35.9 | 125 / 250 | 18 / 36 |
FP16 Tensorコア(TFLOPS) | 312 / 624 | 149.7 / 299.4 | 165 / 330 | 4x 17.9 / 4x 35.9 | 125 / 250 | 18 / 36 |
INT8 Tensorコア(TOPS) | 624 / 1248 | 299.3 / 598.6 | 330 / 661 | 4×35.9 / 4x 71.8 | 250 / 500 | 36 / 72 |
実アプリ性能 | 90% | – | – | – | – | – |
NVIDIA Ampere アーキテクチャ
NVIDIA A100 Tensorコア GPUはあらゆる規模で前例のない高速化を実現し、世界最高のパフォーマンスを誇るエラスティック データ センターにAI、データ分析、HPCのためのパワーを与えます。NVIDIA Ampereアーキテクチャで設計されたNVIDIA A100は、NVIDIA データ センター プラットフォームのエンジンです。A100は、前世代と比較して最大20倍のパフォーマンスを発揮し、7つのGPUインスタンスに分割して、変化する需要に合わせて動的に調整できます。40GBと80GB のメモリ バージョンで利用可能なA100 80GBは、毎秒2テラバイト (TB/秒)超えの世界最速メモリ帯域幅を実現し、最大級のモデルやデータセットを解決します。

NVIDIA Ampere アーキテクチャのイノベーション
第3世代 Tensorコア
NVIDIA Volta™ アーキテクチャで最初に導入されたNVIDIA Tensorコア テクノロジは、AIに劇的な高速化をもたらしました。トレーニング時間を数週間から数時間に短縮し、推論を大幅に加速します。NVIDIA Ampereアーキテクチャはこのイノベーションを基盤としており、新しい精度である Tensor Float 32 (TF32) と64ビット浮動小数点 (FP64) を導入することで、AI の導入を加速して簡素化し、Tensor コアのパワーを HPC にもたらします。
TF32はFP32と同じように動作しますが、コードを変更しなくても、AIを最大20倍スピードアップします。 NVIDIA Automatic Mixed Precisionを使用すると、研究者はわずか数行のコードを追加するだけで、自動混合精度とFP16でさらに2倍のパフォーマンスを得られます。また、bfloat16、INT8、INT4に対応しているので、NVIDIA Ampere アーキテクチャのTensorコア GPUのTensorコアは、AIのトレーニングと推論の両方に対する、非常に汎用性の高いアクセラレータです。また、TensorコアのパワーをHPCにもたらすA100およびA30 GPUでは、完全なIEEE準拠のFP64精度での行列演算を実行できます。
Multi-Instance GPU (MIG)
あらゆるAIとHPC アプリケーションがアクセラレーションの恩恵を受けることができますが、すべてのアプリケーションがGPUのフル パフォーマンスを必要とするわけではありません。Multi-Instance GPU (MIG) は、 A100とA30 GPU PU でサポートされている機能であり、ワークロードがGPUを共有することを可能にします。MIGを利用すると、各GPUを複数のGPUインスタンスに分割できます。各インスタンスは完全に分離され、ハードウェア レベルで保護され、専用の高帯域幅メモリ、キャッシュ、コンピューティング コアを与えられます。これにより開発者は、大小を問わずあらゆるアプリケーションに対して画期的な高速化を利用できるようになり、サービス品質も保証されます。また、IT管理者は、適切なサイズのGPUアクセラレーションを提供することで利用率を最適化し、ベアメタル環境と仮想化環境の両方ですべてのユーザーとアプリケーションにアクセスを拡張できます。
第3世代の NVLink
アプリケーションをマルチGPUでスケールさせるには、非常に高速にデータを移動させる必要があります。NVIDIA Ampere アーキテクチャの第3世代 NVIDIA® NVLink® は、GPU 間の直接帯域幅を2倍の毎秒600ギガバイト (GB/s) にします。これは、PCIe Gen4の約10倍です。最新世代の NVIDIA NVSwitch™と組み合わせることで、サーバー内のすべてのGPUが完全なNVLinkの速度で相互に通信し、驚くほど高速なデータ転送が可能になります。 NVIDIA DGX™A100と他の主要なコンピューター メーカーのサーバーは、 NVIDIA HGX™ A100ベースボードを介してNVLinkとNVSwitchのテクノロジを活用し、HPCおよびAIのワークロードに優れたスケーラビリティを提供します。
スパース構造
現代のAIネットワークは大きく、数百万、場合によっては数十億のパラメーターを持ち、ますますその規模は拡大しています。これらのパラメーターのすべてが正確な予測や推論に必要なわけではなく、一部のパラメーターをゼロに変換することで、精度を下げることなくモデルを「スパース」にできます。Tensorコアでは、スパースなモデルのパフォーマンスを最大2倍にできます。スパース機能はAI推論で特に効果を発揮しますが、モデルトレーニングのパフォーマンス向上にも利用できます。
第2世代 RTコア
NVIDIA A40のNVIDIA Ampereアーキテクチャの第2世代RTコアは、映画コンテンツのフォトリアルなレンダリング、建築デザインの評価、製品デザインのバーチャル試作品などのワークロードを大幅にスピードアップします。RTコアはまた、レイ トレーシングされたモーション ブラーのレンダリングをスピードアップし、短時間で結果が得られ、ビジュアルの精度が上がります。さらに、レイ トレーシングをシェーディング機能またはノイズ除去機能と共に同時に実行できます。
よりスマートで高速なメモリ
A100は、データセンターでの膨大な量のコンピューティングを可能にします。コンピューティング エンジンを常に完全に活用するために、A100はこのクラスで最大となる毎秒2テラバイト (TB/s) のメモリ帯域幅を備えています。前世代の2倍以上です。さらに、A100は前世代の7倍となる40メガバイト (MB) のレベル2キャッシュを含む、より大きなオンチップ メモリを搭載しており、コンピューティング パフォーマンスを最大限まで引き上げます。