NVIDIA logo
NVIDIA Ampere 仕様
 
NVIDIA A100 PCIe
NVIDIA A100 PCIe
販売終了
NVIDIA A40
NVIDIA A40
NVIDIA A800
NVIDIA A800 40GB Active
NVIDIA A30
NVIDIA A30
NVIDIA A16
NVIDIA A16
NVIDIA A10
NVIDIA A10
NVIDIA A2
NVIDIA A2
GPUメモリ 80GB HBM2e 48GB GDDR6 40GB HBM2 24GB HBM2 4x 16GB GDDR6 24GB GDDR6 16GB GDDR6
メモリー帯域幅 1,935GB/s 696GB/s 1,555GB/s 933GB/s 200GB/s 600GB/s 200GB/s
最大消費電力 300W 300W 240W 165W 250W 150W 40W-60W(初期設定60W)
マルチインスタンスGPU 最大7GPU N/A 最大7GPU @5GB 4GPU 6GB
2GPU 12GB
1GPU 24GB
N/A N/A N/A
フォームファクター PCIe
2スロット
2スロット
FHFL
2スロット
4.4 H x 10.5 L
2スロット
FHFL
2スロット
FHFL
1スロット
FHFL
1スロット
LP
NVLink NVIDIA NVLink 600 GB/s
PCIe Gen4 64 GB/s
2 ウェイ ロー プロファイル
(2 スロット)
NVIDIA NVLink 400 GB/s NVIDIA NVLink 200 GB/s
PCIe Gen4 64 GB/s
N/A N/A N/A
排熱機構 パッシブ(冷却ファンなし) パッシブ(冷却ファンなし) アクティブ パッシブ(冷却ファンなし) パッシブ(冷却ファンなし) パッシブ(冷却ファンなし) パッシブ(冷却ファンなし)
FP64(TFLOPS) 9.7 0.58464 9.7 5.2 4x 0.00702 0.11702
FP64 Tensorコア(TFLOPS) 19.5 10.3
Tensor Float 32(TFLOPS) 156 / 312 74.8 / 149.6 82 / 165 4×9 / 4x 18 62.5 / 125 9 / 18
BFLOAT16 Tensorコア(TFLOPS) 312 / 624 149.7 / 299.4 165 / 330 4x 17.9 / 4x 35.9 125 / 250 18 / 36
FP16 Tensorコア(TFLOPS) 312 / 624 149.7 / 299.4 165 / 330 4x 17.9 / 4x 35.9 125 / 250 18 / 36
INT8 Tensorコア(TOPS) 624 / 1248 299.3 / 598.6 330 / 661 4×35.9 / 4x 71.8 250 / 500 36 / 72
実アプリ性能 90%

NVIDIA Ampere アーキテクチャ

NVIDIA A100 Tensorコア GPUはあらゆる規模で前例のない高速化を実現し、世界最高のパフォーマンスを誇るエラスティック データ センターにAI、データ分析、HPCのためのパワーを与えます。NVIDIA Ampereアーキテクチャで設計されたNVIDIA A100は、NVIDIA データ センター プラットフォームのエンジンです。A100は、前世代と比較して最大20倍のパフォーマンスを発揮し、7つのGPUインスタンスに分割して、変化する需要に合わせて動的に調整できます。40GBと80GB のメモリ バージョンで利用可能なA100 80GBは、毎秒2テラバイト (TB/秒)超えの世界最速メモリ帯域幅を実現し、最大級のモデルやデータセットを解決します。

NVIDIA ampere

NVIDIA Ampere アーキテクチャのイノベーション

第3世代 Tensorコア

NVIDIA Volta™ アーキテクチャで最初に導入されたNVIDIA Tensorコア テクノロジは、AIに劇的な高速化をもたらしました。トレーニング時間を数週間から数時間に短縮し、推論を大幅に加速します。NVIDIA Ampereアーキテクチャはこのイノベーションを基盤としており、新しい精度である Tensor Float 32 (TF32) と64ビット浮動小数点 (FP64) を導入することで、AI の導入を加速して簡素化し、Tensor コアのパワーを HPC にもたらします。

TF32はFP32と同じように動作しますが、コードを変更しなくても、AIを最大20倍スピードアップします。 NVIDIA Automatic Mixed Precisionを使用すると、研究者はわずか数行のコードを追加するだけで、自動混合精度とFP16でさらに2倍のパフォーマンスを得られます。また、bfloat16、INT8、INT4に対応しているので、NVIDIA Ampere アーキテクチャのTensorコア GPUのTensorコアは、AIのトレーニングと推論の両方に対する、非常に汎用性の高いアクセラレータです。また、TensorコアのパワーをHPCにもたらすA100およびA30 GPUでは、完全なIEEE準拠のFP64精度での行列演算を実行できます。

Multi-Instance GPU (MIG)

あらゆるAIとHPC アプリケーションがアクセラレーションの恩恵を受けることができますが、すべてのアプリケーションがGPUのフル パフォーマンスを必要とするわけではありません。Multi-Instance GPU (MIG) は、 A100とA30 GPU PU でサポートされている機能であり、ワークロードがGPUを共有することを可能にします。MIGを利用すると、各GPUを複数のGPUインスタンスに分割できます。各インスタンスは完全に分離され、ハードウェア レベルで保護され、専用の高帯域幅メモリ、キャッシュ、コンピューティング コアを与えられます。これにより開発者は、大小を問わずあらゆるアプリケーションに対して画期的な高速化を利用できるようになり、サービス品質も保証されます。また、IT管理者は、適切なサイズのGPUアクセラレーションを提供することで利用率を最適化し、ベアメタル環境と仮想化環境の両方ですべてのユーザーとアプリケーションにアクセスを拡張できます。

第3世代の NVLink

アプリケーションをマルチGPUでスケールさせるには、非常に高速にデータを移動させる必要があります。NVIDIA Ampere アーキテクチャの第3世代 NVIDIA® NVLink® は、GPU 間の直接帯域幅を2倍の毎秒600ギガバイト (GB/s) にします。これは、PCIe Gen4の約10倍です。最新世代の NVIDIA NVSwitch™と組み合わせることで、サーバー内のすべてのGPUが完全なNVLinkの速度で相互に通信し、驚くほど高速なデータ転送が可能になります。 NVIDIA DGX™A100と他の主要なコンピューター メーカーのサーバーは、 NVIDIA HGX™ A100ベースボードを介してNVLinkとNVSwitchのテクノロジを活用し、HPCおよびAIのワークロードに優れたスケーラビリティを提供します。

スパース構造

現代のAIネットワークは大きく、数百万、場合によっては数十億のパラメーターを持ち、ますますその規模は拡大しています。これらのパラメーターのすべてが正確な予測や推論に必要なわけではなく、一部のパラメーターをゼロに変換することで、精度を下げることなくモデルを「スパース」にできます。Tensorコアでは、スパースなモデルのパフォーマンスを最大2倍にできます。スパース機能はAI推論で特に効果を発揮しますが、モデルトレーニングのパフォーマンス向上にも利用できます。

第2世代 RTコア

NVIDIA A40のNVIDIA Ampereアーキテクチャの第2世代RTコアは、映画コンテンツのフォトリアルなレンダリング、建築デザインの評価、製品デザインのバーチャル試作品などのワークロードを大幅にスピードアップします。RTコアはまた、レイ トレーシングされたモーション ブラーのレンダリングをスピードアップし、短時間で結果が得られ、ビジュアルの精度が上がります。さらに、レイ トレーシングをシェーディング機能またはノイズ除去機能と共に同時に実行できます。

よりスマートで高速なメモリ

A100は、データセンターでの膨大な量のコンピューティングを可能にします。コンピューティング エンジンを常に完全に活用するために、A100はこのクラスで最大となる毎秒2テラバイト (TB/s) のメモリ帯域幅を備えています。前世代の2倍以上です。さらに、A100は前世代の7倍となる40メガバイト (MB) のレベル2キャッシュを含む、より大きなオンチップ メモリを搭載しており、コンピューティング パフォーマンスを最大限まで引き上げます。

関連製品