NVIDIA 村上さん
- Pascalシリーズの次がVolta
- 性能は1.5倍
- いま発表されてるのはTeslaのみ
形は両方出る
- NV Link
- 7.5 FP64 TFLOPS
- 15 FP32 TFLOPS
- PCI Ex
- 7 FP64 TFLOPS
- 14 FP32 TFLOPS
- DC向けに低消費電力の推論特化型GPUなどもある
構成
- 210億トランジスタ
- 5120 CUDAコア
- 640 Tensorコア
HBM2メモリアーキテクチャ
- P100から1.5倍のバンド幅
- 実測値も理論値により近づいている
性能比較(P100 vs V100)
- トレーニング高速化 x12(とてもいい場合で)
- 推論高速化 x6
- L1 Cache x7.7
GV100 SM
- 1 SMあたり
- FP32 x64
- FP64 x32
- INT32 x64
- Tensor コア x8
シェアードメモリとL1キャッシュ
- Pascalでは別
- シェアードメモリは低レイテンシ
- L1キャッシュはストリーミングによい
- Voltaでは統合
- 物理的に同じ
- ユーザが配分を設定できる
- シェアードメモリをつかわなくても性能が出るようになってきている
Pascalスケジューリング
- タイムスライス
- マルチプロセスサービス(MPS)
- GPU内ではプロセスを束ねる Volta
- MPS機能を強化
- 混合精度行列演算
- PascalでFP16を推奨したが流行らなかった
- 精度を下げないFP16化を図る
- アキュムレータのみFP32を使う
- CUDA 9から読み出せるようになる
- CUDA 9.0
- Volta対応
- cuDNN 7
- Volta対応
- NCCL 2
- GPUのマルチノード集合通信
- 元OSS
- 主要フレームワークのサポート
if文に弱いNIVIDIA
- Voltaから変わる
- プログラムカウンタの単位がWarp単位からスレッド単位へ