yue82/FPGAX_2017_0924_1_nvidia.md

Created September 24, 2017 07:28

Star () You must be signed in to star a gist
Fork () You must be signed in to fork a gist

Learn more about clone URLs
Clone this repository at <script src="https://gist.github.com/yue82/9422393262e22241e5f2db8a13d43f7e.js"></script>
Save yue82/9422393262e22241e5f2db8a13d43f7e to your computer and use it in GitHub Desktop.

Download ZIP

FPGAエクストリーム・コンピューティング第9回 2017.09.24 memo

Raw

FPGAX_2017_0924_1_nvidia.md

NVIDIA TeslaV100 & CUDA9 アップデート

NVIDIA 村上さん

Tesla V100

Pascalシリーズの次がVolta
- 性能は1.5倍
- いま発表されてるのはTeslaのみ

形は両方出る

NV Link
- 7.5 FP64 TFLOPS
- 15 FP32 TFLOPS
PCI Ex
- 7 FP64 TFLOPS
- 14 FP32 TFLOPS
DC向けに低消費電力の推論特化型GPUなどもある

構成

210億トランジスタ
5120 CUDAコア
640 Tensorコア

HBM2メモリアーキテクチャ

P100から1.5倍のバンド幅
実測値も理論値により近づいている

性能比較(P100 vs V100)

トレーニング高速化 x12(とてもいい場合で)
推論高速化 x6
L1 Cache x7.7

GV100 SM

1 SMあたり
FP32 x64
FP64 x32
INT32 x64
Tensor コア x8

シェアードメモリとL1キャッシュ

Pascalでは別
- シェアードメモリは低レイテンシ
- L1キャッシュはストリーミングによい
Voltaでは統合
- 物理的に同じ
- ユーザが配分を設定できる
シェアードメモリをつかわなくても性能が出るようになってきている

マルチプロセススケジューリング

Pascalスケジューリング

タイムスライス
マルチプロセスサービス(MPS)
- GPU内ではプロセスを束ねる Volta
MPS機能を強化

Tensorコア

混合精度行列演算
- PascalでFP16を推奨したが流行らなかった
- 精度を下げないFP16化を図る
- アキュムレータのみFP32を使う
CUDA 9から読み出せるようになる

アップデート

CUDA 9.0
- Volta対応
cuDNN 7
- Volta対応
NCCL 2
- GPUのマルチノード集合通信
- 元OSS
- 主要フレームワークのサポート

if文に弱いNIVIDIA

Voltaから変わる
プログラムカウンタの単位がWarp単位からスレッド単位へ

Raw

FPGAX_2017_0924_2_aws_f1.md

Amazon AWS F1インスタンスとその開発環境を試してみる

クラスメソッド(株) 高橋(@edy555)さん

AWS

F1インスタンス

Xilinx UltraScale Plus 16nm
FPGA毎に DDR4 4x16GB
CPUとの専用PCIe x16
FPGA Direct LinkでFPGAx8
2M個以上のセル、6000以上のDSP
FPGAインスタンス: 1.65$/h~
開発用インスタンス: ~1$/h

FPCA Developer AMI

Xilinxツールがあらかじめセットアップされたマシンイメージ
ライセンス費用不要(インスタンス料金のみ)
基本的にはコマンドライン
GUIの場合はデスクトップ環境の追加が必要

AWS-FPGA HDK/SDK

F1インスタンス向けに必要なツールやコード
Githubで提供

HDK

shell
サンプル
- CL(Custom Logic)
- CL RTL
- IPI(IP Integration)

SDK

linux kernel driver
- edma(Elastic DMA)/xdma/xcldma
userspace
- 管理コマンド群
- ホスト用ライブラリ

SDAccel

ソフトウェア開発者に優しいFPGA環境
Xilinxのサンプルがインポートされる

Raw

FPGAX_2017_0924_3_sigboost.md

ソフトウェアエンジニアのための高位合成エンジンsigboost

筑波大学青木さん

プログラマブルな電子楽器 sigboost

Cycling'74 Max

コンピュータ上で電子楽器を作って演奏できるソフト
- 最大同時発音数
- レイテンシのズレ
- 等に課題あり

sigboost

http://sigboost.audio/
演奏をFPGA化
- MAXで楽器をつくる
- sigboost HlSでHDL化
- SDカードに入れてzybo入りのボードにさして楽器とつなぐと演奏できる

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment