Accelerating Fortran DO CONCURRENT with GPUs and the NVIDIA HPC SDK
https://developer.nvidia.com/blog/accelerating-fortran-do-concurrent-with-gpus-and-the-nvidia-hpc-sdk/
昨日のブログです。
OpenACC のデータ転送が面倒で困っていたところ、この記事を見かけました。
All data movement between host memory and GPU device memory is performed implicitly and automatically under the control of CUDA Unified Memory.
これでACCと同程度のパフォーマンスが出たらラッキー。頻繁にメモリへのアクセスがあるので過剰な期待はしていないのですが、いくらか早くなれば嬉しい。早く試したい!
Docker はまだ 20.9 (SDK 単体も)。公開まであと1か月くらいでしょうか?
**************************************
20201217追記
先日、Docker イメージが公開されました。
早速試してみたところ、-stdpar=multicore では OpenMP と同じ結果、速度でした。
が、-stdpar=gpu では発散。うまく計算しません。
コンパイル情報を見てみると、gpu では DO CONCURRENT 内の DO LOOP も自動並列化で GPU に載せられていました。これかな?
0 件のコメント:
コメントを投稿