Skip to content

MLSys 入门

计划路线

0x00 CUDA 编程基础

Specifically, threadIdx.x contains the index of the current thread within its block, and blockDim.x contains the number of threads in the block.

https://developer.nvidia.com/blog/even-easier-introduction-cuda/ 中的 Figure 1 是错误的,gridDim.x 应当代表 x 维度 gridblock 的数量。

0x01 项目

0x02 multi-GPU 通信

PyTorch 通信

NCCL

自问自答

  1. 现在需要提高模型的推理吞吐量,除了「把同一份模型同时部署在多张 GPU 上进行并行推理」外,还有什么更好的方案吗?
  2. BERT 和 GPT 架构分别是什么样的?本质区别是什么?

参考文档

The asterisk (*) denotes a recommended item