MLSys 入门
计划路线
0x00 CUDA 编程基础
Specifically, threadIdx.x contains the index of the current thread within its block, and blockDim.x contains the number of threads in the block.
https://developer.nvidia.com/blog/even-easier-introduction-cuda/ 中的 Figure 1 是错误的,
gridDim.x应当代表x维度grid中block的数量。
0x01 项目
0x02 multi-GPU 通信
PyTorch 通信
自问自答
- 现在需要提高模型的推理吞吐量,除了「把同一份模型同时部署在多张 GPU 上进行并行推理」外,还有什么更好的方案吗?
- BERT 和 GPT 架构分别是什么样的?本质区别是什么?
参考文档
The asterisk (*) denotes a recommended item
- nvidia-smi命令详解和一些高阶技巧介绍: 可以了解
nvidia-smi中各部分信息及一些常用参数。 - https://developer.nvidia.com/blog/even-easier-introduction-cuda/*: 实现向量加法,从 CPU 到 GPU 单线程 再到多线程;一些 profiling 相关内容。
- CUDA 编程入门极简教程: 相比于上面 nvidia developer blog,可以作为矩阵乘法的参考。
- Awesome-ML-SYS-Tutorial
- 一文理解 special tokens 和 chat template
- ML system 入坑指南