CUDA 硬件和数据架构的对应关系:(1)从硬件的构成关系上,CUDA Core 是英伟达 GPU 最小的计算单元,多个 CUDA Core 叠加 warp scheduler,register,shared memory 等构成一个 SM(streaming multiprocessor),多个 SM 再构成整个 GPU;(2)从数据架构上看,一个 CUDA Core 一次可以执行一个 Thread(线程),数个 Threads组成一个 Block,同一个 Block 中的 Threads 可以同步,也可以通过 shared memory通信,最后,多个 Blocks 则会再构成 Grid。此外,英伟达通常将 32 个 Thread 组合成一个 Warp,作为调度和运行的基本数据单元。