内存访问模式

January 31, 2025

线程访问内存

threadIdx.x、threadIdx.y、threadIdx.z、blockIdx.x、blockIdx.y、blockIdx.z、blockDim.x、blockDim.y 和 blockDim.z 等内置变量之间的计算得到的。

使用全局线程 ID 或局部线程 ID（threadIdx）以及其他相关信息（例如，矩阵的行数、列数、leading dimension 等），可以计算出每个线程需要访问的内存地址（输入输出数据的读写地址索引是上述 built-in 索引变量的线性组合）。

通过合理地组织线程块和线程，并使用适当的内存地址计算方式，可以实现不同的内存访问模式，例如：

合并访问 (Coalesced Access)：
当一个 warp 中的线程访问连续的内存地址时，可以实现合并访问，从而提高内存访问效率。通常，可以通过确保线程 ID 与内存地址之间存在线性关系来实现合并访问
避免 Bank Conflict：
在使用共享内存时，需要避免 bank conflict，可以通过调整线程块的大小和共享内存的布局来避免 bank conflict。

自定义内存访问模式

内存访问是由内核代码中的线程索引和内存访问指令隐式决定的。然而，你可以通过巧妙地设计内核代码来控制和优化内存访问模式，从而提高性能。这主要体现在如何组织数据和编写内核代码以最大限度地利用内存层次结构（例如共享内存和缓存）。

协同内存访问 (Coalesced Memory Access): 这是 CUDA 编程中最重要的优化策略之一。这允许GPU更有效地从全局内存中读取数据，因为每个内存事务可以传输多个数据字。
共享内存 (Shared Memory): 共享内存是每个线程块中快速、低延迟的内存。通过将经常访问的数据复制到共享内存中，可以减少对全局内存的访问次数，从而显著提高性能。
循环展开 (Loop Unrolling): 循环展开可以减少循环开销，并允许编译器进行更好的优化。
数据重排 (Data Reordering): 如果你的数据存储方式不适合你的访问模式，你可以重新排列数据以提高性能。例如，如果你的内核需要访问矩阵的列，而你的数据以行优先的方式存储，那么重新排列数据为列优先的方式可能会提高性能。

2D block中thread 哪个方向变化最快

相邻线程的 threadIdx.x 连续变化，让它访问连续内存地址，是高效的访问模式。

dim3 blocksize(2,3),表示 x方向上有2个threads，y方向上有3个threads。而一般的数组shape (2,3) 意义是它有2行3列，它是数学及其学习的惯例。故这两者的语义是相反的。