查看 kernel 汇编

cuobjdump -sass executable

  • LD.E.64 R6, [R10]: 这是一个向量化加载指令,它从内存地址 [R10] 加载 64 位(8 字节)的数据到寄存器 R6。 这意味着它一次性加载两个 32 位整数(或一个 64 位整数,或其他 64 位数据类型)。 这在处理大量数据时可以显著提高内存带宽利用率,因为减少了内存访问次数。 .64 后缀明确指定了加载 64 位数据。

  • LD.E R2, [R6]: 这是一个标量加载指令,它从内存地址 [R6] 加载 32 位(4 字节)的数据到寄存器 R2。 它一次只加载一个 32 位整数(或其他 32 位数据类型)。 这比向量化加载指令效率低,因为需要更多次的内存访问来加载相同数量的数据。