CUDA-线程-warp-延时隐藏

什么是线程

一个线程包括程序代码,程序执行当前点,变量数值和数据结构。线程的执行是串行的。CUDA启动kernel后,启动大量线程,以充分利用数据的并行性。

CPU中的线程生成和调度需要上千的时钟周期,相比GPU只需要很少的时钟周期。更具体说,在一个Warp中的线程的切换几乎是没有开销的,因为线程的上下文直接存储在物理空间中。

线程是如何实现的

线程是啥,在上面说过了。程序的代码存储在主存中,寄存器PC记录程序执行点,寄存器IR存储当前需要执行的指令,寄存器和主存记录变量值和数据结构。

同CPU一样,GPU也提供上下文切换功能,多个线程以轮的方式共享处理单元,通过保存和恢复PC值,寄存器和存储器的内容,可以暂停一个线程的执行,并在稍后正确地恢复这个线程。

GPU的每个SM提供多个执行单元SP,他们共享一个PC和IR(存在与共享的控制单元中),如此以来同一时间,所有的线程执行形同的指令(这个指令就是IR中所存储内容)。

SIMD

SIMD系统中,所有的并行处理单元在任何时候都执行相同的指令。因为是单指令

CUDA采用的是SPMD,单程序多数据的执行形式,但是在一个SM内部其实是SIMD执行warp中的所有线程,单指令多数据。这涉及到warp的工作原理。

warp与延时隐藏

一个Block中的线程被进一步分为32个为一个warp。由于单指令的定义,任何时刻一个warp中的所有线程只能取一条指令执行(IR中的指令)。在硬件结构中,每个SM有一个取指/分派单元,由这个单元来向warp中的线程提供所要执行的指令。warp中每个线程的数据不同,但执行时间都相同。

一个SM中的使用线程数要多于SP数量,SM中硬件只能执行所有warp的一部分,这样做的目的是提高长延时操作的效率,达到延时隐藏的目的。具体说:当一个warp的一条指令需要等待一个长延时的操作时,这个warp将不会被SP选中执行,这个SP会去执行不需要等待的warp,从而达到隐藏等待时间的目的。所以当由足够多的warp时,硬件可以随时找到可悲执行的warp,如此变充分利用硬件资源。warp的被选择是零开销的。零开销的线程调度。在warp的调度机制下,长延迟的操作被其他warp的指令执行隐藏,即延时隐藏

这也是为什么GPU不像CPU一样引入大量的缓存和分支预测,为了将更多的芯片面积作为浮点数的计算资源。

Warp中的线程访问Global memory时,做好的访问方式是coalesced access即连续访问,如果不是连续访问,则会由于Cache miss增加移动数据的开销。