__launch_bounds__ 是一个内核启动边界修饰符(kernel launch bounds specifier),用于显式控制 block 的寄存器使用和 warp 调度,从而优化线程块的最大并发数和SM(Streaming Multiprocessor)占用率。