An Efficient Vectorization Approach to Nested Thread-level Parallelism for CUDA GPUs

An Efficient Vectorization Approach to Nested Thread-level Parallelism for CUDA GPUs | IEEE Conference Publication | IEEE Xplore