sub_size = 2
a = [4, 2, 5, 6, 2, 4]
out = [3, 3.5, 5.5, 4, 3]


def slide_cuda(out, a):
    i = numba.cuda.blockIdx.x * THREADS \
        + numba.cuda.threadIdx.x
    if i + sub_size < a.size:
        out[i] = 0
        for j in range(sub_size):
            out[i] += a[i + j]
        out[i] = out[i] / sub_size


def slide_cuda(out, a):
    shared = numba.cuda.shared.array(THREADS + sub_size)
    i = numba.cuda.blockIdx.x * THREADS \
        + numba.cuda.threadIdx.x
    local_idx = numba.cuda.threadIdx.x
    if i + sub_size < a.size:
        shared[local_idx] = a[i]
        if local_idx < sub_size and i + THREADS < a.size:
            shared[local_idx  + THREADS] = a[i + THREADS]
        numba.cuda.syncthreads()
        temp = 0
        for j in range(sub_size):
            temp += shared[local_idx + j]
        out[i] = temp / sub_size


a = [4, 2, 5, 6, 1, 2, 4, 1]
out = [26]

Module 3.4 - CUDA 3¶

Stack¶

CUDA Code¶

Memory¶

Constraints¶

Quiz¶

CUDA Algorithms¶

Examples from Puzzles¶

Example 1: Sliding Average¶

Basic CUDA¶

Better CUDA¶

Example 2: Reduction¶

Algorithm¶

Associative Trick¶

Associative Trick¶

Thread Assignments¶

Open Questions¶

Table¶

Harder Questions¶

Too Short - Padding¶

Too Long - Multiple Runs¶

Example - Long Sequence¶

Homework Tips¶