@cuda.jit()
def printer(a):
    print(cuda.threadIdx.x, cuda.threadIdx.y)
    a[:] = 10 + 50
a = np.zeros(10)
printer[1, (10, 10)](a)
`

def printer(a):
    print(cuda.blockIdx.x,
          cuda.threadIdx.x, cuda.threadIdx.y)
    a[:] = 10 + 50
a = np.zeros(10)
printer[10, (10, 10)](a)

BLOCKS_X = 32
BLOCKS_Y = 32
THREADS_X = 10
THREADS_Y = 10
def fn(a):
    x = cuda.blockIdx.x * THREADS_X + cuda.threadIdx.x
    y = cuda.blockIdx.y * THREADS_Y + cuda.threadIdx.y
fn = cuda.jit()(fn)
fn[(BLOCKS_X, BLOCKS_Y), (THREADS_X, THREADS_Y)](a)

BLOCKS_X = 32
THREADS_X = 32
@cuda.jit()
def fn(out, a):
    x = cuda.blockIdx.x * THREADS_X + cuda.threadIdx.x
    if x < a.size:
        out[x] = a[x] + 10

fn[BLOCKS_X, THREADS_X](out, a)

x = cuda.blockIdx.x * BLOCKS_X + cuda.threadIdx.x
if x < a.size:

@cuda.jit()
def local_fn(out, a):
    i = cuda.threadIdx.x
    local = cuda.local.array(10, numba.int32)
    local[0] = 10
    local[5] = local[0] + 10
    out[i] = local[5]    

local_fn[BLOCKS, THREADS](out, a)
out

def local_fn(out, a):
    local = cuda.local.array(a.size, numba.int32)
    local[0] = 10
    local[5] = 20

local_fn = cuda.jit()(local_fn)
local_fn[BLOCKS, THREADS](out, a)

CONSTANT = 10
def block_fn(out, a):
    shared = cuda.local.array(CONSTANT, numba.int32)
    shared[0] = 10
    shared[5] = 20    
block_fn = cuda.jit()(block_fn)
block_fn[BLOCKS, THREADS](out, a)
`

@cuda.jit()
THREADS = 10
def block_fn(out, a):
    shared = cuda.shared.array(THREADS, numba.int32)
    i = cuda.threadIdx.x
    shared[i] = a[i]
    cuda.syncthreads()
    out[i+1 % THREADS] = shared[i]    

block_fn[1, THREADS](out, a)


sub_size = 2
a = [4, 2, 5, 6, 2, 4]
out = [3, 3.5, 5.5, 4, 3]


def slide_py(out, a):
    for i in range(out.size):
        out[i] = 0
        for j in range(sub_size):
            out[i] += a[i + j]
        out[i] = out[i] / sub_size

@cuda.jit
def slide_cuda(out, a):
   i = cuda.threadIdx.x
   if i + sub_size < a.size:
       out[i] = 0
       for j in range(sub_size):
            out[i] += a[i + j]
       out[i] = out[i] / sub_size

@cuda.jit()
def slide_cuda(out, a):
    i = cuda.threadIdx.x
    if i + sub_size < a.size:
        temp = 0
        for j in range(sub_size):
            temp += a[i + j]
        out[i] = temp / sub_size

local_idx = cuda.threadIdx.x
shared[local_idx] = a[i]
cuda.syncthreads()

@cuda.jit
def slide_cuda(out, a):
    shared = cuda.shared.array(THREADS + sub_size)
    i = cuda.threadIdx.x
    if i + sub_size < a.size:
        shared[i] = a[i]
        if i < sub_size and i + THREADS < a.size:
            shared[i  + THREADS] = a[i + THREADS]
        cuda.syncthreads()
        temp = 0
        for j in range(sub_size):
            temp += shared[i + j]
        out[i] = temp / sub_size


a = [4, 2, 5, 6, 1, 2, 4, 1]
out = [26]

Module 3.3 - CUDA: Memory¶

Thread Names¶

Output¶

Thread Names¶

Output¶

What's my name?¶

Stack¶

Simple Map¶

Guards¶

Quiz ¶

Outline¶

Memory¶

Names¶

Memory¶

Example¶

Constraints¶

BAD Example¶

GOOD Example¶

Communication¶

Shared Example¶

Constraints¶

Algorithms¶

Thinking about Speed¶

Sliding Average¶

Local Sum¶

Planning for CUDA¶

Basic CUDA¶

Planning for CUDA¶

Strategy¶

Better CUDA¶

Pattern¶

Better CUDA¶

Counts¶

Example 2: Reduction¶

Algorithm¶

Associative Trick¶

Associative Trick¶

Thread Assignments¶

Open Questions¶

Table¶

Harder Questions¶

Too Short - Padding¶

Too Long - Multiple Runs¶

Example - Long Sequence¶

QA¶