sub_size = 2
a = [4, 2, 5, 6, 2, 4]
out = [3, 3.5, 5.5, 4, 3]


def sliding(out, a):
    i = numba.cuda.blockIdx.x * TPB \
        + numba.cuda.threadIdx.x
    if i + sub_size < a.size:
        out[i] = 0
        for j in range(sub_size):
            out[i] += a[i + j]
        out[i] = out[i] / sub_size


def sliding(out, a):
    shared = numba.cuda.shared.array(TPB + sub_size)
    i = numba.cuda.blockIdx.x * TPB \
        + numba.cuda.threadIdx.x
    local_idx = numba.cuda.threadIdx.x
    if i + sub_size < a.size:
        shared[local_idx] = a[i]
        if local_idx < sub_size and i + TPB < a.size:
            shared[local_idx  + TPB] = a[i + TPB]
        numba.cuda.syncthreads()
        temp = 0
        for j in range(sub_size):
            temp += shared[local_idx + j]
        out[i] = temp / sub_size


a = [4, 2, 5, 6, 1, 2, 4, 1]
out = [26]


draw_equation(
    [m(4, 1), m(4, 1), None, m(1, 1)]
)


draw_equation(
    [m(5, 4), m(4, 1), None, m(5, 1)]
)


draw_equation(
    [m(5, 4), m(4, 3), None, m(5, 3)]
)


image_matmul_full()


image_matmul_full()


image_matmul_simple()


image_matmul_simple()

A.shape == (I, J)
B.shape == (J, K)
out.shape == (I, K)

for outer_index in out.indices():
  for inner_val in range(J):
       out[outer_index] += A[outer_index[0], inner_val] * \
                           B[inner_val, outer_index[1]]

ZIP STEP
  C = zeros(broadcast_shape(A.view(I, J, 1), B.view(1, J, K)))
  for C_outer in C.indices():
      C[C_out] = A[outer_index[0], inner_val] * \
                 B[inner_val, outer_index[1]]
  REDUCE STEP
  for outer_index in out.indices():
     for inner_val in range(J):
        out[outer_index] = C[outer_index[0], inner_val,
                             outer_index[1]]

for outer_index in out.indices():
    for inner_val in range(J):
        out[outer_index] += A[outer_index[0], inner_val] * \
                            B[inner_val, outer_index[1]]


def mm_simple(out, a, b, K):
    i = numba.cuda.blockIdx.x * TPB \
        + numba.cuda.threadIdx.x
    j = numba.cuda.blockIdx.y * TPB \
        + numba.cuda.threadIdx.y
    for k in range(K):
        out[i, j] += a[i, k] * b[k, j]


def mm_shared1(out, a, b, K):
    ...
    sharedA[local_i, local_j] = a[i, j]
    sharedB[local_i, local_j] = b[i, j]
    ...
    for k in range(K):
        t += sharedA[local_i, k] * sharedB[k, local_j]
    out[i, j] = t


def mm_shared1(out, a, b, K):
    ...
    for s in range(0, K, TPB):
        sharedA[local_i, local_j] = a[i, s + local_j]
        sharedB[local_i, local_j] = b[s + local_i, j]
        ...
        for k in range(TPB):
            t += sharedA[local_i, k] * sharedB[k, local_j]
    out[i, j] = t

Module 3.5- Matrix Multiplication¶

Example 1: Sliding Average¶

Basic CUDA¶

Better CUDA¶

Example 2: Reduction¶

Algorithm¶

Associative Trick¶

Thread Assignments¶

Quiz¶

Motivation: Computing Splits¶

Linear Split¶

Dot Product¶

Dot Product in NN¶

Batch Dot Product¶

Batch Dot Product in NN¶

Math View¶

Batch Dot Product for each split¶

Matrix Multiply¶

Matmul ¶

Operator Fusion¶

User API¶

Fusion¶

Automatic Fusion¶

Automatic Fusion¶

Manual Fusion¶

Matmul Simple¶

Advantages¶

Computations¶

Starter Code¶

Example: Matmul¶

Simple Matmul¶

Simple Matmul Pseudocode¶

Compare to zip / reduce¶

Complexities¶

Matmul Speedups¶

CUDA Matrix Mul¶

CUDA Matrix Mul¶

Data Dependencies¶

Dependencies¶

Square Matrix¶

Basic CUDA - Square Small¶

Data Dependencies¶

Diagram¶

Basic CUDA - Square Large¶

Non-Square - Dependencies¶

Challenges¶