out[o] = in_storage[j] + 3

def my_code(x, y):
     for i in range(100):
         x[i] = y + 20
  ...
  my_code(x, y)
  fast_my_code = numba.njit()(my_code)
  fast_my_code(x, y)
  fast_my_code(x, y)


chalk.hcat(
    [
        matrix(2, 4, colormap=lambda i, j: color(1, 4)(0, j)),
        matrix(4, 3, colormap=lambda i, j: color(1, 4)(0, i)),
    ],
    0.5,
)


image_matmul_simple()


image_matmul_full()

A.shape == (I, J)
  B.shape == (J, K)
  out.shape == (I, K)

for outer_index in out.indices():
      for inner_val in range(J):
          out[outer_index] += A[outer_index[0], inner_val] * \
                              B[inner_val, outer_index[1]]

for outer_index in out.indices():
    for inner_val in range(J):
        out[outer_index] += A[outer_index[0], inner_val] * \
                            B[inner_val, outer_index[1]]

def add(a, b):
    b = a + 10
cuda_add = numba.cuda.jit()(add)

cuda_add[1, 1](a, b)

@numba.cuda.jit()
def add(a, b):
    b = a + 10

cuda_add[1, 10](a, b)

@numba.cuda.jit()
def cuda_add(a, b):
    b = a + 10

cuda_add[1, (10, 10)](a, b)

@numba.cuda.jit()
def add(a, b):
    b = a + 10

cuda_add[(10, 10), (10, 10)](a, b)

@numba.cuda.jit()
def printer(a):
    print("hello!")
    a[:] = 10 + 50

a = numpy.zeros(10)
printer[10, 10](a)

@numba.cuda.jit()
def printer(a):
    print(numba.cuda.threadIdx.x, numba.cuda.threadIdx.y)
    a[:] = 10 + 50

a = numpy.zeros(10)
printer[1, (10, 10)](a)

@numba.cuda.jit()
def printer(a):
    print(numba.cuda.blockIdx.x,
          numba.cuda.threadIdx.x, numba.cuda.threadIdx.y)
    a[:] = 10 + 50

a = numpy.zeros(10)
printer[10, (10, 10)](a)

BLOCKS_X = 32
BLOCKS_Y = 32
THREADS_X = 10
THREADS_Y = 10
@numba.cuda.jit()
def fn(a):
    x = numba.cuda.blockIdx.x * THREADS_X + numba.cuda.threadIdx.x
    y = numba.cuda.blockIdx.y * THREADS_Y + numba.cuda.threadIdx.y
    ...

fn[(BLOCKS_X, BLOCKS_Y), (THREADS_X, THREAD_Y)](a)

BLOCKS_X = 32
THREADS_X = 32
@numba.cuda.jit()
def fn(out, a):
    x = numba.cuda.blockIdx.x * THREADS_X + numba.cuda.threadIdx.x
    if x >=0 and x < a.size:
      out[x] = a[x] + 10

fn[BLOCKS_X, THREADS_X](a)

x = numba.cuda.blockIdx.x * BLOCKS_X + numba.cuda.threadIdx.x
if x >=0 and x < a.size:

Module 3.2 - Fusion and CUDA¶

Why are Python (and friends) "slow"?¶

Function Calls¶

Types¶

How does it work?¶

Notebook¶

Terminology : JIT Compiler¶

Parallel Range¶

Quiz¶

Outline¶

Operator Fusion¶

User API¶

Fusion¶

Automatic Fusion¶

Automatic Fusion¶

Manual Fusion¶

Example: Matmul¶

Example: Matmul¶

Matmul Simple¶

Simple Matmul¶

Simple Matmul Pseudocode¶

Complexities¶

Matmul Speedups¶

Advantages¶

CUDA¶

CUDA¶

CUDA¶

NVidia Structure¶

NVidia Structure¶

Where are we?¶

General Purpose GPUs¶

Machine Learning¶

CUDA Challeges¶

Threads¶

Thread prange code¶

Threads code¶

Threads code¶

Block code¶

Check¶

Output¶

Stack¶

Thread Names¶

Output¶

Thread Names¶

Output¶

What's my name?¶

Simple Map¶

Guards¶

Colab¶

QA¶