Home
avatar

WingEdge777

[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现

[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现

code

在如今TensorCore满天飞的时代,写一个纯FP32的SIMT标量矩阵乘法(SGEMM)还有意义吗?有。因为它是检验一个底层计算工程师对GPU显存控制、Warp调度、共享内存/寄存器资源分配以及指令级并行(ILP)理解的最强试金石。#0.序略有一点标题党,cuBLAS毕竟是精确计算的通用库,是大

12