Home
avatar

WingEdge777

[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现

[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现

code

在如今TensorCore满天飞的时代,写一个纯FP32的SIMT标量矩阵乘法(SGEMM)还有意义吗?有。因为它是检验一个底层计算工程师对GPU显存控制、Warp调度、共享内存/寄存器资源分配以及指令级并行(ILP)理解的最强试金石。#0.序略有一点标题党,cuBLAS毕竟是精确计算的通用库,是大

leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)

leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)

leetcode

经典动态规划-公共子序列问题的基础变形题#题面给定两个字符串s1和s2,返回使两个字符串相等所需删除字符的ASCII值的最小和。#解析经典的公共子序列问题是找出两个序列的最长公共子序列(可以通过删除或增加字符),动态规划主要思路是找到状态的定义以及状态间转移方式。公共子序列需要维护长度,该题相对应的

12