Home
avatar

WingEdge777

[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现

[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现

code

在如今TensorCore满天飞的时代,写一个纯FP32的SIMT标量矩阵乘法(SGEMM)还有意义吗?有。因为它是检验一个底层计算工程师对GPU显存控制、Warp调度、共享内存/寄存器资源分配以及指令级并行(ILP)理解的最强试金石。#0.序略有一点标题党,cuBLAS毕竟是精确计算的通用库,是大

leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)

leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)

leetcode

经典动态规划-公共子序列问题的基础变形题#题面给定两个字符串s1和s2,返回使两个字符串相等所需删除字符的ASCII值的最小和。#解析经典的公共子序列问题是找出两个序列的最长公共子序列(可以通过删除或增加字符),动态规划主要思路是找到状态的定义以及状态间转移方式。公共子序列需要维护长度,该题相对应的

leetcode 3321. 计算子数组的 x-sum II (hard)

leetcode 3321. 计算子数组的 x-sum II (hard)

leetcode

是leetcode每日一题跳出来的。咋看了一眼题就觉得很有趣,让我想到经典的类似题,如:维护一个队列中的中位数,具体题不记得了。#计算子数组的x-sumII如之前所言,这题的题面就让人容易联想到维护滑动窗口中的中位数,维护中位数的做法是如何实现的呢,就是用一大一小个set,每次插入数据无脑往大的se

12