[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现code三月 5, 2026在如今TensorCore满天飞的时代,写一个纯FP32的SIMT标量矩阵乘法(SGEMM)还有意义吗?有。因为它是检验一个底层计算工程师对GPU显存控制、Warp调度、共享内存/寄存器资源分配以及指令级并行(ILP)理解的最强试金石。#0.序略有一点标题党,cuBLAS毕竟是精确计算的通用库,是大vitamin-cudacudac++GPU
[CUDA 优化实战] RoPE - 手写算子的作用之 kernel fusion:减少访存次数、减少启动开销的优化技巧code三月 5, 2026现在AI编译器进化得越来越快,PyTorch的torch.compile配合JIT优化经常能带来拔群的效果,以至于常常听到“手写算子已经没必要了”的论调。#背景本文直接聚焦一个核心命题:为什么“手写算子(hand-writtenoperator)”与“内核融合(kernelfusion)”能够带来大vitamin-cudacudac++GPU
[CUDA 优化实战] 矩阵转置-从 Padding 到 XOR Swizzle:CUDA 共享内存优化的艺术code二月 13, 2026矩阵转置(Transpose)是深度学习和高性能计算中极其基础的操作。看似简单的坐标交换B[y][x]=A[x][y]B[y][x]=A[x][y],在CPU上可能只是两层循环,但在GPU这种吞吐导向的架构上,访存模式(MemoryAccessPattern)往往比计算逻辑更能决定性能的生死。如何写vitamin-cudacudac++GPU
CUDA 开发者应该熟悉的数code二月 9, 2026这是一篇为CUDA开发者准备的博客,旨在总结CUDA编程中至关重要的硬件参数和延迟数据。#0.序在高性能计算(HPC)和深度学习领域,写出“能跑”的CUDA代码并不难,但要写出“极致性能”的代码,则需要对底层硬件有深刻的理解。就像JeffDean曾经列出的“每个程序员都应该知道的延迟数字”一样,GPvitamin-cudacudac++GPU
深度解读 DeviceQuery:理解你的 GPU 硬件属性hpc二月 6, 2026读本文前最好先有基本的CUDA编程基础,对GPU的计算能力、内存、cache、warp、block、gride等概念有所了解。本文通过对deviceQuery结果的解读,来帮助开发者更好的理解并进行CUDAkernel开发#0.序读本文前最好先有基本的CUDA编程基础,对GPU的计算能力、内存、cavitamin-cudacudac++GPU
手把手 CUDA 编程实践随笔一月 21, 2026开个坑,记录一下自己CUDA编程的实践kernel实现,从易到难,由基础开发到应用优化#vitmin-cuda好久没写过CUDAC++代码了,最近重新拾起来起因是看到了LeetCUDA这个项目,感觉非常不错,可以作为学习CUDA编程的参考同样的,本人正在开坑一个项目:vitamin-cuda,主要也vitamin-cudacudac++
leetcode 712. 两个字符串的最小 ASCII 删除和 (medium)leetcode一月 10, 2026经典动态规划-公共子序列问题的基础变形题#题面给定两个字符串s1和s2,返回使两个字符串相等所需删除字符的ASCII值的最小和。#解析经典的公共子序列问题是找出两个序列的最长公共子序列(可以通过删除或增加字符),动态规划主要思路是找到状态的定义以及状态间转移方式。公共子序列需要维护长度,该题相对应的公共子序列动态规划
我的公司老了随笔十一月 26, 2025我的公司老了,尽管年纪不大,但真的老了#老兵不会死去,只是凋亡最近在做一个项目的升级,可以称得上是技术框架在版本号上的大跃进,ubuntu20到ubuntu24,gcc8到gcc13,torchv1到torch2.9,tensort8到tensorrt10.14,cuda11到cuda13。本以为只程序员gcctensorrtcudabazel
leetcode 3321. 计算子数组的 x-sum II (hard)leetcode十一月 15, 2025是leetcode每日一题跳出来的。咋看了一眼题就觉得很有趣,让我想到经典的类似题,如:维护一个队列中的中位数,具体题不记得了。#计算子数组的x-sumII如之前所言,这题的题面就让人容易联想到维护滑动窗口中的中位数,维护中位数的做法是如何实现的呢,就是用一大一小个set,每次插入数据无脑往大的se双指针滑动窗口
英伟达之死...随笔十一月 10, 2025这只是一个平行世界的幻想,从某种意义上来说,你,我,我们,整个宇宙,终将逝去。#序未来的某周二,NVIDIA死了。也许是周三,我们不知道。只见零散的媒体消息掠过:已经没人使用CUDA了,都用xxx了。这说明不了什么,可能NVIDIA周一就死了。#英伟达的发家史二三十年前,那个穿皮衣的男人创建了一家公自由幻想