[CUDA 优化实战] hgemm sm120 - 100KB SMEM 中的“微雕”战争:Tensor-core、TMA、ldmatrix、mma 分类五月 10, 2026 文章描述对不起朋友们,本来我说gemm系列不会有后续,但我食言了,今天依然是hgemm,不过我们要拥抱RTX5060laptop上的一切,TMA+ldmatrix+mma,挑战极限本文适用于有一定CUDA编程基础,熟悉GEMM优化,对进阶tensorcore/嵌入PTX指令性能调优感兴趣的读者阅读完 标签
[CUDA 优化实战] hgemm - 超越 cuBLAS:Tensor-core、cp.async、ldmatrix、mma 分类五月 10, 2026 本文适用于有一定CUDA编程基础,熟悉GEMM优化,对进阶tensorcore/嵌入PTX指令性能调优感兴趣的读者阅读#0.序-半精度一统江湖完整kernel和测试代码可以点击hgemm查看没错,这是超越cuBLAS系列之三(NV还不针对移动端显卡调优的话,我们就还是超越。不过这估计是GEMM系列最 标签
[CUDA 优化实战] sgemm tf32 - 超越 cuBLAS:Tensor-core、cp.async、ldmatrix、mma code五月 9, 2026 文章描述#0.序-向量化计算的时代干货核能预警,大量配图,涉及硬核的swizzle推导过程(看完还不懂xorswizzle,可以顺着网线来打我),layout地址坐标映射分析,指令说明,建议在PC端阅读以获得最佳体验本文适用于有一定CUDA编程基础,熟悉GEMM优化,对进阶tensorcore/嵌入 vitamin-cudacudac++GPU
ContextClip:为 LLM 投喂纯净 Markdown 上下文的浏览器提取利器 code五月 8, 2026 最近vibecoding了个小工具,chrome扩展ContextClip,ContextClip是一款专为投喂本地LLM、RAG和Agent开发的零依赖、重隐私Chrome浏览器扩展。它直击传统网页信息收集时“截图耗时/不兼容”和“复制粘贴格式混乱”的痛点。项目地址:ContextClip#为什么 LLMmarkdownjs
白嫖 github action + Gemini 自动化每日精选论文 code四月 10, 2026 AIcoding现在越来越火热,不可避免有点焦虑。我也vibecoding了一个Gemini每日精选论文工具(白嫖githubaction和googleAIstudio大模型token),加紧学习效率。欢迎star/fork使用#背景随着AI技术的飞速发展,每天都有大量的论文发表,作为工程师或者研究 code
WSL2 shell 使用优化 - 交互响应速度、代理配置 code四月 9, 2026 我承认,世界上最好的linux发行版,那就是—WSL#0.背景本人虽然使用Windows电脑,但一直使用WSL2工作,所有项目代码等都在WSL2里,也更习惯于linux命令行操作。结合vscode的remote套件连接WSL进行开发非常方便。但默认配置下在使用shell,可能会有代理配置难或代理无法 wsl
[CUDA 入门] 认识 CUDA “不存在的存储层级” - local memory code四月 1, 2026 网上关于NVIDIA存储层次架构的介绍文章数不胜数,但大多集中在globalmemory、sharedmemory、constantmemory、texturememory、L2/L1cache以及registers等。提及localmemory的文章相对较少。前置基础暂且略过,今天我们直奔主题,聊 vitamin-cudacudac++GPU
[CUDA 优化实战] safe online softmax - 面试必问:任意 hidden_size、one pass、two pass、trade-off、split-k code三月 31, 2026 从没有最佳kernel,只有最合适的kernel----------------------------------altumsonatur(随便加点拉丁语,就会显得高大上)#0.序-背景softmax是深度学习中常用算子,在几乎所有机器学习领域常用来做置信度/权重/概率输出预测。可以说没有soft vitamin-cudacudac++GPU
[CUDA 入门] L1/TEX/SMEM - 再识bank conflict code三月 6, 2026 网上介绍和解决bankconflict的文章不胜枚举。我也不想多言,但是最近确实学到了一点新理解。有关bankconflict详细理解和分析,不要看乱七八糟的博客了,可以直接参考NV技术报告:https://www.nvidia.com/en-us/on-demand/session/gtcspri vitamin-cudacudac++GPU
[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现 code三月 5, 2026 在如今TensorCore满天飞的时代,写一个纯FP32的SIMT标量矩阵乘法(SGEMM)还有意义吗?有。因为它是检验一个底层计算工程师对GPU显存控制、Warp调度、共享内存/寄存器资源分配以及指令级并行(ILP)理解的最强试金石。#0.序略有一点标题党,cuBLAS毕竟是精确计算的通用库,是大 vitamin-cudacudac++GPU