[CUDA 优化实战] sgemm tf32 - 超越 cuBLAS:Tensor-core、cp.async、ldmatrix、mma code五月 9, 2026 文章描述#0.序-向量化计算的时代干货核能预警,大量配图,涉及硬核的swizzle推导过程(看完还不懂xorswizzle,可以顺着网线来打我),layout地址坐标映射分析,指令说明,建议在PC端阅读以获得最佳体验本文适用于有一定CUDA编程基础,熟悉GEMM优化,对进阶tensorcore/嵌入 vitamin-cudacudac++GPU
ContextClip:为 LLM 投喂纯净 Markdown 上下文的浏览器提取利器 code五月 8, 2026 最近vibecoding了个小工具,chrome扩展ContextClip,ContextClip是一款专为投喂本地LLM、RAG和Agent开发的零依赖、重隐私Chrome浏览器扩展。它直击传统网页信息收集时“截图耗时/不兼容”和“复制粘贴格式混乱”的痛点。项目地址:ContextClip#为什么 LLMmarkdownjs
白嫖 github action + Gemini 自动化每日精选论文 code四月 10, 2026 AIcoding现在越来越火热,不可避免有点焦虑。我也vibecoding了一个Gemini每日精选论文工具(白嫖githubaction和googleAIstudio大模型token),加紧学习效率。欢迎star/fork使用#背景随着AI技术的飞速发展,每天都有大量的论文发表,作为工程师或者研究 code
WSL2 shell 使用优化 - 交互响应速度、代理配置 code四月 9, 2026 我承认,世界上最好的linux发行版,那就是—WSL#0.背景本人虽然使用Windows电脑,但一直使用WSL2工作,所有项目代码等都在WSL2里,也更习惯于linux命令行操作。结合vscode的remote套件连接WSL进行开发非常方便。但默认配置下在使用shell,可能会有代理配置难或代理无法 wsl
[CUDA 入门] 认识 CUDA “不存在的存储层级” - local memory code四月 1, 2026 网上关于NVIDIA存储层次架构的介绍文章数不胜数,但大多集中在globalmemory、sharedmemory、constantmemory、texturememory、L2/L1cache以及registers等。提及localmemory的文章相对较少。前置基础暂且略过,今天我们直奔主题,聊 vitamin-cudacudac++GPU
[CUDA 优化实战] safe online softmax - 面试必问:任意 hidden_size、one pass、two pass、trade-off、split-k code三月 31, 2026 从没有最佳kernel,只有最合适的kernel----------------------------------altumsonatur(随便加点拉丁语,就会显得高大上)#0.序-背景softmax是深度学习中常用算子,在几乎所有机器学习领域常用来做置信度/权重/概率输出预测。可以说没有soft vitamin-cudacudac++GPU
[CUDA 入门] L1/TEX/SMEM - 再识bank conflict code三月 6, 2026 网上介绍和解决bankconflict的文章不胜枚举。我也不想多言,但是最近确实学到了一点新理解。有关bankconflict详细理解和分析,不要看乱七八糟的博客了,可以直接参考NV技术报告:https://www.nvidia.com/en-us/on-demand/session/gtcspri vitamin-cudacudac++GPU
[CUDA 优化实战] sgemm - 超越 cuBLAS:带你学会极致优化的矩阵乘法 cuda c++ 实现 code三月 5, 2026 在如今TensorCore满天飞的时代,写一个纯FP32的SIMT标量矩阵乘法(SGEMM)还有意义吗?有。因为它是检验一个底层计算工程师对GPU显存控制、Warp调度、共享内存/寄存器资源分配以及指令级并行(ILP)理解的最强试金石。#0.序略有一点标题党,cuBLAS毕竟是精确计算的通用库,是大 vitamin-cudacudac++GPU
[CUDA 优化实战] RoPE - 手写算子的作用之 kernel fusion:减少访存次数、减少启动开销的优化技巧 code三月 5, 2026 现在AI编译器进化得越来越快,PyTorch的torch.compile配合JIT优化经常能带来拔群的效果,以至于常常听到“手写算子已经没必要了”的论调。#背景本文直接聚焦一个核心命题:为什么“手写算子(hand-writtenoperator)”与“内核融合(kernelfusion)”能够带来大 vitamin-cudacudac++GPU
[CUDA 优化实战] 矩阵转置-从 Padding 到 XOR Swizzle:CUDA 共享内存优化的艺术 code二月 13, 2026 矩阵转置(Transpose)是深度学习和高性能计算中极其基础的操作。看似简单的坐标交换B[y][x]=A[x][y]B[y][x]=A[x][y],在CPU上可能只是两层循环,但在GPU这种吞吐导向的架构上,访存模式(MemoryAccessPattern)往往比计算逻辑更能决定性能的生死。如何写 vitamin-cudacudac++GPU