一文入门推理系统性能优化:流水线、计算通信 Overlap 与 Offload/Onload 实践 code六月 16, 2026 相信大家都听到过训练端pytorchFSDP,ZeRO1/2/3,Deepspeed/Megatron的pipeline优化、offloading之类的,推理端vLLM、SGLang等框架会提到计算和通信重叠,零CPU开销调度(zero-overheadschedule,当然这个有CUDAgraph AI inferLLMPyTorchStreamingoffloading计算与通信重叠
[TileLang] 0: vector add 向量化访存和生成代码分析 code六月 2, 2026 TileLang 入门实战:以 vector add 为例分析向量化访存与代码生成,对比 Triton 并解读自动生成的高性能 CUDA Kernel。 CUDATileLangElement-Wise
[CUDA 优化实战] topk_topp_sampling - 乱拳打死老师傅 : 暴力插入排序 topK、block reduce array merge code五月 22, 2026 CUDA 实现 LLM 推理 token sampling:讲解 topK/topP 采样、暴力插入排序与 block reduce array merge 等内核优化技巧。 vitamin-cudacudac++GPUsampling
[CUDA 优化实战] 纯手搓 flash decoding sm120 : 超越 flashinfer.single_decode_with_kv_cache code五月 21, 2026 纯手搓 sm120 flash decoding kernel,单 query 长 KV cache 场景下超越 flashinfer 的 decode attention 优化实战。 vitamin-cudacudac++GPUGEMMflash attentionflash decoding
[CUDA 优化实战] fmha sm120 : 超越 torch.sdpa(flash-attention-2) code五月 19, 2026 在 sm120 架构上纯手搓 FMHA,基于 TMA+ldmatrix+mma 在 prefill 场景超越 torch.sdpa 与 Flash Attention-2 的实战复盘。 vitamin-cudacudac++GPUGEMMflash attention
一文理解 PyTorch 进行分布式应用开发 - 分布式推理入门实战 code五月 15, 2026 用不到 200 行 PyTorch 代码从零手搓大模型分布式推理:数据并行 DP、张量并行 TP、流水线并行 PP,2 卡实战,无需 Megatron 或 vLLM。 AI inferLLMPyTorch distributionTensor ParallelismData ParallelismPipeline Parallelism
[CUDA 优化实战] hgemm sm120 - 100KB SMEM 中的“微雕”战争:Tensor-core、TMA、ldmatrix、mma code五月 10, 2026 在 RTX 5060 sm120 架构上手搓 hgemm:基于 100KB 共享内存,结合 TMA、ldmatrix、mma 等 Tensor Core 技术进行极致半精度 GEMM 调优实战。 vitamin-cudacudac++GPUGEMM
[CUDA 优化实战] hgemm - 超越 cuBLAS:Tensor-core、cp.async、ldmatrix、mma code五月 10, 2026 FP16/BF16 HGEMM 手搓实战:运用 cp.async、ldmatrix、mma 与 swizzle,在 RTX 5060 上超越 cuBLAS 的半精度矩阵乘法优化全复盘。 vitamin-cudacudac++GPUGEMM
[CUDA 优化实战] sgemm tf32 - 超越 cuBLAS:Tensor-core、cp.async、ldmatrix、mma code五月 9, 2026 TF32 Tensor Core SGEMM 优化实战:深入 cp.async、ldmatrix、mma 与 XOR swizzle 推导,在特定规模下挑战并超越 cuBLAS。 vitamin-cudacudac++GPUGEMM
ContextClip:为 LLM 投喂纯净 Markdown 上下文的浏览器提取利器 code五月 8, 2026 最近vibecoding了个小工具,chrome扩展ContextClip,ContextClip是一款专为投喂本地LLM、RAG和Agent开发的零依赖、重隐私Chrome浏览器扩展。它直击传统网页信息收集时“截图耗时/不兼容”和“复制粘贴格式混乱”的痛点。项目地址:ContextClip#为什么 LLMmarkdownjs