WingEdge777

[TileLang] 0: vector add 向量化访存和生成代码分析

[TileLang] 0: vector add 向量化访存和生成代码分析

code六月 2, 2026

:::TileLang,目前kernel开发的一种DSL，基于TVM实现的kernel编译生成器，提供友好的python前端抽象，供给算法工程师开发算子使用。TileLang将简短的Python代码解析并Lowering，自动生成高性能Kernel代码，是openAITileLang-lang之后比

[CUDA 优化实战] topk_topp_sampling - 乱拳打死老师傅：暴力插入排序 topK、block reduce array merge

[CUDA 优化实战] topk_topp_sampling - 乱拳打死老师傅：暴力插入排序 topK、block reduce array merge

code五月 22, 2026

本文适用于有一定CUDA编程基础阅读，but，即使无相关基础感兴趣的读取也可以阅读，哈哈~完整kernel和测试代码可以点击flash_decode查看#0.序-llm推理的最后一公里：tokensampling今天来聊聊tokensampling。做LLM或用过LLM的从业者，大概都了解，LLM实

[CUDA 优化实战] 纯手搓 flash decoding sm120 : 超越 flashinfer.single_decode_with_kv_cache

[CUDA 优化实战] 纯手搓 flash decoding sm120 : 超越 flashinfer.single_decode_with_kv_cache

code五月 21, 2026

本文适用于有一定CUDA编程基础，熟悉GEMM/multi-head-attention优化，对进阶嵌入PTX指令性能调优感兴趣的读者阅读完整kernel和测试代码可以点击flash_decode查看#0.序-decode和prefillattention:完全不同的优化哲学承接上篇fmha文章。上

[CUDA 优化实战] fmha sm120 : 超越 torch.sdpa(flash-attention-2)

[CUDA 优化实战] fmha sm120 : 超越 torch.sdpa(flash-attention-2)

code五月 19, 2026

本文适用于有一定CUDA编程基础，熟悉GEMM/multi-head-attention优化，对进阶tensorcore/嵌入PTX指令性能调优感兴趣的读者阅读。实际上阅读本文前最好先阅读本人先发布的hgemmsm120、safeonlinesoftmax以及gemm系列文章。因为可能有重合的知识点

一文理解 PyTorch 进行分布式应用开发 - 分布式推理入门实战

一文理解 PyTorch 进行分布式应用开发 - 分布式推理入门实战

code五月 15, 2026

如今模型越来越大。当模型参数量达到数百亿级别，即使通过INT4量化压到单卡能装下权重，推理时的KVCache和激活值也会随batchsize和序列长度线性增长，单卡显存很快捉襟见肘——多卡分布式推理几乎是必经之路。#使用PyTorch进行分布式应用开发-分布式推理入门实战但想直接阅读Megatron

[CUDA 优化实战] hgemm sm120 - 100KB SMEM 中的“微雕”战争：Tensor-core、TMA、ldmatrix、mma

[CUDA 优化实战] hgemm sm120 - 100KB SMEM 中的“微雕”战争：Tensor-core、TMA、ldmatrix、mma

code五月 10, 2026

文章描述对不起朋友们，本来我说gemm系列不会有后续，但我食言了，今天依然是hgemm，不过我们要拥抱RTX5060laptop上的一切，TMA+ldmatrix+mma，挑战极限本文适用于有一定CUDA编程基础，熟悉GEMM优化，对进阶tensorcore/嵌入PTX指令性能调优感兴趣的读者阅读完

[CUDA 优化实战] hgemm - 超越 cuBLAS：Tensor-core、cp.async、ldmatrix、mma

[CUDA 优化实战] hgemm - 超越 cuBLAS：Tensor-core、cp.async、ldmatrix、mma

code五月 10, 2026

本文适用于有一定CUDA编程基础，熟悉GEMM优化，对进阶tensorcore/嵌入PTX指令性能调优感兴趣的读者阅读#0.序-半精度一统江湖完整kernel和测试代码可以点击hgemm查看没错，这是超越cuBLAS系列之三（NV还不针对移动端显卡调优的话，我们就还是超越。不过这估计是GEMM系列最

[CUDA 优化实战] sgemm tf32 - 超越 cuBLAS：Tensor-core、cp.async、ldmatrix、mma

[CUDA 优化实战] sgemm tf32 - 超越 cuBLAS：Tensor-core、cp.async、ldmatrix、mma

code五月 9, 2026

文章描述#0.序-向量化计算的时代干货核能预警，大量配图，涉及硬核的swizzle推导过程(看完还不懂xorswizzle，可以顺着网线来打我)，layout地址坐标映射分析，指令说明，建议在PC端阅读以获得最佳体验本文适用于有一定CUDA编程基础，熟悉GEMM优化，对进阶tensorcore/嵌入

ContextClip：为 LLM 投喂纯净 Markdown 上下文的浏览器提取利器

ContextClip：为 LLM 投喂纯净 Markdown 上下文的浏览器提取利器

code五月 8, 2026

最近vibecoding了个小工具，chrome扩展ContextClip，ContextClip是一款专为投喂本地LLM、RAG和Agent开发的零依赖、重隐私Chrome浏览器扩展。它直击传统网页信息收集时“截图耗时/不兼容”和“复制粘贴格式混乱”的痛点。项目地址：ContextClip#为什么

白嫖 github action + Gemini 自动化每日精选论文

白嫖 github action + Gemini 自动化每日精选论文

code四月 10, 2026

AIcoding现在越来越火热，不可避免有点焦虑。我也vibecoding了一个Gemini每日精选论文工具（白嫖githubaction和googleAIstudio大模型token），加紧学习效率。欢迎star/fork使用#背景随着AI技术的飞速发展，每天都有大量的论文发表，作为工程师或者研究

1 2 3