Home
avatar

WingEdge777

英伟达之死...

未来的某周二,NVIDIA 死了。也许是周三,我们不知道。只见零散的媒体消息掠过:已经没人使用 CUDA 了,都用 xxx 了。这说明不了什么,可能 NVIDIA 周一就死了。

这只是一个平行世界的幻想,从某种意义上来说,你,我,我们,整个宇宙,终将逝去。

英伟达的发家史

二三十年前,那个穿皮衣的男人创建了一家公司,叫 NVIDIA,这家公司在 1999 年推出了一款名为 GeForce 的显卡,这款显卡专为游戏设计,主打“并行计算”,能够显著提升对图形的处理能力,从而使得图像更逼真而流畅,提升游戏用户体验。凭借 GeForece 的成功,英伟达迅速崛起,成为显卡领域的领导者。起初,人们还仅仅以为这是一家游戏基建公司的崛起,玩具的供应商罢了。但是显卡并不是游戏专用的,英伟达的负责人强调其 GPU 是通用图形处理单元,可以用来处理结构化的大规模计算。那个男人也不惜成本、不顾反对、持之以恒地投入资金进行 CUDA SDK 研发,并以此为核心形成了垄断而强大的 CUDA 生态,而这成为了英伟达无与伦比的护城河。

无疑,研发 CUDA 等基础生态软件的决策是顶级高明且目光长远的。此后,只要做大规模并行计算,就离不开英伟达显卡。2012 年 AlexNet 出现,引爆 CV (Computer Vision) 领域,深度学习在学术界工业界迅速爆发。随后加密货币火热,挖矿浪潮爆发。英伟达在这些产业浪潮中都赚得盆满钵满,从 IPO 至今其股价涨幅就高达几万倍,创造了数之不尽的亿万富翁。

AI 正当时

现如今,应该没有人会怀疑 AI 是下一个时代,虽然 AGI 还未出现,但 AI 已从方方面面深入到了每个人的生活中,如翻译、语音、客服、图文视音频创作、智能穿戴/家电、自动驾驶、导航、各式样的自动化机器等。

NVIDIA 作为当今 AI 的龙头老大,AI 产业链的实际源头(显卡),真正的 AI 基础设施,赚取着全球 AI 红利的绝大部分利润。几乎所有消费者、投资人、云企业、AI 应用公司、互联网创业公司等都在主动或被动地向 NVIDIA 贡献自己的现金流。

训练/推理框架

在提到算力基础时,不得不讨论算力之上的东西:训练/推理框架。算法模型是经由算法工程师精心设计、训练、调优,产出满意的目标模型后,给到推理侧部署封装,最终才能让终端的用户使用的。

对于训练框架而言,在学术界,早期的 Caffe,后来的 Tensorflow,无疾而终的 MxNet, 都大行其道过,现如今恐怕已经被 PyTorch 垄断了;在工业界,搜广推领域中,由于难以摆脱的历史包袱,Tensorflow 仍占据最大份额 (也许不是,笔者未考证),其他领域应该是 PyTorch,GooGle 的 JAX 也可能有一定份额。

对于推理框架而言,情况稍许不同,不同于学术界中多是验证想法的调试,很少在乎推理性能,工业界必须考虑模型的推理部署成本,以此减少给英伟达的上贡,因此对推理框架的优化就十分必要了。搜广推领域依然是 Tensorflow 搭配自成一脉的 TF Serving,但在 CNN ( 卷积神经网络 ) 图像和多模态领域,NV 的 TensorRT + TritonServer 几乎是唯一的选择,不论哪种,使用的几乎都是 NV 的显卡,NV 的软硬件生态让人避不开呀。

大语言模型时代,硬件优势强势,软件疲态初显

2013 年 12 月,ChatGPT 引爆了整个 AI 领域。之后各种大语言模型层出不穷,有自研的,也有套壳的,不同于 CNN 的结构化数据输入/输出,大语言模型的推理方式是一个循环迭代的过程,加上模型之大,推理部署不再是一件简单的事,此处不展开技术细节。简而言之,大语言模型的特性,导致其推理部署框架的复杂性和可优化性,远超 CNN 时代的单调性。开源社区有各种各样云端/私有化/端侧部署方案,如 VLLM/TGI/llama.cpp/LMDeploy/SGLang 等等,尽管 NV 有自己推行的 TensorRT-LLM , 但其使用/适配之复杂,部署之不便,更新之慢,为人诟病已久(最新版的 PyTorch Workflow 暂时还未发力) 。

此外,还有更加不一样的东西在涌现,这是一个精彩的时代。当今时政敏感,中美两超级大国在方方面面进行着或软或硬的交锋,技术博弈/贸易战可能会加剧。AI 作为前沿技术之一,首当其冲。英伟达的显卡总是会被提及,被限制对中国出口。而与此同时,主动的或被动的,国内的本土创新意识在急剧累增,似乎要完成量变到质变的突破。比如各大厂有自己的大模型和推理框架,比如出圈 DeepSeek 的系列模型发布,其在技术报告中甚至多次建议显卡设计者要考虑硬件细节,以配合优化推理性能。还有许多 AI 芯片公司,寒武纪/华为昇腾/百度昆仑芯等,造出了虽然落后但也有一战之力的计算芯片。

国内所有的云商、大厂都处于适配/试用国产显卡的过程中了(也许已经开始大批采购)。生态,发生了变化,攻守之势如何?英伟达的护城河还在吗?它该如何应对?如何挽回局面或是更进一步呢?

后记

笔者写此文仅仅是心有所感,随手而写,提及的公司或项目全是记忆中自然出现,无褒贬之意(同样,未提及的也如此) 。笔者本人也不熟悉传统机器学习,所言都是片面之语言。本人从 CNN 时代的 TensorRT V5 起,到大语言模型时代的 FasterTransformer/TensorRT-LLM,本人习惯于使用 NV 的镜像 (NGC) 和软件,常和同事说的是:“NV 出品,必属精品,别折腾其他乱七八糟的了”。

但现如今,本人部署大语言模型已优先 SGLang 了。

是什么时候突然导致了这个现象的出现呢,我也不知道。就像巨头的崩塌,是突如其来的,也是悄无声息的。这一次,也许是虚晃一枪,英伟达依然屹立不倒。但正如凡事,终有第一次,也终有下一次。

让我们,都做好准备吧。祝好~

以上。

自由幻想