
DeepSeek 挑战英伟达 CUDA 生态:PTX 优化引发的行业震荡

DeepSeek-V3 的出现再次对英伟达的 GPU 市场地位构成挑战。韩国未来资产证券的研究显示,DeepSeek-V3 的硬件效率比 Meta 等公司高出 10 倍,这主要归功于其对底层硬件的深度优化。他们并未使用常用的 CUDA 编程语言,而是直接使用更底层的 PTX 语言进行编程,对 H800 GPU 的 132 个流式多处理器中的 20 个进行修改,用于优化服务器间的通信,绕过了硬件对通信速度的限制,实现了极致的性能提升。
然而,直接使用 PTX 语言进行编程非常复杂且难以维护,而且代码的移植性差,这与 CUDA 提供的高级编程接口和跨架构兼容性形成鲜明对比。DeepSeek 的这种做法虽然实现了卓越的性能,但也意味着更高的开发成本和更低的代码可移植性,可能难以在不同型号的 GPU 上获得同样的效果。
尽管 DeepSeek 使用 PTX 语言进行优化并不意味着完全脱离 CUDA 生态,但它表明 DeepSeek 团队具有优化各种 GPU 的能力,并且已经与 AMD、华为等团队合作,支持其他硬件生态。
此外,DeepSeek-R1 甚至能够自动生成优化后的代码,例如在 Llama.cpp 项目中,DeepSeek-R1 生成的代码显著提升了 WebAssembly 在特定点积函数上的运行速度,这引发了人们对于 AI 自动编写底层代码,甚至自我优化的可能性进行探讨,预示着AI领域未来新的发展方向。
发表评论