DeepSeek 挑战英伟达 CUDA 生态：PTX 优化引发的行业震荡

author 02-08 449 2条评论

默认

摘要： DeepSeek-V3 的出现再次对英伟达的 GPU 市场地位构成挑战。韩国未来资产证券的研究显示，DeepSeek-V3 的硬件效率比 Meta 等公司高出 10 倍，这主要归功...

DeepSeek-V3 的出现再次对英伟达的 GPU 市场地位构成挑战。韩国未来资产证券的研究显示，DeepSeek-V3 的硬件效率比 Meta 等公司高出 10 倍，这主要归功于其对底层硬件的深度优化。他们并未使用常用的 CUDA 编程语言，而是直接使用更底层的 PTX 语言进行编程，对 H800 GPU 的 132 个流式多处理器中的 20 个进行修改，用于优化服务器间的通信，绕过了硬件对通信速度的限制，实现了极致的性能提升。

然而，直接使用 PTX 语言进行编程非常复杂且难以维护，而且代码的移植性差，这与 CUDA 提供的高级编程接口和跨架构兼容性形成鲜明对比。DeepSeek 的这种做法虽然实现了卓越的性能，但也意味着更高的开发成本和更低的代码可移植性，可能难以在不同型号的 GPU 上获得同样的效果。

尽管 DeepSeek 使用 PTX 语言进行优化并不意味着完全脱离 CUDA 生态，但它表明 DeepSeek 团队具有优化各种 GPU 的能力，并且已经与 AMD、华为等团队合作，支持其他硬件生态。

此外，DeepSeek-R1 甚至能够自动生成优化后的代码，例如在 Llama.cpp 项目中，DeepSeek-R1 生成的代码显著提升了 WebAssembly 在特定点积函数上的运行速度，这引发了人们对于 AI 自动编写底层代码，甚至自我优化的可能性进行探讨，预示着AI领域未来新的发展方向。

打赏