本文作者:author

DeepSeek 挑战英伟达 CUDA 生态:PTX 优化引发的行业震荡

DeepSeek 挑战英伟达 CUDA 生态:PTX 优化引发的行业震荡摘要: DeepSeek-V3 的出现再次对英伟达的 GPU 市场地位构成挑战。韩国未来资产证券的研究显示,DeepSeek-V3 的硬件效率比 Meta 等公司高出 10 倍,这主要归功...

DeepSeek-V3 的出现再次对英伟达的 GPU 市场地位构成挑战。韩国未来资产证券的研究显示,DeepSeek-V3 的硬件效率比 Meta 等公司高出 10 倍,这主要归功于其对底层硬件的深度优化。他们并未使用常用的 CUDA 编程语言,而是直接使用更底层的 PTX 语言进行编程,对 H800 GPU 的 132 个流式多处理器中的 20 个进行修改,用于优化服务器间的通信,绕过了硬件对通信速度的限制,实现了极致的性能提升。

然而,直接使用 PTX 语言进行编程非常复杂且难以维护,而且代码的移植性差,这与 CUDA 提供的高级编程接口和跨架构兼容性形成鲜明对比。DeepSeek 的这种做法虽然实现了卓越的性能,但也意味着更高的开发成本和更低的代码可移植性,可能难以在不同型号的 GPU 上获得同样的效果。

尽管 DeepSeek 使用 PTX 语言进行优化并不意味着完全脱离 CUDA 生态,但它表明 DeepSeek 团队具有优化各种 GPU 的能力,并且已经与 AMD、华为等团队合作,支持其他硬件生态。

此外,DeepSeek-R1 甚至能够自动生成优化后的代码,例如在 Llama.cpp 项目中,DeepSeek-R1 生成的代码显著提升了 WebAssembly 在特定点积函数上的运行速度,这引发了人们对于 AI 自动编写底层代码,甚至自我优化的可能性进行探讨,预示着AI领域未来新的发展方向。

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享

发表评论

快捷回复:

验证码

评论列表 (有 2 条评论,17人围观)参与讨论
网友昵称:青春如风
青春如风 铁粉沙发
02-08 回复
厉害了DeepSeek-V3!绕过硬件限制提升性能10倍,直接用PTX语言编程,这技术实力确实强悍。但可移植性差和高开发成本也是硬伤,期待后续改进。AI自动生成优化代码更是颠覆性创新,未来可期!
网友昵称:青春如风
青春如风 铁粉椅子
02-10 回复
DeepSeek-V3 的 PTX 编程优化令人印象深刻,性能提升巨大,但可移植性和开发成本是硬伤。自动生成优化代码的功能也很有前景,期待未来发展。