写CUDA到底难在哪?

2025-06-21 09:00:11

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?

为什么Go仅仅160MB的安装包就可以编译程序,而Rust却还需要几个GB的VC++才能编译?

我觉得吧,很多时候,解释是没有用的。 在这方面Go确实要比其...

2025-06-24
为什么macOS软件生态不敌Windows?

为什么macOS软件生态不敌Windows?

因为,Windows 的兼容性真的太好了。 举个例子: 十...

2025-06-24
windows真的有必要隔几年就出个新版本吗?

windows真的有必要隔几年就出个新版本吗?

如果不隔几年出一个新版,而是闷声憋大招,很可能因为远离市场而...

2025-06-24
独立开发者月赚17.6万美元,如何看待独立开发者在 AI 浪潮中的发展前景?

独立开发者月赚17.6万美元,如何看待独立开发者在 AI 浪潮中的发展前景?

月入17.6万美元可不是白赚的 这哥们一年git提交量3.7...

2025-06-24
同样是对标安卓系统,为什么谷歌的Fuchsia死了,而华为的鸿蒙却愈发壮大?

同样是对标安卓系统,为什么谷歌的Fuchsia死了,而华为的鸿蒙却愈发壮大?

首先,即使经历了裁员,Fuchsia还在开发,并没有正式宣布...

2025-06-24