写CUDA到底难在哪?

2025-06-21 12:00:11

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
如何评价 node_modules 的设计?

如何评价 node_modules 的设计?

node_modules 的问题(尤其是大小问题),主要其实...

2025-06-28
养乌龟只养一只,它觉得会孤独吗?

养乌龟只养一只,它觉得会孤独吗?

不会,龟龟的感情没有那么丰富,它们不知道孤独是什么,它们只知...

2025-06-28
Mac mini M4,有必要升级24G内存吗?

Mac mini M4,有必要升级24G内存吗?

看你干的活。 以16GM4的MacMini实测 Offic...

2025-06-28
新修订的治安管理处罚法重构「被殴打还手即互殴」的认定标准,明确正当防卫免处罚,怎样从法律角度解读?

新修订的治安管理处罚法重构「被殴打还手即互殴」的认定标准,明确正当防卫免处罚,怎样从法律角度解读?

这个比较好一些 在正当防卫的法律构成要件上就存在多个要件。 ...

2025-06-28
有什么是你去河南才明白的事?

有什么是你去河南才明白的事?

本人河南人,上大学后感觉河南人和有些地区习惯不太一样,就比如...

2025-06-28