写CUDA到底难在哪?

2025-06-19 18:25:15

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?
广告位810*200
相关阅读
Mac mini M4,有必要升级24G内存吗?

Mac mini M4,有必要升级24G内存吗?

这么说吧,丐版的m4性能已经几乎打平了m3pro了,m4pr...

2025-06-20
我国的“斤”用了上千年,为何和国际接轨后,恰好是500克?

我国的“斤”用了上千年,为何和国际接轨后,恰好是500克?

你这个问题让我想起多年前一次打车的经历 我刚坐下,司机师傅哼...

2025-06-20
***如你财务自由,是买一个大平层还是买一个大别墅?

***如你财务自由,是买一个大平层还是买一个大别墅?

建议买叠墅,上叠。 其他的都有缺点,我之前买的是中层,太吵...

2025-06-20
为什么游戏中,中国跟欧洲的时延这么大,是否是海底光缆距离过长的原因?

为什么游戏中,中国跟欧洲的时延这么大,是否是海底光缆距离过长的原因?

我在阿里的时候,做中美数据库数据同步。 一起参与项目的同事...

2025-06-20
福州人口流出为什么这么严重?

福州人口流出为什么这么严重?

服务端厦门薪水会平均比福州高5k,24年。 说下2w梯队的...

2025-06-20