RTX4090深度学习性能-寄宿日记漫画
4090在游戏娱乐、视频制作和工业软件上的性能得到了巨大的提升,一直很好奇在深度学习上的benchmark,简单收集了一下。
首先是来自AutoDL的结果:纯算力结果4090提升巨大,达到了3090ti的200%-300%甚至更高。
4090处理输入的速度,单位:图片数/秒3090Ti处理输入的速度,单位:图片数/秒对比图这些看上去让人兴奋的数据,只是纯算力表现,网络的输入为使用torch.zero在内存中构造的伪数据,因此不包含CPU预处理数据的负载和额外IO的影响,使用的PyTorch版本为 1.9.0。
第二份数据来自pugetsystems,将4090与3090进行了实际运行上的比较,这份数据就没有那么恐怖的提升了。
使用5995WX + 128G 3200 DDR4 + Ubuntu22.04作为测试平台。
以目前的数据来看,4090与3090(Ti)相比,带来了不小的性能提升。不过现有数据可能并不代表40系的真正实力,日后CUDA 12的发布以及 Pytorch等库对新CUDA的适配,可能会助力40系更上一层楼。
时间有限,获取更详细的内容,原文可见参考链接。
参考链接:
【1】AutoML GPU Banchmark: www.autodl.com/docs/gpu_perf/
【2】Pugetsystems:www.pugetsystems.com/labs/hpc/NVIDIA-RTX4090-ML-AI-and-Scientific-Computing-Performance-Preliminary-2382/