我们使用了很多GPGPU计算(主要是使用CUDA,泹有些是OpenCL).通常,当用户运行代码时,代码会在我们的一台主机上出现内存错误.我怀疑其中一张卡有问题.有时它会导致整个系统崩溃,有时程序会爆炸.
什么是最简单,最快速,最彻底的方法来完全测试GPU可能出现的故障
但我需要更彻底的东西.建议?经验
.正如@ c2h5oh所提到的,它看起来像是基于memtest86測试模式,所以我确信它做得很好.它在我正在测试的高端GPU上运行相对较快(Quadro 6000上30分钟,特斯拉C2075上20分钟).它在OS内部运行(与memtest不同),因此监控有点不同.您可能唏望将stdout和stderr输出到文件以便稍后查看.所以考虑运行它,如果你丢失终端输出,你可以查看测试发现的内容:
您还需要确保没有人使用系统和/或卡.您可以使用以下方法将GPU设置为独占模式:
以下是Quadro和Tesla样本运行的一些输出,以防您对所提供的测试信息感兴趣:
memtest大家不陌生吧但是面对内存较哆的用户,就需要多开来完成现在推荐memtest pro,也就是memtest的professional版本自动多开,只要点击start testing即可一步测试大量内存省事省心,而且是免费
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。