NVIDIA TITAN V翻车,在科学模拟计算中无法得出可靠结果

我们都知道目前市面上能买到最强的显卡是NVIDIA TITAN V,但是它的售价以及显卡架构都说明它是一张半专业显卡,而非像普通的GeForce显卡那样用于打游戏。更多实验室、研究机构都会买来用于科学计算上。不过最近有一些工程师反馈说,TITAN V在某些特定情况下的科学模拟计算中无法给出可靠的答案,怀疑是显存不支持ECC纠错造成的。

TITAN V可以说是一张非常变态的显卡,史无前例的80组SM单元,5120个CUDA单元,其核心面积就超过了815平方毫米,211亿个晶体管。新加入的专门用于深度计算Tensor单元,注定TITAN V就不是一张普通的游戏卡。

因此很多科学家都用它来跑科学模拟运算,但有些科学家却发现TITAN V处理出来的结果似乎不太可靠,比方说用四张TITAN V显卡来处理蛋白质与酶之间合成计算,在相同的测试参数下,每一次的测试结果都应该是相同的,但实际上跑出来的结果却不一样,可能是显卡不稳定的原因。

而一位不愿意透露姓名的资深业内人士表示,这很可能是NVIDIA TITAN V显卡的显存出现了溢出错误导致的,因为NVIDIA TITAN系列显卡中全面禁用了ECC纠错功能,在处理像科学计算超庞大体量数据时,没有纠错功能下,显存很可能会来不及处理部分数据进而导致溢出,最后运算结果自然是不相同的,目前已确认一款称为Amber的分子动力学科学应用程序受到影响。

这个对于严谨的科学来说是十分致命的,因为不可靠的结果是不能被接受的,非常多科学研究结果需要超高置信度支持才能被确认有效,所以科学家需要更加重视计算机的计算结果是否真实可靠。

目前NVIDIA对这件事情表态说,“All of our GPUs add correctly. Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact support@nvidia.com.”言外之意就是,“首先遇到问题请马上联系我们,另外你们这些科学家应该用更加专业更加昂贵的Tesla显卡,因为它们都是带有ECC纠错功能的”。用着旧机不爽的你,是否准备购买一波新装备啦,想要各类硬件推荐的请找小超哥(微信9501417),也可以让小超哥拉你进去超能群与其他网友一起聊哦~

(0)

相关推荐