最近有一些工程师反馈说,TITAN V 在某些特定情况下的科学模拟计算中无法给出可靠的答案,怀疑是显存不支持 ECC 纠错造成的。
 
我们都知道目前市面上能买到最强的显卡NVIDIA TITAN V,但是它的售价以及显卡架构都说明它是一张半专业显卡,而非像普通的 GeForce 显卡那样用于打游戏。更多实验室、研究机构都会买来用于科学计算上。不过最近有一些工程师反馈说,TITAN V 在某些特定情况下的科学模拟计算中无法给出可靠的答案,怀疑是显存不支持 ECC 纠错造成的。
 
 
TITAN V 可以说是一张非常变态的显卡,史无前例的 80 组 SM 单元,5120 个 CUDA 单元,其核心面积就超过了 815 平方毫米,211 亿个晶体管。新加入的专门用于深度计算 Tensor 单元,注定 TITAN V 就不是一张普通的游戏卡。
 
因此很多科学家都用它来跑科学模拟运算,但有些科学家却发现 TITAN V 处理出来的结果似乎不太可靠,比方说用四张 TITAN V 显卡来处理蛋白质与酶之间计算,在相同的测试参数下,每一次的测试结果都应该是相同的,但实际上跑出来的结果却不一样,可能是显卡不稳定的原因。
 
而一位不愿意透露姓名的资深业内人士表示,这很可能是 NVIDIA TITAN V 显卡的显存出现了溢出错误导致的,因为 NVIDIA TITAN 系列显卡中全面禁用了 ECC 纠错功能,在除了像科学计算超庞大体量数据时,没有纠错功能下,显存很可能会来不及处理部分数据进而导致溢出,最后运算结果自然是不相同的。
 
这个对于严谨的科学来说是十分致命的,因为不可靠的结果是不能被接受的,所以科学家需要更加重视计算机的计算结果是否真实可靠。
 
目前 NVIDIA 对这件事情表态说,“All of our GPUs add correctly. Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact support@nvidia.com.”言外之意就是,“你们这些科学家应该用更加专业更加昂贵的 Tesla 显卡,因为它们都是带有 ECC 纠错功能的”。