“可以理解这一领域的新人还没意识到已经发生在硬件和软件方面的所有发展。”英伟达措辞还算温和。
“对于一直以来承诺的 Xeon Phi 处理器,英特尔给出了一些不正确的“事实”。”英伟达称。
“关于 Xeon Phi 处理器的深度学习性能,英特尔发布了一些过时的参数,包括三点声明:
Xeon Phi 比 GPU 快 2.3 倍;在整个节点,Xeon Phi 的指标比 GPU 高出 38%;Xeon Phi 强大到可扩展到 128 个节点,而 GPU 做不到。”
“我们在此对这些声明可能引起的误解做出一些澄清。”英伟达表示。
英特尔采用的数据已经是 18 个月前的了,当时是对比了 4 个 Maxwell GPU 和 4 个 Xeon Phi 服务器。而最新公布的数据,英特尔应该看到同样的系统,4 个 Maxwell GPU 比 4 个 Xeon Phi 服务器要快 30%。
“事实上,4 个帕斯卡架构的 Titan GPU 要比 4 个 Xeon Phi 服务器快 90%,单个 DGX-1 要比 4 个 Xeon Phi 服务器快 5 倍以上。”英伟达声称。
“英特尔是比较 32 个 Xeon Phi 服务器和 32 个来自 Oak Ridge 国家实验室的 Titan 超级计算机服务器,”英伟达表示,“Titan 采用的是有 4 年历史的 GPU(Tesla K20X),内连技术还是来自于较早的 Jaguar 超级计算机。Xeon Phi 则基于最新的内连技术。”
“采用最新的 Maxwell GPU 和内连技术,百度显示他们语言训练工作范围甚至可线性扩展达 128 GPUs。”
“可扩展性基于代码内的内连和架构优化,和底层处理器同样重要,”英伟达总结,“GPU 可为像百度这样的用户提供强大的扩展性。”
更多有关深度学习的资讯,欢迎访问 与非网深度学习专区
与非网编译,未经许可,不得转载!
来源: 与非网,作者: 与非网记者,原文链接: https://www.eefocus.com/article/367468.html
1
