Nvidia宣布其AI推理平台的得分始终高于竞争对手,并在最新的MLPerf基准测试程序中创下了多个类别的性能记录。但是,很明显,该行业中的一些公司没有像NVIDIA一样优先考虑MLPerf的参与。

Nvidia产品管理和营销高级总监Paresh Kharya表示,自MLPerf 1.0程序获得了结果,在许多情况下,Nvidia的结果显示自上一次MLPerf测试以来的六个月内,性能有了巨大的提高。
MLPerf是由ML Commons和MLPerf联盟于2018年启动的行业基准计划,旨在衡量七个不同应用程序中的AI性能-图像分类,医学成像,推荐系统,语音识别,自然语言处理以及高分辨率和低分辨率图像检测。测试涉及脱机和服务器查询驱动方案中的数据中心环境中的AI推理,以及脱机,单流和多流方案中的边缘服务器和设备中的AI推理(后者是设备处理器可能正在处理来自以下情况的流的情况)多个传感器。)
除英伟达之外,英特尔,AMD,赛灵思和高通也都参与了一些测试。在宣布MLPerf结果的新闻发布会和分析师通报会上,Khalya展示的数据表明,英伟达的A100高性能数据中心处理产品在离线和服务器驱动的基准测试场景中都超过了这四家公司在图像分类类别中的提交,这是所有五家公司提交的论文都是唯一的类别。
Kharya说,A100是所有类别中性能最高的,而Nvidia最近推出的用于更主流服务器应用程序的A10和A30低功耗GPU在相同的测试中也表现良好。Kharya认可的Nvidia唯一失败之处在于新的,单独的MLPerf能源效率基准测试,该基准在每瓦性能基础上被高通的AI 100在六个能效测试类别中的两个类别中最好地击败了。
在其他MLPerf注释中,在某些MLPerf测试中使用了Nvidia的Triton Inference Server,而Kharya说,该公司还通过展示使用Nvidia Ampere架构的多实例GPU(MIG)功能展示A100的新突破,该功能运行所有七个MLPerf Offline测试同时在单个GPU上。与单个运行的MIG实例相比,该配置显示了几乎相同的性能-98%。Kharya解释了其重要性:“客户现在可以选择是否进行大量计算工作,因为有很多并发用户不断对服务器执行ping操作以查询查询。他们可以在整个GPU上运行它……或选择在单个MIG上运行它。”
比赛在哪里?
虽然Nvidia将MLPerf视为技术展示,但Kharya承认Nvidia是唯一提交数据中心和边缘类别中每个测试结果的公司。他不是简报中唯一强调差异的参与者。在问答环节中,Cambrian-AI Research的创始人兼首席分析师Karl Freund将MLPerf测试比喻为每隔几个月去看一次电影,但是放映的电影从未改变。
“每一次MLPerf出现,Nvidia都会占据主导地位,但没人主导。” Freund说。“没有其他人出现。”
实际上,除了Nvidia自己的MLPerf提交之外,Nvidia的合作伙伴阿里云,DellEMC,Fujitsu,技嘉,HPE,浪潮,联想和Supermicro都使用Nvidia GPU提交了360多个结果,但是其他大小的处理器供应商都显着许多测试中都没有。
关于缺乏竞争,Kharya认为这反映了AI和机器学习市场的相对不成熟。“人工智能仍处于起步阶段。它仍然在一个真正发展的故事的第一章中。MLPref为衡量产品性能提供了一个很好的准绳。Nvidia的生态系统之所以出现,是因为我们的客户希望看到结果。”
简报后,Freund在发给Fierce Electronics的评论中同意Kharya的观点,他说在AI和机器学习的发展中,期望更多的MLPerf参与还为时过早,而且许多公司花了尽可能多的时间来完善他们的产品并与潜在客户互动。
“我认为,随着这些公司的成熟,参与度将会增加,” Freund说。“有些公司将无法取得良好的业绩,而这些公司可能会逐渐消失。但是大多数都还没有准备好。”
他补充说,MLPerf得到了行业内供应商的大力支持(MLCommons.org列出了40多家公司作为会员。)“这些基准代表了实际的工作量,将帮助买方对所有索赔进行分类,今天这些索赔可能会引起误解,”弗洛因德说。