整理AI性能指标

时间：2020-07-10 09:16:15 阅读：333 评论：0 收藏：0 [点我收藏+]

整理AI性能指标

Sorting out AI performance metrics

推理性能的最佳衡量标准是什么？

在人工智能加速器的世界里，对于给定的算法，芯片的性能经常以每秒万亿次的运算量（TOPS）来表示。但有许多原因说明，这可能不是最好的数据。

“客户真正想要的是每美元的高吞吐量，”人工智能加速器公司FlexLogix的首席执行官GeoffTate说。

Tate解释说，拥有更多的tops并不一定与更高的吞吐量相关。在batch size批量大小为1的边缘应用程序中尤其如此。数据中心之类的应用程序可以通过使用较大的批处理并行处理多个输入来提高其吞吐量（因为有备用的顶部），但这通常不适合边缘设备。

例如，Tate将Flex Logix’ InferX X1设备与市场领先的GPU设备进行了比较。虽然GPU提供了3到4倍的吞吐量，最高10倍，但使用的dram数量是8倍。Tate认为这使得flexlogix的架构更具资源效率。

Tate提出的每美元吞吐量指标听起来很合理，但实际上，要找到可靠的产品成本信息来进行直接比较并不容易。诸如需要多少DRAM，或者某个芯片有多少硅面积等因素可以作为成本的指标，可惜不是精确的。

技术图片

Flex Logix的InfereX X1设备将于2019年年底前投产。将提供大约8.5个top。

ResNet-50公司

TOPS作为度量标准的另一个问题是，通常在运行ResNet-50时进行度量。

Tate说：“ResNet-50不是客户关心的基准，但是人报告最多的一个。“不太相关的原因是使用了非常小的图像。”

如今，ResNet-50在很大程度上被视为过时，已经存在了一段时间，已经成为引用顶级数据的事实标准。有充分的理由继续使用作为一个标准；其中包括努力保持所有分数至少在一定程度上具有可比性，以及使这一事实上的标准对所有类型的设备（即使是很小的设备）都可用。然而，不足以真正挑战当今为数据中心推理而构建的巨大芯片，也不足以炫耀能力。

行业基准

除了事实上的标准，当然还有各种各样的组织在为人工智能加速器开发基准（参见：MLPerf、DawnBench、EEMBC等）。

虽然MLPerf已经发布了推断结果，但Tate认为这个基准过于面向数据中心。在这个场景中，认为在第90个时间段，一个设备的延迟是一个性能指标。

“在边缘，我认为顾客不想知道第90个百分位，想知道第100个百分位。想知道：能保证我什么？Tate说，将自动驾驶作为一种边缘应用，在这种应用中延迟非常关键。

技术图片