51OpenLab-一站式ICT创新服务平台

多硬件异构&从硬件层到算法层评估提升模型性能-英特尔openVINO工具套件课程总结（中）

openlab_4276841a 更新于 4年前

这次将会带来一些很硬的东西，如何从硬件底层到传输层到算法层提升模型性能、GPU、CPU、VPU、FPGA的异构系统、英特尔酷睿第六代Skylake架构、多设备协同工作的架构、传感器通道融合、CV、NLP、神经网络处理等

下面是课程的链接，我觉得他们讲的非常清晰，如果我写的地方有不清楚的部分可以看一下他们的那个课程：
http://edu.csdn.net/course/detail/32064?utm_source=coderacademy

硬件异构系统的构建

在最右侧的是CPU，是通用计算设备，它的功能更加多元化可以处理各种问题。左侧是定制化的加速处理硬件，它在处理一些特定问题的时候有着很出色的表现。

通用计算设备需要匹配不同的模块来处理大量的任务，但是加速器只需要一个简单的结构去运行一个特定的任务。

CPU可以支持最广泛的程序应用，它用有最广泛的边界模型，支持多种编程语言，但是在画面的渲染方面来说，CPU的表现不如GPU，GPU的执行这些任务就会更快，GPU的编程更加复杂和独立，调试工具比较少。拿英伟达来说，一般无法通过多种编程语言进行调用，常CUDA对GPU进行操作。 VPU是面向特定领域的，高度定制化的加速器，这款硬件能够在更低的情况下执行更高效的任务。 FPGA是可编程门阵列，是混合解决方案。但是FPGA也是有它的局限的。

英特尔的硬件设备每个的专长的都不一样，有的适合去加速视频，有的适合去解码，所以最理想的状态是不同的硬件相互合作，共同去完成任务。

在总多的硬件中主要是以CPU为主控制器，将我们所需要执行的任务分发给加速器，然后加速器将运算的结果返回给CPU。

在以CPU做主控的前提下假设每个流程都用了不同的加速器，那就可以讲每个流程开发到极致。在一定的组合条件下可以使得系统拥有超越单个硬件数量级的倍数。

硬件加速的话我们主要考虑三个方面的问题：1、硬件的使用。2、不同模型、不同语言的APIS的转化。3、数据格式、内存布局也都是不一样的。所以openVINO主要解决的问题就是在如何很好地协调这三个问题使得系统处理速度最快。

我们前面已经提及过图像处理的五个过程，解码编码、图像处理、推理这五个过程，那我们根据这个五个过程的不同特性可以选用GPU、CPU、AI （主要产品有计算棒）分别处理这五个流程。

这句是我们要达到的三效果：
每个任务都在最高效的硬件运行
平衡各种系统资源
尽可能少地减少数据传输

对于不同的模型、不同的架构的解决方法是将他们转化成一个相同的中间语言-- IR，再将IR 在各种硬件中执行。

在CPU、GPU、FPGA、 AI中的IR库可以分别被他们MKL- DNN、cl-DNN、DLIA 、myraid识别然后执行

我们来看一下这个表，这个表中如果你看单个的硬件在三种模型的变现，你会发现其实每个硬件在不同模型的性能是不一样的，CPU在关键点检测中会有很良好的性能，但是GPU却不算太强。最后你看第四列，叠加后很明显每一部分都超越了单个的硬件性能。

这个是英特尔集成显卡，英特尔的CPU中会包含一些GPU的模块电路，CPU会将图形处理单元集成在同一块芯片上。所以一个CPU会包含多个芯片内核，比如说下面这个就是四核的，如果像下面这种样子的GPU和CPU集成在同一块芯片上，那么两者的通讯的会变得非常快。

当然大部分的GPU不是直接集成在一块CPU上的，常见的是一块英伟达显卡加一块英特尔的CPU，那么两者之间的内存带宽和GPU的可用内存都会影响数据通讯的效率。

假设我们现在需要处理一个模型，首先是用与之擅长的设备处理，第二个是设备的之间的信号传输不能成为影响性能的因素。看下面这个例子，CPU将压缩的视频流发送给GPU，然后取回解压好的压缩视频。将解压好的视频给VPU推理，然后将结果返回给CPU。
这个就是方案一。

那么现在我们来看下第二种方案，第二种我们先将压缩的视频发送给GPU，然后GPU把视频流发送给VPU直接处理，然后结果返回CPU。这样子做的话，就要求三个硬件是同步的。

OPENVINO就可以完成这个组合。

我们来看下面这个架构，这个是英特尔酷睿第六代Skylake的整体布局架构，这里是双核的，蓝色这块是最小的GPU，具有24个集成单元，占用了芯片一半的大小。

下面是GT4和四核的架构，可以看到，性能有了很大的提升。

下面来看下集成的GPU的内部，这里有24个执行单元，以及VBOX、VEBOX这些单元可以加速图像处理

这个是英特尔的独立GPU内部结构

这里提一下media- SDK，一个软件可以帮你在多语言多平台上编程GPU，加速视频解码编码等

第二个是成长中的one VPL

而且你在CV、FFMPGE、Gsteamer等框架调用这两个API

性能测试

比如说我们有个模型，这是采用典型的流水线来处理图形，每次处理按顺序去处理图片，依次处理四个图像如上图。然后有第二种解决方案，我一次处理四张图是不是可以生成更多的图像

从延迟来看，上面的延迟是10s一张，下面是11.3秒四张。但是吞吐率上来说，底部会更高。所以看实际中的需求。

下面是吞吐率和延迟的定义

除此之外还有成本等多项指标

影响应用推理性能的三个参数

1、神经网络
2、设备
3、执行参数

我们可以拿下面两个模型来举例。神经网络的卷积是选择300300比500500轻，链接层的选择、内存占用这些都是都是要考虑的。如果选择的模型太重了，无法将所有权重的加载到内存时就没用了。

选择的设备会对推理性能。比如说设备的数据格式时不一样的，那么就需要软件转化，数据格式会影响内存大小和所需的计算能力。我们需要确保用时需要内存够大，能够保持权重。

3、执行参数
这个需要自己去调，一般的AI工程师都只是在这一层下功夫，接下里详细介绍一下这六个

这里有个软件benchmark，官方提供来测量性能指标。

3、批处理和推理请求
我们可以将四个输入项打包起来时，可以一次处理batch ,这个时候batch=4。推理请求是指系统可以同时并行的程序数量。

4、视频流处理功能
在吞吐量模式下，线程将从以前一组进行分组成几组，数据的局部性更加出****r>

我们来举个例子去理解这个线程。
我们可以选择要分配的线程数，或者将线程固定到特定核心，或者让CPU分配给资源。
这就想一个核心一个车道，如何每个核心可以处理两个线程，所以一个核心相当于双车道。

第二种情况是如果这个时候我线程很多，而核心（车道）还是两个的话就堵车。

推理性能中的数据格式

上面已经提到过的数据线性与否、卷积层、链接层等等都是影响性能

数据格式通常会影响性能，因为内存大小和内存带宽小会有优势。你可以在一个FP32的空间中配置四个INT8.第二个是提升运算速度，一般是整数更快。

那我们可以来打包数据
我们可以把多个INT8打包在一起，执行单指令单数据的操作。
在一个FP32中可以打包四个INT8
然后越往后的打包的越多

为支持聚合需要有非常大和非常小的聚合，在压缩为更小的范围来进行推理。

数据格式转化的两种方式
用较低精度的权重重新训练模型
转化模型精度

将模型数据转化为整数的办法
POT–后训练优化工具
输入的是转化后的IR模型和带有标注的数据集

读取器读取数据
转化注释
预处理对数据操作
调用推理引擎（VINO、caffe等）
计算量化指标

POT主要是在两种模式进行工作
第一种是默认量化模式，执行最快量化，速度快，但是更注重性能。但是不具备感知性能。

第二种是准确性感知模式
算法量化一些层，直到满足预设的准确率。

最终不是所有的数据都会被转化，而是原有的数据和转化的数据叠加的结果

音频处理

图像特征提取
在上一章我们知道在图像处理中如果我们可以掌握好图片中的每一个像素，就可以确定图像的全部信息，但是在我们对图像进行旋转或者其他处理后就会转化成完全不同的图像。

我们通常会使用不随着所可能操作而变化的表达方式。我们通常使用神经网络的第一层负责这个任务，第一层拿到原始图像，第一层和第一批层通常是用过卷积从图像中提取特征，第一层看起来像边缘图像。第二层提取更高级别的特征，比如说圆形、直角等形状。所以第一批层的每一批层都会提取越来越来的特征。想要保持这些图形特征不变的方法是使用多种图像过滤器，并以较小的缩放和旋转来提取特征。完全链接层可以根据提取的特征层来确定这是否是一朵花。简单来说，这个流程就是视觉处理的描述。