隆重推出 OpenVINO™ 2024.3: 增强的多头注意力、OneDNN 及vLLM集成显著提升LLM性能

openlab_96bf3613 更新于 3月前

我们很高兴地宣布,OpenVINO™ 2024.3 现已正式推出!本次更新带来了新的功能并对现有功能进行了增强,尤其是大型语言模型 (LLM) 的性能。我们将介绍此版本中的关键改进,更完整的列表,请参阅 发行说明


Hugging Face上的模型专区

Hugging Face 作为发现和获取 AI 模型的首选平台,越来越受欢迎。您现在可以在Hugging Face上找到一系列OpenVINO的预优化模型,从而能够更轻松地访问和快速运行模型。这里面包括了 Phi-3、Mistral、Mixtral、LCM Dreamshaper、starcoder2 等模型在不同精度下的模型。对于该专区中的所有模型,请参阅 Hugging Face。在模型卡中,您可以找到有关每个模型的更多信息,包括描述以及如何使用 Optimum-Intel 或 OpenVINO GenAI 软件包运行模型推理。这一新增功能旨在增强 AI 模型的可访问性,并加速模型的集成和部署。

 

性能提升

改进了 Intel 独立显卡上的 LLM 性能

英特尔®的独立 显卡系列为计算密集型 AI 任务提供加速处理能力。在此次新版本中,我们旨在增强独立显卡上 LLM 和其他模型的性能。与今年的第一个版本 2024.1 相比,此版本的第一个token延迟在 Intel® Arc™ 独立 显卡 上的性能提升在 1.9 倍到 6.8 倍之间。对于第 2 个token的吞吐量性能,与今年的第一个版本相比,Intel® Arc™ 独立显卡的性能提升了 2 到 2.9 倍。这些改进是通过多头注意力 (MHA) 和 OneDNN 增强功能的优化实现的。此版本中独立显卡上的其它模型性能改进包括 Stable Diffusion 和 Whisper 模型。特别是对于Stable Diffusion模型,与上一版本相比,图像生成时间的性能提高了 1.1 倍到 1.6 倍。 


第 2 个token延迟。每秒token数。越高越好。

ChatGLM2-6B, Llama-2-7b-chat 以及 Mistral-7b-v0.1 : 第二个token延迟(以每秒token数表示). 输入分词数: 1024 | 输出分词数: 128 | 波束搜索: 1 | 批量大小: 1, 精度: INT4 

Falcon-7b-instruct - Metric: 第二个token延迟(以每秒token数表示)输入分词数: 32 | 输出分词数: 128 | 波束搜索: 1 | 批量大小: 1, 精度: INT4 

有关更多测试和系统配置详细信息,请访问:: https://edc.intel.com/content/www/us/en/products/performance/benchmark***obile_1/  

性能因用途、配置和其他因素而有所不同。更多信息请访问 intel.com/PerformanceIndex。性能结果基于配置所示截止日期的测试,可能并未反映所有公开可用的更新。

 

改进了提供 LLM 模型服务时的 CPU 性能

vLLM是一个用于 LLM 推理和模型服务的开源库,自推出以来,凭借其创新技术在 AI 社区中获得了关注,以增强 LLM 推理性能和内存效率。在此版本中,OpenVINO 现在与 vLLM 以及连续批处理集成,从而在为 LLM 提供模型服务时提高了 CPU 性能。 OpenVINO 利用全连接层优化的 vLLM 技术,融合多个全连接层 (MLP)、U8 KV 缓存和动态拆分融合,所有这些都协同工作,以提高推理速度并减少内存使用。例如,在专注于最大化吞吐量的方案中,当批量较大时,全连接层的计算要求可能会匹配或超过内存边界。在这些情况下,融合多个全连接层 (MLP) 可以更有效地使用内存带宽,并增加每次内存访问执行的计算数量。 您可以在 vLLM 中使用 OpenVINO 模型服务器 (OVMS) 或 OpenVINO 后端来利用这些新功能。查看 OVMS 示例,对于作为 vLLM 后端的 OpenVINO,请参阅安装指南。 

 

结论

一如既往,我们重视您的反馈和贡献,以帮助不断改进 OpenVINO。在每次发布中,我们都期待看到您使用 OpenVINO 以新的和创造性的方式推进您的 AI 计划。谢谢!

其它资源

Edge AI 参考套件

OpenVINO™ 模型服务器 GitHub 仓库

OpenVINO 文档

Jupyter Notebooks

安装和设置

产品页面

 

Notices & Disclaimers 

Intel technologie***ay require enabled hardware, software, or service activation. 

No product or component can be absolutely secure. 

Your costs and result***ay vary. 

© Intel Corporation. Intel, the Intel logo, and other Intel marks are trademarks of Intel Corporation or its subsidiaries. Other names and brand***ay be claimed as the property of others. 

0个评论