51OpenLab-一站式ICT创新服务平台

隆重推出 OpenVINO™ 2024.3: 增强的多头注意力、OneDNN 及vLLM集成显著提升LLM性能

openlab_96bf3613 更新于 1年前

我们很高兴地宣布，OpenVINO™ 2024.3 现已正式推出！本次更新带来了新的功能并对现有功能进行了增强，尤其是大型语言模型（LLM）的性能。我们将介绍此版本中的关键改进，更完整的列表，请参阅发行说明.

Hugging Face上的模型专区

Hugging Face 作为发现和获取 AI 模型的首选平台，越来越受欢迎。您现在可以在Hugging Face上找到一系列OpenVINO的预优化模型，从而能够更轻松地访问和快速运行模型。这里面包括了 Phi-3、Mistral、Mixtral、LCM Dreamshaper、starcoder2 等模型在不同精度下的模型。对于该专区中的所有模型，请参阅 Hugging Face。在模型卡中，您可以找到有关每个模型的更多信息，包括描述以及如何使用 Optimum-Intel 或 OpenVINO GenAI 软件包运行模型推理。这一新增功能旨在增强 AI 模型的可访问性，并加速模型的集成和部署。

性能提升

改进了 Intel 独立显卡上的 LLM 性能

英特尔®的独立显卡系列为计算密集型 AI 任务提供加速处理能力。在此次新版本中，我们旨在增强独立显卡上 LLM 和其他模型的性能。与今年的第一个版本 2024.1 相比，此版本的第一个token延迟在 Intel® Arc™ 独立显卡上的性能提升在 1.9 倍到 6.8 倍之间。对于第 2 个token的吞吐量性能，与今年的第一个版本相比，Intel® Arc™ 独立显卡的性能提升了 2 到 2.9 倍。这些改进是通过多头注意力（MHA）和 OneDNN 增强功能的优化实现的。此版本中独立显卡上的其它模型性能改进包括 Stable Diffusion 和 Whisper 模型。特别是对于Stable Diffusion模型，与上一版本相比，图像生成时间的性能提高了 1.1 倍到 1.6 倍。

第 2 个token延迟。每秒token数。越高越好。

ChatGLM2-6B, Llama-2-7b-chat 以及 Mistral-7b-v0.1 : 第二个token延迟（以每秒token数表示）. 输入分词数: 1024 | 输出分词数: 128 | 波束搜索: 1 | 批量大小: 1, 精度: INT4

Falcon-7b-instruct - Metric: 第二个token延迟（以每秒token数表示）输入分词数: 32 | 输出分词数: 128 | 波束搜索: 1 | 批量大小: 1, 精度: INT4

有关更多测试和系统配置详细信息，请访问:: https://edc.intel.com/content/www/us/en/products/performance/benchmark***obile_1/

性能因用途、配置和其他因素而有所不同。更多信息请访问 intel.com/PerformanceIndex。性能结果基于配置所示截止日期的测试，可能并未反映所有公开可用的更新。

改进了提供 LLM 模型服务时的 CPU 性能

vLLM是一个用于 LLM 推理和模型服务的开源库，自推出以来，凭借其创新技术在 AI 社区中获得了关注，以增强 LLM 推理性能和内存效率。在此版本中，OpenVINO 现在与 vLLM 以及连续批处理集成，从而在为 LLM 提供模型服务时提高了 CPU 性能。 OpenVINO 利用全连接层优化的 vLLM 技术，融合多个全连接层（MLP）、U8 KV 缓存和动态拆分融合，所有这些都协同工作，以提高推理速度并减少内存使用。例如，在专注于最大化吞吐量的方案中，当批量较大时，全连接层的计算要求可能会匹配或超过内存边界。在这些情况下，融合多个全连接层（MLP）可以更有效地使用内存带宽，并增加每次内存访问执行的计算数量。您可以在 vLLM 中使用 OpenVINO 模型服务器（OVMS）或 OpenVINO 后端来利用这些新功能。查看 OVMS 示例，对于作为 vLLM 后端的 OpenVINO，请参阅安装指南。

结论

一如既往，我们重视您的反馈和贡献，以帮助不断改进 OpenVINO。在每次发布中，我们都期待看到您使用 OpenVINO 以新的和创造性的方式推进您的 AI 计划。谢谢！

其它资源

Edge AI 参考套件

OpenVINO™ 模型服务器 GitHub 仓库

OpenVINO 文档

Jupyter Notebooks

安装和设置

产品页面

Notices & Disclaimers

Intel technologie***ay require enabled hardware, software, or service activation.

No product or component can be absolutely secure.

Your costs and result***ay vary.

0个评论

提交

隆重推出 OpenVINO™ 2024.3: 增强的多头注意力、OneDNN 及vLLM集成显著提升LLM性能

用户登录还没账户？去注册

新用户注册已有账户，立即登录

重置密码

提示

提示

公告栏