OpenVINO™ 2025.2新版本:英特尔® XMX 图形处理器优化提升GPU性能,KV缓存压缩节省CPU使用

Hi all,
我们的记录显示,您之前从英特尔下载了 OpenVINO™ AI 推理软件。我们很高兴的分享给您,OpenVINO™工具套件的新版本现已可用,您可以进行升级。
在此版本中,您将看到通过 OpenVINOLLM 持续提升 LLM 的性能,以支持生成式 AI 负载。
主要亮点
更多生成式人工智能(Gen AI)的支持和框架集成,最大程度地减少代码更改
在 CPU 及 GPU 上支持的新模型:Phi-4, Mistral-7B-Instruct-v0.3, SD-XL Inpainting
0.1, Stable Diffusion 3.5 Large Turbo, Phi-4-reasoning, Qwen3 and Qwen2.5-VL-3B-Instruct。 Mistral 7B Instruct v0.3 在 NPU 上也已支持。
预览支持:OpenVINO™ GenAI 新增对 SpeechT5 文本转语音(TTS)模型的推理支持,同时推出全新的 RAG
后端,为开发者提供简化的 API,显著降低内存占用并提升性能。
预览支持: OpenVINO™ GenAI 提供了 GGUF 模型读取器,可无缝集成基于 llama.cpp
的大语言模型(LLM)。支持使用 Python 和 C++ 构建推理流程,加载 GGUF 模型、构建 OpenVINO™ 计算图,并在GPU上实现即时推理。目前已完成对主流模型的验证,包括:DeepSeek-R1-Distill-Qwen(1.5B、7B)、Qwen2.5Instruct(1.5B、3B、7B)以及 llama-3.2 Instruct(1B、3B、8B)。
更广泛的 LLM 模型支持和更多的模型压缩技术
OpenVINO™ GenAI 的 LoRA适配器的进一步优化在集成显卡上带来改进的大语言模型、视觉语言模型以及文生图模型性能。开发者可以使用 LoRA适配器可快速定制模型以应对特定任务。
对于 INT8 精度,CPU 的 KV 缓存压缩已默认启用,提供更低的内存占用,同时在精度上保持与 FP16 相当的水平。除此之外,相比于INT8,它在支持 INT4 的大语言模型中可显著节省内存。
使用英特尔 ® XMX 脉动式平台优化英特尔 ® 酷睿™ Ultra 2 系列处理器集成显卡以及英特尔 ® Arc™ B
系列显卡的视觉语言模型以及混合量化图片生成模型性能,同时通过动态量化降低大语言模型首 token 延迟。
在云、边缘和本地设备上运行 AI 时,具有更强的可移植性和性能
增强的 Linux* 支持,配合最新 GPU 驱动,适用于英特尔 ® 酷睿™ Ultra 2 系列处理器内置 GPU(之前代号 ArrowLake H)的 Linux * 支持。
OpenVINO™ 模型服务器现已推出适用于 Windows 的精简版 C++版本,通过前缀缓存机制提升长上下文模型的性能,并提供更小巧的安装包,无需依赖 Python。同时,现已支持 Hugging Face模型。
在神经网络压缩框架(NNCF)中实现了对 ONNX 模型的 INT4 无数据权重量化压缩支持通过对称量化和通道级量化,OpenVINO™ 现已支持在 Intel® Core™ 200V 系列处理器的 NPU 上运行采用FP16-NF4 精度的模型(参数规模最高可达 80 亿),在保持高性能的同时提升了推理精度。
Important links:
Release Notes
Jupyter Notebooks
System Requirements
Documentation