重磅发布 | OpenVINO™ 2025.2:全新模型支持、生成式 AI 流水线与性能全面升级

引言
新模型
想了解各类主流 AI 模型的性能基准测试,欢迎访问 OpenVINO™ Model Hub,对比它们在 Intel® CPU、集成 GPU、NPU 及加速器上的表现,帮助您选择最适合的 Intel 硬件平台。
通过 Stable Diffusion v3 notebook 生成的图像,提示词为:“一只被困在装满彩色糖果玻璃罐里的浣熊,背景是蒸汽缭绕的鲜艳色彩。”
OpenVINO™ GenAI 中的新流水线
文本转语音(Text-to-Speech)
用于 RAG 场景的文本嵌入(Text Embedding)
GitHub 上提供了这两条流水线的 C++ 和 Python 示例。以下为文本转语音流水线的 Python 代码,展示其如何轻松应用于语音生成任务:
import openvino_genai
pipe = openvino_genai.Text2SpeechPipeline(model_dir, device)
result = pipe.generate("Hello OpenVINO GenAI", speaker_embedding)
speech = result.speeches[0]
# speech tensor contains the waveform of the spoken phrase
OpenVINO™ 模型服务器端点与模型管理
另一项重要更新是:通过 OVMS CLI 进行 模型管理,可直接从 Hugging Face Hub 自动下载 OpenVINO™ 模型。这意味着您可以仅用一条命令部署生成式流水线,并在无需额外脚本或手动操作的前提下管理模型。
欢迎查看 GitHub 上的 OVMS 图像生成演示,展示如何从 Hugging Face Hub 拉取模型并运行。
性能改进
我们还宣布了对 LoRA 适配器的进一步性能优化,可在内置 GPU 上为各类大语言模型(LLMs)、视觉语言模型(VLMs)和文本生成图像模型提供更快的推理速度。这将帮助开发者以更低的延迟和资源开销,针对具体业务场景快速定制基础模型。此次优化得益于 融合内核(Fused Kernel)实现和运算节点内存依赖关系优化。融合内核可将多个 LoRA 操作合并为一个执行单元,减少内存带宽需求和内核调用开销;而内存依赖关系优化则通过更高效的数据结构和调度逻辑来管理操作节点之间的内存资源,尤其对不需从内存池分配资源的节点提升尤为明显。
总结
现在就下载 OpenVINO™ 2025.2 吧!欢迎于 7 月 23 日 参加我们的 OpenVINO™ DevCon 2025,了解更多关于 “与 Hugging Face 共创卓越 AI 工具体验” 的精彩内容!