OpenVINO™ 2026.2: 更多模型,更快 GPU,更强智能体

openlab_96bf3613 更新于 11小时前

作者:武卓

OpenVINO™ 2026.2 正式发布。AI 的浪潮从未停下脚步,我们也同样持续向前。

本次发布带来了更广泛的模型支持、进一步优化的 GPU 能力,可降低模型加载时间与内存占用,并对 OpenVINO™ 模型服务器(OpenVINO™ Model Server) 进行了更新。每一次版本迭代,都是为了让 AI 部署在英特尔硬件上变得更快、更高效、更易用。

无论你正在优化多模态流水线、通过 Model Server 扩展推理服务,还是探索最新模型,OpenVINO™ 2026.2 都能为你的开发工作带来新的助力。下面,让我们一起看看本次版本有哪些亮点。

面向更多应用场景的新模型支持

本次新版本带来了覆盖计算机视觉、代码生成和语言处理等领域的广泛新模型支持。

来自Google DeepMind的Gemma 4 E2B and E4B模型,是 Gemma 4 架构的高效变体,专为资源受限环境而设计,同时保留了 Gemma 系列标志性的多模态能力。E2B(20 亿参数)和 E4B(40 亿参数)模型让开发者可以根据性能与计算资源需求灵活选择合适的平衡点,非常适合部署在内存和算力有限、但仍需要高质量推理能力的边缘场景中。

在 CPU 以及GPU上新增的模型支持:

Qwen-3-Coder-Next 是阿里巴巴推出的代码智能体模型,基于混合 MoE 架构构建,在总计 800 亿参数中仅激活 30 亿参数。它能够以更低的推理成本,提供具有竞争力的代码生成性能。

Qwen3.5 和 Qwen3.6 延续了阿里巴巴 Qwen 系列的快速扩展。Qwen3.5 聚焦智能体工作流,并具备原生多模态能力;Qwen3.6 则专注于代码生成和智能体任务,在工作流、推理能力方面进一步提升,并新增了思考过程保留功能。

Trinity-mini 兼具强大的推理能力与高效的推理性能,适用于从企业级应用到科研工作负载等多种场景。

来自 Liquid AI 的 LFM2-24B-A2B、LFM2-8B-A1B 和 LFM2.5-350M 是面向边缘优先场景设计的混合基础模型,具备快速推理和低内存占用的特点。这些不同参数规模的变体可以匹配不同的部署需求,同时保留高效架构,使 LFM2 非常适合资源敏感型环境。

在 CPU上新增的模型支持:

YOLO26 是 Ultralytics 推出的最新模型,支持目标检测、实例分割、姿态估计等任务,面向边缘环境打造,适用于机器人、工业自动化等应用场景。

在 GPU上新增的模型支持:

Gemma 4(31B 和 26B-A4B)代表了 Google DeepMind Gemma 4 架构中更大规模的变体,为高要求应用提供更强能力。31B 模型具备强大的推理与生成能力,而 26B-A4B 变体则通过优化参数分配,在性能与效率之间取得更好的平衡。

GPT-OSS 120B 在本次新版本中将推理扩展到支持 GPU上运行。120B 模型可为最具挑战性的应用场景提供大规模语言模型推理能力。

进一步释放 GPU 性能

本次发布对模型在 GPU 上的运行方式进行了改进,重点提升内存效率,并减少影响真实 AI 部署速度的瓶颈。

GPU 现已支持 INT4 KV Cache 压缩。当 KV Cache 规模较大时,例如输入提示词超过 32K tokens 的长上下文场景,该能力可以显著降低内存占用。通过将推理过程中使用的 KV Cache 压缩到 INT4 精度,开发者可以更轻松地运行更大的模型,或处理更长的上下文,而不容易受到内存限制的影响。

在 OpenVINO™ GenAI 中,使用缓存 blob 时,GPU 上的模型加载时间也得到了显著优化。在多阶段 AI 流水线中,加载多个模型的开销可能成为主要瓶颈之一,尤其是在智能体工作流中,多个模型往往需要按顺序初始化。该改进意味着流水线可以更快运行,让应用保持更好的响应性,而不是长时间等待模型初始化。

作为预览功能,我们还通过按通道 INT8 KV Cache 量化增强了 CPU 和 GPU 上的 XAttention 精度。相比按 token 的 INT8 KV Cache 量化,该方式在启用 XAttention 时可与未启用 XAttention 时默认的按通道 INT8 KV Cache 量化保持一致。这一改进确保了不同 XAttention 配置下的精度表现更加统一,同时保留 XAttention 的核心优势,即降低首个 token 生成延迟。

OpenVINO™模型服务器( OpenVINO™ Model Server) 更新

OpenVINO™ 模型服务器(OVMS)在本次新版本中继续扩充对智能体以及实时AI应用场景的支持。

工具调用支持现已扩展到 Qwen 3.5 和 Qwen 3.6 模型,使其可用于构建智能体应用。工具调用让模型不只是生成文本,还能够执行操作、查询外部系统,并进行多步骤推理。支持更多模型,意味着开发者在构建具备智能体能力的不同应用场景时,可以拥有更多选择和更高灵活性。

语音转文本现已新增流式转录支持,可降低实时语音应用的延迟。它不再需要等待整段音频处理完成后才返回结果,而是可以在结果生成时持续输出,从而支持实时字幕、对话式 AI 等对响应速度要求很高的应用场景。

小结

OpenVINO™ 2026.2的发布带来了更广泛的模型覆盖、更智能的 GPU 执行能力,以及面向智能体和语音应用的 OVMS 更新。随着 AI 应用通过多模型流水线变得日益复杂,并对实时性能与资源效率提出更高要求,本次发布进一步增强了 OpenVINO 应对这些需求的能力。

想进一步了解 OpenVINO?欢迎参加我们本年度的多场OpenVINO DevCon中国系列工作坊活动。点击链接,了解更多信息并进行注册:OpenVINO™ DEVCON 中国 系列工作坊2026


声明与免责声明

*其他名称和品牌可能归其各自所有者所有。

性能因使用场景、配置及其他因素而异。更多信息请参阅 性能指标网站。

性能结果基于配置中所示日期的测试,可能未反映所有公开可用的更新。

任何产品或组件都无法做到绝对安全。

你的成本和结果可能会有所不同。

英特尔技术可能需要启用相应硬件、软件或服务激活。

© Intel Corporation。Intel、Intel 标识及其他 Intel 标志均为 Intel Corporation 或其子公司的商标。

0个评论