51OpenLab-一站式ICT创新服务平台

OpenVINO™ 2026.2: 更多模型，更快 GPU，更强智能体

openlab_96bf3613 更新于 2月前

作者：武卓

OpenVINO™ 2026.2 正式发布。AI 的浪潮从未停下脚步，我们也同样持续向前。

本次发布带来了更广泛的模型支持、进一步优化的 GPU 能力，可降低模型加载时间与内存占用，并对 OpenVINO™ 模型服务器（OpenVINO™ Model Server）进行了更新。每一次版本迭代，都是为了让 AI 部署在英特尔硬件上变得更快、更高效、更易用。

无论你正在优化多模态流水线、通过 Model Server 扩展推理服务，还是探索最新模型，OpenVINO™ 2026.2 都能为你的开发工作带来新的助力。下面，让我们一起看看本次版本有哪些亮点。

面向更多应用场景的新模型支持

本次新版本带来了覆盖计算机视觉、代码生成和语言处理等领域的广泛新模型支持。

来自Google DeepMind的Gemma 4 E2B and E4B模型，是 Gemma 4 架构的高效变体，专为资源受限环境而设计，同时保留了 Gemma 系列标志性的多模态能力。E2B（20 亿参数）和 E4B（40 亿参数）模型让开发者可以根据性能与计算资源需求灵活选择合适的平衡点，非常适合部署在内存和算力有限、但仍需要高质量推理能力的边缘场景中。

在 CPU 以及GPU上新增的模型支持:

Qwen-3-Coder-Next 是阿里巴巴推出的代码智能体模型，基于混合 MoE 架构构建，在总计 800 亿参数中仅激活 30 亿参数。它能够以更低的推理成本，提供具有竞争力的代码生成性能。

Qwen3.5 和 Qwen3.6 延续了阿里巴巴 Qwen 系列的快速扩展。Qwen3.5 聚焦智能体工作流，并具备原生多模态能力；Qwen3.6 则专注于代码生成和智能体任务，在工作流、推理能力方面进一步提升，并新增了思考过程保留功能。

Trinity-mini 兼具强大的推理能力与高效的推理性能，适用于从企业级应用到科研工作负载等多种场景。

来自 Liquid AI 的 LFM2-24B-A2B、LFM2-8B-A1B 和 LFM2.5-350M 是面向边缘优先场景设计的混合基础模型，具备快速推理和低内存占用的特点。这些不同参数规模的变体可以匹配不同的部署需求，同时保留高效架构，使 LFM2 非常适合资源敏感型环境。

在 CPU上新增的模型支持:

YOLO26 是 Ultralytics 推出的最新模型，支持目标检测、实例分割、姿态估计等任务，面向边缘环境打造，适用于机器人、工业自动化等应用场景。

在 GPU上新增的模型支持:

Gemma 4（31B 和 26B-A4B）代表了 Google DeepMind Gemma 4 架构中更大规模的变体，为高要求应用提供更强能力。31B 模型具备强大的推理与生成能力，而 26B-A4B 变体则通过优化参数分配，在性能与效率之间取得更好的平衡。

GPT-OSS 120B 在本次新版本中将推理扩展到支持 GPU上运行。120B 模型可为最具挑战性的应用场景提供大规模语言模型推理能力。

进一步释放 GPU 性能

本次发布对模型在 GPU 上的运行方式进行了改进，重点提升内存效率，并减少影响真实 AI 部署速度的瓶颈。

GPU 现已支持 INT4 KV Cache 压缩。当 KV Cache 规模较大时，例如输入提示词超过 32K tokens 的长上下文场景，该能力可以显著降低内存占用。通过将推理过程中使用的 KV Cache 压缩到 INT4 精度，开发者可以更轻松地运行更大的模型，或处理更长的上下文，而不容易受到内存限制的影响。

在 OpenVINO™ GenAI 中，使用缓存 blob 时，GPU 上的模型加载时间也得到了显著优化。在多阶段 AI 流水线中，加载多个模型的开销可能成为主要瓶颈之一，尤其是在智能体工作流中，多个模型往往需要按顺序初始化。该改进意味着流水线可以更快运行，让应用保持更好的响应性，而不是长时间等待模型初始化。

作为预览功能，我们还通过按通道 INT8 KV Cache 量化增强了 CPU 和 GPU 上的 XAttention 精度。相比按 token 的 INT8 KV Cache 量化，该方式在启用 XAttention 时可与未启用 XAttention 时默认的按通道 INT8 KV Cache 量化保持一致。这一改进确保了不同 XAttention 配置下的精度表现更加统一，同时保留 XAttention 的核心优势，即降低首个 token 生成延迟。

OpenVINO™模型服务器（ OpenVINO™ Model Server）更新

OpenVINO™ 模型服务器(OVMS)在本次新版本中继续扩充对智能体以及实时AI应用场景的支持。

工具调用支持现已扩展到 Qwen 3.5 和 Qwen 3.6 模型，使其可用于构建智能体应用。工具调用让模型不只是生成文本，还能够执行操作、查询外部系统，并进行多步骤推理。支持更多模型，意味着开发者在构建具备智能体能力的不同应用场景时，可以拥有更多选择和更高灵活性。

语音转文本现已新增流式转录支持，可降低实时语音应用的延迟。它不再需要等待整段音频处理完成后才返回结果，而是可以在结果生成时持续输出，从而支持实时字幕、对话式 AI 等对响应速度要求很高的应用场景。

小结

OpenVINO™ 2026.2的发布带来了更广泛的模型覆盖、更智能的 GPU 执行能力，以及面向智能体和语音应用的 OVMS 更新。随着 AI 应用通过多模型流水线变得日益复杂，并对实时性能与资源效率提出更高要求，本次发布进一步增强了 OpenVINO 应对这些需求的能力。

想进一步了解 OpenVINO？欢迎参加我们本年度的多场OpenVINO DevCon中国系列工作坊活动。点击链接，了解更多信息并进行注册：OpenVINO™ DEVCON 中国系列工作坊2026。

声明与免责声明
*其他名称和品牌可能归其各自所有者所有。
性能因使用场景、配置及其他因素而异。更多信息请参阅性能指标网站。
性能结果基于配置中所示日期的测试，可能未反映所有公开可用的更新。
任何产品或组件都无法做到绝对安全。
你的成本和结果可能会有所不同。
英特尔技术可能需要启用相应硬件、软件或服务激活。
© Intel Corporation。Intel、Intel 标识及其他 Intel 标志均为 Intel Corporation 或其子公司的商标。

0个评论

提交

OpenVINO™ 2026.2: 更多模型，更快 GPU，更强智能体

用户登录还没账户？去注册

新用户注册已有账户，立即登录

重置密码

提示

提示

公告栏