秒级克隆,“声”而不凡!使用 OpenVINO™ 玩转 Qwen3-TTS 语音合成
作者:杨亦诚引言继语音识别(ASR)之后,阿里巴巴通义团队再次发力,推出了全新的 Qwen3-TTS 系列模型。这不仅是一个高质量的文本转语音工具,更是一个支持 10 种全球语言、具备“语音合成”与“情感适配”能力的声学引擎。基于离散多码本 LM 架构,Qwen3-TTS 绕过了传统架构的性能瓶颈,实现了真正意义上的端到端语音建模。本文将带你深度体验如何利用 Intel® OpenVINO™ 工具
openlab_96bf3613
1月前
语音识别新标杆!OpenVINO™ 加速部署 Qwen3-ASR 实战
作者:杨亦诚 近日,通义千问团队正式发布了 Qwen3-ASR 系列模型,包含 1.7B 和 0.6B 两个版本。作为 Qwen 语音家族的最新成员,它在多语言识别和处理复杂声学环境方面展现了卓越的性能。 模型特性 All-in-one(全能型):支持52 种语言和方言的语种识别(LID)与自动语音识别(ASR),包括 30 种语言、22 种中国方言以及来自多个国家和地区的英语口音。 Excell
openlab_96bf3613
1月前
在 AI PC 上本地微调 LLM:不用独显,也能把 Llama 3.2 训练成“会调用工具”的模型
作者: 武卓,胡誉文什么是 AI PC?为什么它适合做本地微调AI PC(AI 个人电脑)正在把“推理 + 微调”从云端带回本地:它通常具备更强的端侧算力组合(CPU / iGPU / NPU 等),让开发者可以在不依赖昂贵独立显卡、甚至不必上云的情况下,通过 LoRA 等参数高效方法,完成SFT (Supervised Fine-Tuning)这类微调任务。对开发者来说,AI PC 最大的价值
openlab_96bf3613
1月前
表格、公式、印章识别太难?OpenVINO™ Day 0 支持 PaddleOCR-VL-1.5:端侧文档解析一键 SOTA
作者:武卓 文档解析远不止“把字读出来”:真正难点是读懂复杂版面——表格要保结构、公式要保排版、图表要提信息,连印章这类弧形字在屏拍/倾斜/弯折时都很容易失真。今天发布的PaddleOCR-VL-1.5 正是为此而来:仅 0.9B 参数就在权威评测集 OmniDocBench v1.5 取得 94.5% 高精度,超越全球顶尖通用大模型与文档解析专用模型,登顶 SOTA;在自建 Real5-Omni
openlab_96bf3613
1月前
让你的 AIPC “能听会说”: Fun-ASRNano × Fun-CosyVoice 3.0 全链路加速实战
作者:杨亦诚,纪书杰,周涛,任而今引言如果你希望让自己的 AIPC 能像真人一样又能听、又能说,那么 Fun-ASR-Nano 和 FunCosyVoice 3.0 是非常值得关注的两款模型,轻量化的设计,使他们能同时兼顾性能和效果,并可根据用户习惯持续Finetune优化,非常适合在端侧设备进行部署。Fun-ASR-Nano 是通义实验室打造的端到端语音识别模型,训练数据量级达到数千万小时,能理
openlab_96bf3613
1月前
