阿里Qwen3.5-Omni全模态大模型来袭！实测50分钟视频，解锁“用嘴编程”新技能-智能汽车-虎科技

阿里巴巴近日正式发布新一代全模态大模型Qwen3.5-Omni，标志着多模态人工智能技术迈入新阶段。该模型突破传统单一模态限制，支持文本、图像、音频及音视频的混合输入与输出，其中音频输出与文本输出可同步生成，为智能交互领域带来全新可能。

技术团队披露，Qwen3.5-Omni系列包含Plus、Flash、Light三种规格模型，最大支持256k长上下文处理能力。在音频处理方面，该模型可连续解析超过10小时的语音内容，音视频输入时长扩展至400秒（720P分辨率，1帧/秒）。经实测验证，模型在215项多模态任务中刷新多项最佳纪录，其音频理解、推理及翻译能力已超越Gemini-3.1 Pro，音视频综合处理水平与之持平。

该模型最引人注目的创新在于"视听编程"能力。在演示场景中，用户通过手机摄像头拍摄手绘草图并语音描述需求，模型即可实时生成对应的前端代码。当测试团队上传50分钟美剧《老友记》时，系统在1分钟内完成全片解析，不仅精准标注时间轴与人物关系，还能识别关键剧情转折点。更令人惊叹的是，模型可根据游戏直播画面自动检测违规内容，展现出色的多模态内容审核能力。

方言支持成为另一大亮点。模型现已兼容39种中国方言与74种外语的语音识别，可合成7种方言及29种语言的语音输出。在闽南语对话测试中，系统准确理解方言语义并生成地道语音回应，仅在极少数专业词汇上自动切换普通话。配合实时网络搜索功能，模型甚至能主动提供当日天气等动态信息，整个交互过程延迟控制在1-2秒。

交互体验实现质的飞跃。新模型引入语义打断机制，允许用户在系统"说话"时随时插入新指令，模型可智能区分有效指令与背景噪音。通过整合端到端语音控制技术，用户能直接调节输出语音的音量、语速甚至情绪表达。更突破性的是音色克隆功能，用户上传30秒语音样本后，模型即可复现该音色并完成多语言转换，在交替传译场景中实现声纹保持。

技术架构方面，Qwen3.5-Omni延续Thinker-Talker分工模式但进行全面升级。Thinker模块采用混合注意力MoE架构，通过TMRoPE编码技术实现长序列高效处理；Talker模块引入RVQ编码替代传统DiT运算，配合ARIA自适应对齐技术，使语音合成稳定性提升40%。经基准测试，新模型在长音频处理效率较前代提升3倍，音视频理解任务响应速度加快2.5倍。

该模型已开放API调用服务，支持离线与实时两种模式。定价体系采用阶梯计费，128k以下输入场景中，音频处理价格为4.96元/百万tokens，文本/图像/视频输入为0.8元/百万tokens。输出端文本+音频综合价格为61.322元/百万tokens，纯文本输出降至9.6元/百万tokens。开发者可通过阿里云百炼平台、魔搭社区及Hugging Face等渠道体验模型能力。

小米18系列磁吸镜头与卡扣式增距镜测试中或于9月及12月分批亮相

【CNMO科技消息】4月1日，数码博主“智慧皮卡丘”发文称，小米18系列磁吸镜头及卡扣式增距镜正在进行测试。据数码闲聊站今年2月爆料，小米磁吸镜头方案已启动量产计划，最快年内面市。小米同时推进磁吸镜头与增距…

2026-04-01

台积电2nm制程工艺量产，苹果等巨头提前预订，产能已排至2028年

2026-04-01

原特斯拉中国区核心高管孔艳双入职小米助力小米汽车销售冲刺交付目标

2026-04-01

华为WATCH Buds2重磅登场：创新弹盖设计三配色可选无线超充加持

快科技4月1日消息，华为旗下经典的手表耳机二合一产品迎来全新升级，根据最新爆料，华为WATCH Buds2将于4月正式上市。数码博主“看山叔”爆料称，这款代号为Libra的新品完成了多维度升级，不仅耳机部分…

2026-04-01

华为2025年营收稳健增长至8809亿：研发高投入筑基，鸿蒙与智能汽车双轮驱动

公司表示，2025年在联接、计算、终端、云及智能汽车等领域持续推进业务发展，其中计算产业把握人工智能机遇，终端业务在鸿蒙生态方面实现关键突破，智能汽车解决方案业务进入加速发展阶段。在高研发投入支撑下，公司正…

2026-04-01

鸿蒙生态新突破！华为双新机携黑科技，让手机流畅体验再升级

华为Mate 80 Pro Max 风驰版搭载的HyperSpaceMemory超空间内存技术，是一项系统+硬件+生态联合创新的黑科技。随着鸿蒙操作系统 6在更多设备上全面铺开，超空间内存与超丝滑方舟引擎…

2026-04-01