虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

京东全球首开源全栈实时视频视觉语言交互模型JoyAI-VL-Interaction 赋能多场景AI助手

2026-06-22来源:快讯编辑:瑞雪

京东近日宣布正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction,并同步获得vLLM-Omni框架的day-0原生支持。这一突破性技术标志着大模型应用从传统的"问答式交互"向"主动感知型交互"迈出关键一步,开发者可基于该框架快速构建具备环境感知能力的智能助手。

该模型实现了三大核心技术创新:首先突破传统模型的被动响应模式,通过持续视频流分析实现自主决策,无需等待用户提问即可判断交互时机;其次在实时性方面取得突破,针对安防预警、实时翻译等场景,可在画面变化瞬间完成响应,彻底改变传统视频分析"事后处理"的局限;第三创新设计了智能体委托机制,当遇到复杂任务时,前台模型保持环境观察,后台模型同步处理代码生成、工具调用等任务,形成高效协作的"双脑"架构。

技术架构层面,该系统支持多模态输入输出,包括摄像头、直播流、监控视频等视频源,以及语音交互、可视化界面等交互方式。其模块化设计允许开发者自由替换ASR语音识别、TTS语音合成、后台模型等组件,甚至可接入自定义业务系统。这种高度灵活性使其既能用于学术研究,也可快速适配安防监控、老人看护、直播解说、电商导购等20余个垂直场景。

在真实场景测试中,该模型展现出显著优势。针对监控预警、实时计数、多语言翻译等58个流式交互场景的盲测显示,与豆包视频通话助手相比取得77.6%的胜率,较Gemini视频通话助手更达到87.9%的胜率。测试特别强化了视觉触发响应和实时性两个维度,验证了模型在动态环境中的可靠性和效率。

目前,京东已完整开源模型代码、训练框架及部署方案,并提供vLLM部署工具包。开发者可基于现有组件快速搭建个性化AI助手,例如将语音服务替换为科大讯飞方案,或接入自研的Agent系统。这种开放生态策略有望推动实时交互技术在更多领域的创新应用,特别是在需要人机协同的复杂场景中展现价值。

博主爆料:某子系小屏性能机或用骁龙8 Elite Gen6,网友猜测为一加16T
IT之家 6 月 22 日消息,博主 @数码闲聊站 今日透露,某子系小屏性能机目前正常开案中,评估骁龙 8 Elite Gen6 2nm旗舰芯,6.3 级别超高刷小直屏。评论区有网友推测为一加 16T。 目…

2026-06-22

Keychron V6 Ultra HE键盘来袭:机械轴与TMR磁轴双兼容 7月众筹将启
IT之家 6 月 22 日消息,Keychron(渴创)现已正式在其官网上线同时兼容机械轴与 TMR 磁轴的 V6 Ultra HE 键盘。这一全配列型号预计将于 7 月 22 日上架众筹平台 Kickst…

2026-06-22

高通SM8975应用处理器曝光:移动连接系统可选高配WCN8851与低配WCN8841
IT之家 6 月 21 日消息,X 平台用户 @Reptalicant 北京时间昨日爆料称,根据 Qualcomm(高通)今年 1月的文档,该企业代号 SM8975 的新一代旗舰智能手机应用处理器(可能会被…

2026-06-22

科大讯飞40亿定增调整:教育大模型扩至三城 算力平台添新力量
随着词元星火科技有限公司的加入,整个算力平台体系将更加完善,能够更好地支撑起未来复杂多变的人工智能应用场景。通过在全国范围内布局子公司的策略,可以有效贴近各个区域市场的实际需求;另一方面,则有助于加速教育大模…

2026-06-22

三星Galaxy S27系列来袭:基础版务实 S27 Ultra影像能效双突破
其中,Galaxy S27 Ultra作为旗舰核心,在影像系统、电池技术及整体形态上迎来了重大革新,旨在巩固三星在高端智能手机市场的竞争优势。Ultra型号凭借影像、电池及AI软件优化的全方位升级,意在重新定…

2026-06-21

荣耀MagicOS 11首推安卓液态玻璃设计 动态光影流转带来沉浸视觉新体验
快科技6月20日消息,日前,荣耀公布MagicOS 11全新设计,带来安卓首个液态玻璃设计,并首创动态全屏通透设计。 荣耀还将通透带到了应用中,例如,在图库界面滑动时,导航栏会映射环境色,模拟真实的光影流动;…

2026-06-21