虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

智谱AI开源GLM-4.5V视觉推理模型,41项多模态基准测试获SOTA性能

2025-08-12来源:ITBEAR编辑:瑞雪

智谱AI近期震撼发布了其最新一代的视觉推理模型GLM-4.5V,并慷慨地选择将此模型在GitHub、Hugging Face及魔搭社区上以MIT开源协议进行共享,此举不仅展现了其对技术开放的承诺,也为商业应用提供了无限可能。

GLM-4.5V,作为一个拥有庞大参数的VLM(视觉-语言模型),其总参数高达1,060亿,激活参数亦有120亿。该模型是在智谱AI的旗舰文本模型GLM-4.5-Air的基础上精心打造,并继承了GLM-4.1V-Thinking的技术精髓。值得注意的是,GLM-4.5V在41项公开的多模态基准测试中,均取得了同级别开源模型中的顶尖表现。

技术层面,GLM-4.5V由三大核心组件构成:视觉编码器、MLP适配器以及语言解码器。通过引入创新的三维旋转位置编码(3D-RoPE),模型对三维空间关系的理解及推理能力得到了显著提升。它能够处理包含64K tokens的多模态长上下文输入,并利用三维卷积技术,显著优化了视频处理效率。这一设计让GLM-4.5V不仅能处理静态图像,还能深入解析视频内容,对高分辨率及极端宽高比的图像同样展现出强大的处理能力和稳定性。

为了全面增强GLM-4.5V的多模态能力,智谱AI在模型训练的每个阶段都实施了精细的优化策略。预训练阶段,模型在庞大的图文交错多模态语料及长上下文内容的滋养下,建立了对复杂图文和视频内容的坚实基础。随后,在监督微调阶段,通过引入“思维链”格式的显式训练样本,进一步加深了模型的因果推理和多模态理解能力。最终,在强化学习阶段,借助多领域奖励系统,结合可验证奖励强化学习(RLVR)与人类反馈强化学习(RLHF),模型在STEM问题、多模态定位及智能体任务等多个领域均实现了显著提升。

GLM-4.5V的实际表现同样令人瞩目。在图像推理方面,它能够进行复杂的场景解析和多图综合判断。例如,它能根据用户的自然语言指令,准确识别图像中的目标物体,并标注出精确的位置坐标。更令人惊叹的是,它还能通过分析图像中的微小线索,如植被类型、气候痕迹及建筑风格,推断出照片的拍摄地点及大致地理位置,这一能力甚至超越了许多专业工具。

在复杂文档理解领域,GLM-4.5V同样展现出了卓越的能力。它能够处理包含大量图表的长文本,同步理解文字与图像信息,从而准确地进行内容总结、翻译及图表信息提取,有效避免了传统方法中可能出现的错误传递问题。针对前端开发及用户界面交互任务,GLM-4.5V还提供了“前端复刻”功能,通过分析网页截图或交互视频,能够生成相应的HTML、CSS及Javascript代码,完美复刻网页的布局、样式及交互逻辑。

GLM-4.5V的GUI Agent能力同样值得称道,它能够识别和处理电子屏幕画面,执行对话问答、图标定位等任务,为开发桌面环境智能体应用奠定了坚实基础。智谱AI还同步开源了一款桌面助手应用,该应用能够实时捕获屏幕信息,依托GLM-4.5V处理多种视觉推理任务,涵盖代码辅助、视频内容分析、游戏解答及文档解读等多个领域。

大疆DJI Osmo Action 6首发体验:画质续航双飞跃,户外拍摄新神器
这里我展开讲解一下,由于Action6是方形CMOS这意味着它在正常16:9和4:3情况下像素是无法覆盖整个CMOS,但在二级菜单中我们能找到自由裁切模式,开启该模式后,Action 6的拍摄页面就会变成一…

2025-11-14

W45周手机销量榜:苹果蝉联五周冠军,小米稳居国产首位,vivo紧随其后
每到周五可能大家都在等行业人士给出的最新一周国内智能手机领域排行榜,因为从周榜就可以分析出各品牌目前在国内生存状况。数据显示苹果还是国内排名第一的品牌,不过市场份额又滑落了一个百分点,这已经是苹果连续五周国内…

2025-11-14

小米潘九堂发声:雷军遭误解成“机会主义者” 真实形象亲民又勤奋
潘九堂在发文的同时,还转发了一位博主的相关消息。据CNMO了解,今年3月,雷军在个人社交媒体发布动态,晒出一张此前小米发布会上的照片,并配文:“当我站在舞台上,听到掌声响起来,都会想起那首熟悉的旋律……”此动…

2025-11-14

高通跃龙IQ-X系列工业级PC处理器发布,为工业自动化注入AI新动力
高通跃龙 IQ-X 系列为工业自动化提供了 AI 基础设施,能够实现 AI模型移植,以及面向预测性维护、状态监测和缺陷检测等关键用例的应用开发。 该平台支持Qt、CODESYS等工业软件工具,通过高通AI软…

2025-11-14

vivo Y500 Pro即将开售:低中端定位,影像突出,11月14日全新登场
屏幕保持打孔直屏,大小控制在6.67英寸,作为旗舰级护眼屏,分辨率提升到1.5K(2800*1260像素),像素密度为460 PPI,刷新率为120Hz,触控采样率在不同场景蛙有所变化,最低为130Hz,最…

2025-11-14

iQOO新机屏幕升级再发力,多系列普及2K,小屏新品或将来袭
近日,博主@数码闲聊站的一份爆料中提到,“iQOO说了无2K不旗舰,接下来Neo系列和数字系列都「全面标配2K」,iQOO15那块三星屏也颇受好评,蓝厂明年应该也会和三星显示深度合作”。 也就是说,iQO…

2025-11-14

苹果iOS 26.2 beta2测试版来袭:动画回归,游戏排序升级,老设备升级需谨慎
11 月 13 日凌晨,苹果发布 iOS 26.2 beta2 测试版,同时苹果还发布了 iPadOS 26.2 beta2、watchOS26.2 beta2、tvOS 26.2 beta2、macOS …

2025-11-13

vivo S50系列12月将至:S50 Pro mini紧凑旗舰,S50配望远镜后摄
vivo S50系列,包括 vivo S50和S50 Pro mini 。预计将在12月发布。 vivo S50 Pro mini将是一款紧凑型旗舰手机,配备 6.31 英寸显示屏。 据传闻 它将配备高通骁…

2025-11-13

​小米巴黎再拓版图!首家直营小米之家即将盛大开业​
11月13日消息,日前,小米法国副国家经理“产品逸飞”微博发文称,“巴黎米家首店,即将见面。” 据了解,这家即将开业的小米之家为直营门店。 快科技注:2019年1月18日,小米法国旗舰店在香榭丽舍大街开业,这…

2025-11-13

GPT-5.1正式登场:从参数跑分到懂你交互,AI助手开启新未来
GPT-5.1 在风格化的另一大改进是,自定义指令现在能更可靠地,在多轮对话中坚持住,ChatGPT可以更稳定地,按照我们定义的个性来完成各项任务。 OpenAI 这次提供了后悔药,付费用户在 3 个月内…

2025-11-13