虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

小红书开源多模态大模型dots.vlm1,视觉理解与推理能力接近顶尖水平

2025-08-07来源:ITBEAR编辑:瑞雪

小红书,这家以“种草”文化著称的社交平台,近期在AI技术自研领域迈出了重要步伐,连续两个月内发布了三款开源模型,引起了业界的广泛关注。最新亮相的多模态大模型dots.vlm1,凭借其强大的视觉理解和推理能力,展现了接近Gemini 2.5 Pro闭源模型的实力。

在竞争激烈的AI领域,各大科技公司纷纷推出自家模型,OpenAI的Claude升级至4.1版本,谷歌则推出了用于生成游戏世界的Genie 3,引发社区热议。国产模型也不甘示弱,HuggingFace平台上的前十名开源模型中,已有多个来自国内团队。然而,仔细观察这些排名靠前的模型,不难发现,大多数仍为文本模型,缺乏多模态能力。

小红书的人文智能实验室(Humane Intelligence Lab,简称hi lab)近日低调开源了其首个多模态大模型dots.vlm1,为视觉语言模型(VLM)领域带来了新气象。这款模型基于小红书自研的12亿参数NaViT视觉编码器和DeepSeek V3大语言模型构建,不仅在视觉理解和推理任务上表现出色,还保持了纯文本任务中的竞争力。

hi lab此前开源的dots.ocr文档解析模型已在Huggingface平台上获得热榜第七的好成绩,尽管其基础模型参数仅为17亿,但性能却达到了业界领先水平。这一成就显示了hi lab团队在AI技术自研方面的认真态度和强大实力。

dots.vlm1在多个视觉评测集上的表现接近当前领先的Gemini 2.5 Pro与Seed-VL1.5 Thinking模型,显示出强大的图文理解与推理能力。在文本推理任务上,dots.vlm1的表现与DeepSeek-R1-0528相当,尽管在数学和代码能力上已具备一定的通用性,但在更多样化的推理任务上仍有提升空间。

在实际测试中,dots.vlm1展现了令人惊艳的能力。面对复杂图表和数独问题,模型能够逐步分析并给出正确答案,甚至在长时间思考过程中出现了类似DeepSeek的“啊哈时刻”,体现了其真正的思考和推理能力。dots.vlm1还能解决红绿色盲数字问题,进行数学计算,甚至模仿李白诗风创作诗词,展现了其全面的多模态能力。

dots.vlm1的技术架构由三个核心组件构成:全自研的NaViT视觉编码器、轻量级的MLP适配器以及DeepSeek V3 MoE大语言模型。这一架构通过三阶段流程进行训练,包括视觉编码器预训练、VLM预训练和VLM后训练,旨在提升模型对多样视觉数据的感知能力和泛化能力。

NaViT视觉编码器是dots.vlm1的核心之一,它完全从零开始训练,原生支持动态分辨率,专为视觉语言模型设计。通过两阶段的训练策略,NaViT编码器在基础视觉和语义感知以及高分辨率输入处理方面均表现出色。

在预训练数据方面,hi lab为dots.vlm1准备了跨模态互译数据和跨模态融合数据两大类别,旨在构建一个全谱系的数据分布,覆盖所有可被人类理解且可转化为离散token序列的视觉信息。这些数据包括普通图像、复杂图表、OCR场景图像、视频帧以及Grounding监督数据等,为模型的多模态能力提供了有力支持。

小红书之所以在AI大模型领域加大自研力度,是因为多模态能力已成为通向通用人工智能(AGI)的必经之路。通过模拟人类利用多种感官综合感知世界的方式,多模态AI能够形成更全面、细致的理解,对复杂场景作出更整体化的判断。在自动驾驶、具身智能等领域,VLM正成为机器人理解和融入人类社会的重要工具。

小红书hi lab在AI技术自研上的决心和投入不仅体现在dots.vlm1上,还体现在其不断壮大的dots模型家族中。从dots.llm1到dots.ocr再到dots.vlm1,小红书正逐步构建起自己的AI技术生态。未来,随着AI技术的不断发展,小红书有望在内容理解、个性化推荐以及社区交互等方面实现更多创新应用。

小米再拓欧洲版图:巴黎首家直营门店即将开业 开启法国市场新篇章
近日,小米法国副国家经理“产品逸飞”发文官宣,小米将在巴黎开设首家直营门店。针对网友提问“之前不是在香街有一个吗?”,他进一步回应称,该店为客户运营的授权店,后因疫情因素暂时退出市场。 此前,小米集团总裁卢…

2025-11-15

华为Mate80 Pro Max来袭:自研双长焦加持,配置拉满对标苹果小米!
并且一直在曝光的Mate80系列具体机型也得到了最终确认,首先是依然有4款机型全名华为Mate80 ProMax,这也是继苹果小米之后,又一款Pro Max顶级旗舰。接下来直到发布前,华为Mate80系列还…

2025-11-15

TCL华星全球显示生态大会:四款新品亮相,AI赋能制造,印刷OLED节能显著
智东西11月14日苏州现场报道,今天上午,国内显示产业头部玩家TCL华星召开了自家一年一度的全球显示生态大会(DTC2025),发布了覆盖LCD、OLED和MLED等技术领域的多款旗舰新品,以及《视觉健康白…

2025-11-15

华为Mate 80系列新料:20GB国产内存搭配麒麟9030 配置亮点多
根据近期华为新机规划以及各方爆料,这款机型预计为华为 Mate 80 系列,有爆料称该系列新品将在 11 月 25 日发布。其中,ProMax 并非简单的名称更换,而是定位与 Pro 版差距更大的新增机型…

2025-11-14

全RGB排列屏幕成新趋势,vivo新机或搭载,小米17 Pro Max已率先应用
据CNMO了解,近期发布的小米17 ProMax就搭载了全RGB排列屏幕。凭借超级像素技术,其子像素总数高达938万,与传统2K屏约920万的子像素数量基本持平。 小米总裁卢伟冰曾表示,在友商同级产品纷纷…

2025-11-14

小米斩获国际大奖,OPPO新机参数曝光,荣耀500系列真机设计吸睛
官方放出了荣耀500系列真机的渲染视频,从视频中可以看出荣耀500系列外观设计非常有特点,大家都说像iPhoneAir,甚至有人讲荣耀提前发布“iPhone Air 2”。另外行业信息显示荣耀500全系是…

2025-11-13

iPhone 17系列线上线下热销,苹果2025年有喜有忧未来可期
在此情况下,原本不被看好的苹果 iPhone 17 系列成为一匹黑马,上市后销售极为火爆,尤其是中国市场的表现远超预期:首发 10天销量同比增长 14%,第三季度出货量达 1010 万台,成为头部厂商中唯…

2025-11-13

iPhone16Pro升级iOS26.2beta2实测:续航提升,发热改善,流畅与信号双飞跃
苹果今天凌晨突然发布了iOS26.2第二个预览版,有很多凌晨熬夜更新的小伙伴表示优化非常好,各方面体验要比第一版更好用,也获得了不少老果粉们的认可,那么最适合更新iOS26.2beta2的是哪款机型呢?下面就…

2025-11-13

大疆新品亮点频现:Avata 360无人机配旋转云台,Osmo Action 6相机可变光圈
在镜头和视频规格方面,Action 6 将配备全新的 F2.0-F4.0 可变光圈镜头,等效焦距为 16mm;支持录制带有 HDR 和ProRes 编码的 8K / 30fps 视频,还支持 5.3K /…

2025-11-13

原DeepSeek核心成员罗福莉加盟小米MiMo团队 疑聚焦世界模型与具身智能领域
智东西11月12日消息,今天上午,原DeepSeek核心成员、被业内称为“天才少女”的罗福莉在朋友圈正式官宣加盟XiaomiMiMo团队,并宣告“全力奔赴心中的AGI(通用人工智能)”。 罗福莉一条简单的…

2025-11-13