全球具身智能机器人领域正掀起一股新的创业浪潮,这一次,创业者的目光齐刷刷地投向了一个充满挑战与机遇的场景——家庭。近期,行业内一系列突破性进展为这一趋势添了一把火,Scaling Law的苗头初现,让创业者们看到了家庭机器人从概念走向现实的曙光。
硅谷的具身智能公司Generalist AI在GEN-1模型上取得了令人瞩目的成果。当他们为机器人输入海量数据后,机器人在精细操作任务上的成功率从64%飙升至99%。这一数据验证了通过大规模数据训练提升机器人性能的可行性,为家庭机器人的发展提供了重要的技术支撑。与此同时,硅谷另一家当红的具身智能独角兽公司Sunday Robotics也在积极布局家庭场景。他们推出了Umi手套数据采集方案,并直接将机器人Memo送进家庭,承担起收拾餐桌、冲咖啡、叠衣服等家务。这一创新举措吸引了大量资本的关注和押注,进一步推动了家庭机器人领域的发展。
在中国,一位熟悉的面孔也加入了家庭机器人创业的行列,他就是许华哲。作为“伯克利归国四子之一”和清华大学交叉信息研究院助理教授,许华哲在机器人领域有着深厚的学术背景和丰富的实践经验。2023年,他加入「星海图」担任首席科学家兼联合创始人,助力该公司成为中国具身智能领域的明星企业。然而,在公司估值突破200亿、融资近30亿的巅峰时刻,许华哲却选择离开,创办了全新的具身智能公司「破壳机器人」。他的目标很明确:打造能在家庭场景中工作的、真正具有泛化能力的具身智能机器人。
许华哲对家庭机器人的执着源于他年少时的梦想。初高中时期,他读完《乔布斯传》后,便立志要创办一家伟大的To C公司。在清华、伯克利、斯坦福的求学过程中,他一直深耕机器人强化学习方向,梦想着将机器人送入千家万户。他理想中的家庭机器人,虽非无所不能,但能完成上一代机器人无法完成的复杂任务,如更精细的清洁工作和有条理地完成洗衣收纳等长序列、多步骤任务。在他看来,这种创业方向的选择不仅带有强烈的审美追求,更蕴含着深远的影响力。泛化性的本质是用最简洁优雅的模型解决人类复杂的生活问题,将AI真正转化为生产力。
从商业角度来看,切入To C家庭场景也是许华哲的理性选择。他认为,当前大量机器人厂商将人形机器人送进工厂,完成传统机械臂就能胜任的工作,本质上是在用新的人形做旧时代的事情,机器人未能发挥出真正的通用性。而家庭场景任务比工厂场景更混乱随机,且数据丰富,是训练通用模型的最佳土壤。真正的AGI应该在家庭场景中诞生和运用。
为了追赶时机,「破壳机器人」在创业短短一个月内就完成了融资、核心团队组建、具身模型训练和硬件迭代等多项工作。据悉,该公司近期完成了数千万美元的天使轮融资,由云启资本领投,顺为资本、弘晖基金等一线美元基金,小米战投、星海图等知名产业方,以及BV百度风投、英诺天使基金、水木清华校友种子基金、东方嘉富等一线市场化基金纷纷支持。快速获得资本青睐,得益于许华哲在关键技术路线上的独特选择。
在关键技术路线方面,许华哲放弃了行业主流的VLA(视觉-语言-动作)基座模型方案,转而构建一种能直接输入和输出“视频-动作”的世界模型。在模型结构上,他提出了独特的“UAG架构”,用并联式预训练替代过去的瀑布式级联,并将强化学习贯穿预训练与部署全过程,实现了训练效率的五倍提升。在数据与硬件层面,他通过UMI、外骨骼和第一人称视角三层方案采集高质量数据,形成从任务定义到数据、模型、本体的闭环迭代。据许华哲透露,「破壳机器人」第一代32B参数规模的具身世界模型已完成首轮训练,正处于数据迭代的关键爬坡期。在硬件层面,为数据采集量身定制的手套硬件已迭代了五六个版本。
在接受采访时,许华哲分享了他离开「星海图」创立新公司的原因。他表示,内心一直渴望做一些To C的、真正泛化的通用机器人。虽然2023年加入星海图时也考虑过直接创业,但当时刚从美国回来,在叉院工作才一年左右,要兼顾教职和创业挑战很大。加入优秀团队做联创是更稳妥的选择,且星海图的宣传理念与他的部分想法吻合。如今,新公司虽成立仅一个月,但已有20人左右的团队,AI侧有天才少年,硬件侧有做过To C量产交付的工程师,目前还在火热招聘中。在技术上,AI模型在“动得快”“泛化强”“成功率高”三个维度有较好积累,能让机器人完成复杂任务时达到接近100%的成功率。
当被问及此次创业与第一次创业时心态的不同,许华哲表示,最大的不同是心态更踏实、更敢了。第一次创业前,他会担心自己没上过班、没做过生意、没跟投资人打过交道等问题。在星海图的两年,他接触了这些事,发现太多的顾虑没必要,出来混最重要是先出来,这次心理上更从容。
对于在2023年和2026年两个节点创业做家庭机器人的区别,许华哲认为区别挺大。首先是硬件本体,这三年中国的硬件供应链打磨得更好了,有了更多能用的机器人,2023年时可能只能用工业臂;第二是数据,2023年时机器人的数据几乎是0,现在网上开源数据就有几十万小时,还出现了大量的数据供应商,虽然数据质量和跨本体适配还是问题,但丰富度已不可同日而语;第三是融资和市场认知,2023年要做To C机器人可能很难融资,大家给的时间缓冲也更少,今天起步比2023年更好。
许华哲一直想做To C机器人,背后的触发点主要有三点。首先,他认为机器人最核心的不同在于通用性,通用性应用在越混乱、越需要通用能力的地方,答案就是家庭或广义的服务场景,通用的AGI应该用在家里。其次,从个人偏好来说,做有品牌的事情可以做得足够大、有梦想,伟大的公司很多是To C的,比如苹果、小米。最后,从数据角度看,通用性需要有丰富的数据,混乱的家庭场景恰恰能提供丰富的数据。
对于AI模型何时可以支撑做家庭To C机器人,许华哲预测比较乐观激进,他认为两年内会出现可以用起来的机器人。它不是万能的,但会有完善的产品定义,能做相当多通用事情,不过会有一些明确不做的事,比如抱婴儿、烧热水。机器人进家庭能做的事情分为两类,一类是本身很难的任务,如更精细的清洁;另一类是长序列、多步骤任务的串联,如完整的洗衣流程。
家庭和工厂场景有着本质区别。工厂的混乱更多是“管理混乱”,具体干的活如上下料、装配是高度确定性的;家里的混乱是任务本身的混乱,需要通过工作去恢复秩序。当前做家庭To C机器人最大的挑战在于,机器人进家庭的逻辑和落地To B不同。To B的账难算,工厂给人形机器人干的活价值低,且采集的数据可能过于专化。To C的账不是简单的“替代人力”计算,它更像科技潮品+家庭助手+管家的复合体,用户买它是购买一种先锋的生活方式和极致的便利。关键是产品体验要足够好,价值感知要足够强,价格区间内部还在讨论,但肯定会是五位数起步。
许华哲判断一件事情做与不做或是否感兴趣的标准是美和影响力。美意味着创造出来的东西优雅、简洁,泛化性的本质也是美;影响力意味着对世界产生足够大的影响,改变人们的生活方式。他希望找到极致、坦诚、利他的合作伙伴,欣赏段永平的“本分文化”和Kimi“没有部门墙”的协作模式,倾向于弹性、扁平的组织,赞同鼓励一线员工直接向老板反馈问题的文化。
与其他从陪伴场景切入的To C机器人不同,「破壳机器人」追求的核心是物理世界的通用交互和干活能力,是“家庭助理”而非陪伴机器人。在技术上,他们的一大亮点是能用好强化学习。过去机器人对强化学习的使用一般停留在单机的后训练上,而他们的强化学习可以用于价值函数评估数据质量,让模型学得更精准,理解失败的边界,同时能在多个任务上保持高成功率高速度,不过度拟合到单一任务,还能突破人类数据上限,做出比人类示范数据更好的表现。他们的预训练也会用离线的强化学习,目前模型路线还未收敛,选择的是世界模型结合原生的机器人模型,而非VLA路线。
对于世界模型的理解,「破壳机器人」输入的是视频和动作,训练和推理时输出的也是视频和动作,这些数据遵循物理规律。训练大模型所需的Infra是挺大的卡点,要支撑32B的大模型和较大数据量,GPU集群的并行效率、数据吞吐都是挑战和壁垒。他们的“UAG架构”采用并联式预训练,先对动作进行预训练,再做整体联合训练,做动作预测器,然后与视觉模型联合训练,能最大程度保留基础模型的泛化能力,大幅提升训练效率。在数据方案上,主要分外骨骼数据采集、UMI方案和第一人称视角人类数据三层,与其他家探索的不同之处在于会大量使用评估数据,包括机器人自己探索时的失败和次优数据,且手套设计细节针对家庭任务精心打磨,构型设计追求通用性,8月末左右会展示与众不同的数采系统。
当被问及现在出来创业是否太晚以及具身智能行业的融资环境,许华哲认为市场热度还可以,投资人比较有热情,且比之前更懂,会问得更细。在技术没有收敛的今天,仍然有巨大的机会,后发者也有可能先至。

