文|任倩
具身数据层的全球竞赛正在迅速升温。NVIDIA Research在2026年发布EgoScale数据与训练框架,在Ego-centric人类操作视频上训练VLA模型,用 20,854小时带动作标注的第一人称人类视频,观察到数据规模和验证损失之间接近对数线性的scaling law。1X收集人类第一视角及家庭行为数据,通过 Sunday项目采集百万小时级家庭场景视频。光轮智能采用仿真合成数据和人类视频数据(EgoSuite)的混合路线,宣称累计交付突破100万小时,估值飙向十亿美金。
几个月内,行业关注点已不再只是”谁采得更多”,而是”谁能把Human-centric /Ego-centric数据真正做成高自由度、高精度、低成本、可训练的资产”。
这背后是一场明确的数据范式迁移。过去一年,全球头部玩家几乎同时把目光转向Human-centric data:不是更大规模的第三人称素材,也不只是昂贵而稀缺的真机遥操作,而是更接近人类真实操作分布的数据。而其中Ego-centric——以人类第一视角、真实物理交互和多模态感知为核心——正迅速成为最关键的一条采集路线。
原因在于,机器人最终要学会的,不是看懂世界,而是在真实物理世界里把动作做对。第三人称视频缺少接触与控制细节,仿真难以完整覆盖真实物理长尾,纯遥操数据又昂贵且稀缺。真正稀缺的,是一种既足够真实、又足够精细,同时还能被规模化生产并被模型直接消化的数据。就在这一拐点上,一家选择从多模态融合与穿戴式高精度采集切入这一难点的公司,开始浮出水面。
「暗涌Waves」独家获悉,聚焦Ego-centric数据采集的创业公司星忆科技完成千万级首轮融资,由清华系水木创投领投,泉士资本作为孵化方长期为公司提供产业及资本支持,并参与本轮投资;神州通誉系钥卓资本、资深产业天使团队等跟投。Maple Pledge枫承资本长期出任公司私募股权融资顾问。
星忆科技孵化自清华大学计算机系,创始人宋知珩曾任智元机器人全尺寸双足人形整机产品负责人,并负责相关数采与遥操体系建设;在此之前,他是镁伽机器人前20号员工,建立创新应用事业部并担任产品负责人,带领研发团队五次完成0到1新产品开发,牵头研发从双臂协作机器人到桌面级智能设备,实现公司首个万台量产与过亿营收。
如果说human-centric/ego-centric数据正在成为具身智能的新地基,那么星忆最突出的地方,不只是押中了方向,而是它恰好把这一方向最难接齐的几段链路放进了同一个组织里。其核心成员覆盖具身数据、模型、穿戴设备、复杂系统与数据工程等关键环节,形成了”数据—模型—产品—商业化”齐接的能力结构。
团队技术班底来自清华、北航等高校,同时吸纳了埃夫特、海康威视等资深产业专家,在具身智能、多模态感知、三维手部理解、虚拟现实、人机交互与计算机视觉等方向均有长期研究,累计在CVPR、ICCV、ECCV、NeurIPS、IJCAI等国际顶级会议和期刊发表论文70余篇,承担多项国家级科研项目。
对标英伟达EgoScale技术路径,星忆构建的是面向具身智能与世界模型的数据采集软硬件体系。其差异化在于:不做二指夹爪式UMI路线,而是做高自由度基础上的高精度;不只采集视觉,而是同时融合视觉、触觉与姿态;不只提供工具,而是试图打通从采集到训练的完整闭环。
宋知珩认为,真正有价值的真机数据,不是谁采得多,而是谁能同时满足五个条件:真实、精准、高自由度、低成本、可训练。在他看来,星忆当前最突出的优势集中在精度与自由度两端,而低成本与可训练性则决定这条路线能否真正走向规模化。

星忆EgoKit多模态数采套件及星忆HBR Engine数据引擎|图片来源:企业供图
「暗涌」:为什么一定要做多模态融合(视觉+触觉+姿态),单纯视觉不够吗?大模型不是已经能看懂世界了吗?
宋知珩:不是模型不够聪明,而是它从来没有真正”触摸”过真实世界。精细操作至少需要三类信息:三维视觉、身体姿态,以及触觉。
三维视觉告诉你物体在哪里,姿态告诉你手和臂是怎么到达那里的。而真正进入接触瞬间后,决定成败的往往是触觉:有没有接触、是否打滑、该用多大力、什么时候该收力。触觉提供的是接触状态、摩擦变化和微滑移信息,它是视觉的终点,也是力控的起点。
「暗涌」:你们提到”毫米级标注”,具体能达到什么精度?成本相比传统方式如何?
宋知珩:对手部这样高密度、强遮挡的任务来说,传统人工标注和通用开源算法都很难同时兼顾精度与一致性。我们能够在长序列、强接触条件下,把数据引擎的标注能力稳定推到毫米级,并且比人类专家的标注能力具备更强的一致性。
成本上,人工标注一秒钟视频(30帧)三个视角,哪怕0.1元标一张图也要3块钱一秒,一分钟180块。我们强大的标注引擎,成本是传统人工的几百分之一,但精度更高。这就是”低成本+高质量”的双飞轮。
宋知珩判断:3年进工厂,5年进家庭。工厂指特定场景的单一任务,通过真机强化学习提高正确率到99%以上;家庭指不同环境,需要模型具备泛化能力,同时又有安全、隐私等方面的要求。
来源: 36氪

