对标英伟达EgoScale数据路径，清华系孵化星忆科技拿到首轮融资

2026 年 3 月
一	二	三	四	五	六	日
	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

文｜任倩

具身数据层的全球竞赛正在迅速升温。NVIDIA Research在2026年发布EgoScale数据与训练框架，在Ego-centric人类操作视频上训练VLA模型，用 20,854小时带动作标注的第一人称人类视频，观察到数据规模和验证损失之间接近对数线性的scaling law。1X收集人类第一视角及家庭行为数据，通过 Sunday项目采集百万小时级家庭场景视频。光轮智能采用仿真合成数据和人类视频数据（EgoSuite）的混合路线，宣称累计交付突破100万小时，估值飙向十亿美金。

几个月内，行业关注点已不再只是”谁采得更多”，而是”谁能把Human-centric /Ego-centric数据真正做成高自由度、高精度、低成本、可训练的资产”。

这背后是一场明确的数据范式迁移。过去一年，全球头部玩家几乎同时把目光转向Human-centric data：不是更大规模的第三人称素材，也不只是昂贵而稀缺的真机遥操作，而是更接近人类真实操作分布的数据。而其中Ego-centric——以人类第一视角、真实物理交互和多模态感知为核心——正迅速成为最关键的一条采集路线。

原因在于，机器人最终要学会的，不是看懂世界，而是在真实物理世界里把动作做对。第三人称视频缺少接触与控制细节，仿真难以完整覆盖真实物理长尾，纯遥操数据又昂贵且稀缺。真正稀缺的，是一种既足够真实、又足够精细，同时还能被规模化生产并被模型直接消化的数据。就在这一拐点上，一家选择从多模态融合与穿戴式高精度采集切入这一难点的公司，开始浮出水面。

「暗涌Waves」独家获悉，聚焦Ego-centric数据采集的创业公司星忆科技完成千万级首轮融资，由清华系水木创投领投，泉士资本作为孵化方长期为公司提供产业及资本支持，并参与本轮投资；神州通誉系钥卓资本、资深产业天使团队等跟投。Maple Pledge枫承资本长期出任公司私募股权融资顾问。

星忆科技孵化自清华大学计算机系，创始人宋知珩曾任智元机器人全尺寸双足人形整机产品负责人，并负责相关数采与遥操体系建设；在此之前，他是镁伽机器人前20号员工，建立创新应用事业部并担任产品负责人，带领研发团队五次完成0到1新产品开发，牵头研发从双臂协作机器人到桌面级智能设备，实现公司首个万台量产与过亿营收。

如果说human-centric/ego-centric数据正在成为具身智能的新地基，那么星忆最突出的地方，不只是押中了方向，而是它恰好把这一方向最难接齐的几段链路放进了同一个组织里。其核心成员覆盖具身数据、模型、穿戴设备、复杂系统与数据工程等关键环节，形成了”数据—模型—产品—商业化”齐接的能力结构。

团队技术班底来自清华、北航等高校，同时吸纳了埃夫特、海康威视等资深产业专家，在具身智能、多模态感知、三维手部理解、虚拟现实、人机交互与计算机视觉等方向均有长期研究，累计在CVPR、ICCV、ECCV、NeurIPS、IJCAI等国际顶级会议和期刊发表论文70余篇，承担多项国家级科研项目。

对标英伟达EgoScale技术路径，星忆构建的是面向具身智能与世界模型的数据采集软硬件体系。其差异化在于：不做二指夹爪式UMI路线，而是做高自由度基础上的高精度；不只采集视觉，而是同时融合视觉、触觉与姿态；不只提供工具，而是试图打通从采集到训练的完整闭环。

宋知珩认为，真正有价值的真机数据，不是谁采得多，而是谁能同时满足五个条件：真实、精准、高自由度、低成本、可训练。在他看来，星忆当前最突出的优势集中在精度与自由度两端，而低成本与可训练性则决定这条路线能否真正走向规模化。

星忆EgoKit多模态数采套件

星忆EgoKit多模态数采套件及星忆HBR Engine数据引擎｜图片来源：企业供图

「暗涌」：为什么一定要做多模态融合（视觉+触觉+姿态），单纯视觉不够吗？大模型不是已经能看懂世界了吗？

宋知珩：不是模型不够聪明，而是它从来没有真正”触摸”过真实世界。精细操作至少需要三类信息：三维视觉、身体姿态，以及触觉。

三维视觉告诉你物体在哪里，姿态告诉你手和臂是怎么到达那里的。而真正进入接触瞬间后，决定成败的往往是触觉：有没有接触、是否打滑、该用多大力、什么时候该收力。触觉提供的是接触状态、摩擦变化和微滑移信息，它是视觉的终点，也是力控的起点。

「暗涌」：你们提到”毫米级标注”，具体能达到什么精度？成本相比传统方式如何？

宋知珩：对手部这样高密度、强遮挡的任务来说，传统人工标注和通用开源算法都很难同时兼顾精度与一致性。我们能够在长序列、强接触条件下，把数据引擎的标注能力稳定推到毫米级，并且比人类专家的标注能力具备更强的一致性。

成本上，人工标注一秒钟视频（30帧）三个视角，哪怕0.1元标一张图也要3块钱一秒，一分钟180块。我们强大的标注引擎，成本是传统人工的几百分之一，但精度更高。这就是”低成本+高质量”的双飞轮。

宋知珩判断：3年进工厂，5年进家庭。工厂指特定场景的单一任务，通过真机强化学习提高正确率到99%以上；家庭指不同环境，需要模型具备泛化能力，同时又有安全、隐私等方面的要求。

来源: 36氪

归档

工作 · 2026年3月27日 0

对标英伟达EgoScale数据路径，清华系孵化星忆科技拿到首轮融资

您可能还喜欢...

发表回复取消回复

工作 · 2026年3月27日 0

您可能还喜欢...

Critical OpenClaw Vulnerability Exposes AI Agent Risks

2026年的游戏AI，我们还能期待什么？

Cursor被曝套壳Kimi K2.5模型引发技术社区争议

发表回复 取消回复

发表回复取消回复