上海这家具身智能“卖铲人”要先迎来商业化|本体|机器人|上海市|系统稳定性
界面新闻记者 | 徐美慧
界面新闻编辑 | 文姝琪
4月16日,智元孵化的觅蜂科技在上海发布一站式物理AI数据服务平台和无本体数采硬件。
在接受界面新闻等媒体采访时,觅蜂董事长兼CEO姚卯青对物理AI数据商业化给出核心判断。他认为,物理AI数据将成为与算力同等的基础生产资料。
在他看来,在整机大规模落地前,数据采集作为基础设施遵循“卖铲人”逻辑,商业模式更清晰,落地进度与变现能力将快于机器人本体及行业解决方案。
谈及平台的核心优势,姚卯青强调,与智元同源是一大重点。相比市面上单纯采卖数据的初创团队,拥有纯正机器人背景的平台能够依靠自身较强的模型能力,形成数据有效性的闭环验证,从而清楚什么是高效的采集,避免盲目的暴力采集。
姚卯青透露,依托全流程质检体系与全球化采集网络,觅蜂计划在今年实现千万小时级数据产能。
当前大模型公司与科技大厂对数据采购需求极强,市场供不应求。姚卯青补充称,2026年被视为数据军备竞赛的起点,大厂年度数据需求已达百万小时级别,市场呈现出“有多少买多少”的卖方市场状态。
数据渴求背后是明确的产业周期更迭。摩根士丹利预判,算力与能源瓶颈将在未来几年凸显,大规模部署物理世界的基础设施和专有数据将成为企业护城河的关键构成,预计到2050年全球将有超过10亿台具身智能机器人被部署。
不过,与广阔市场相对的,是支撑模型训练的数据极度匮乏。
姚卯青表示,像GPT-5这样领先的大语言模型训练语料达100万亿tokens,相当于一人一分钟150个词的语速不间断说话一百亿小时,而全球具身智能行业高质量真实数据仅在五十万小时规模。供需错配不仅体现在数量上,更在于高昂获取成本与低效模式。
![]()
姚卯青。图片来源:界面新闻
对于当前行业的数据获取成本,姚卯青算了一笔账:国内真机遥操数据交易均价在每小时500至1000元水平;而无本体采集数据由于尚未形成规模化产能,早期报价甚至高于真机,达到每小时1000多元。整体高昂的成本极大限制了行业的规模化探索。
针对上述痛点,行业数据获取的技术路线开始走向分化。姚卯青指出,真机数据与无本体数据目前呈并行状态,两者的gap未来将越来越小。
其中,真机采集精度高,是突破严苛落地场景所绕不开的必选项。而无本体数据虽然在空间精度上存在物理鸿沟,无法做到人手与机械手的一一印证,但其采集效率高,成本有望在行业收敛后降至真机的1/2到1/3。
为打破成本与效率瓶颈,觅蜂推出MEgo Engine一站式数据治理服务平台及MEgo系列无本体数据采集设备。
新硬件旨在摆脱特定机器人本体依赖,将数采能力下放至人类日常作业。MEgo系列无本体数据采集硬件,包括MEgo Gripper采集夹爪、MEgo View头戴式采集设备,可实现毫米级精准捕捉、亚毫秒级同步、超300°全景感知,支持随时随地轻量化采集,可降低数据获取门槛与成本。
面对2026年千万小时级的数据产能目标,觅蜂计划将采集终端铺设量提升至一万台级别。
姚卯青表示,为管理如此庞大的设备与人员,觅蜂不排除采用众包模式,通过类似美团骑手的驿站体系进行统一培训,达标后上岗。针对数据进入家庭等敏感场景带来的隐私风险,平台常态化引入人脸脱敏、车牌隐藏等类似技术,并与采集者签署授权协议以确保合规流转。
在短期产能规划外,觅蜂公布了更远的目标:到2030年达成百亿小时级数据产能,构建覆盖全球的物理AI数据生态,成为具身智能领域的“数据基础设施”。
提及行业发展的远景,姚卯青分享了基于Scaling Law(规模法则)的时间表预判。
他认为,从数据角度来看,当前具身智能行业仍处在确立技术路径的早期,相当于大模型在Transformer架构刚提出的2017至2018年阶段。目前机器人的能力多局限于单一场景的模仿学习,尚未形成具备思维链和长程规划能力的自主适应能力,距离真正出现类似ChatGPT时刻,预计还需4到5年的演进时间。