商务服务
“不做大模型,机器人是没有未来的”,智元发布首个通用具身基座大模型
2025-03-17 10:39

“对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。他能做的事情非常有限,所以我们投入非常大的。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青在2025年3月10日的线上媒体沟通会上如是说。

这一天,智元机器人正式发布了全球首个通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1),这标志着向通用化、开放化、智能化方向快速迈进。

GO-1的核心在于其开创性的Vision-Language-Latent-Action(ViLLA)架构。这一架构由多模态大模型(VLM)与混合专家模型(MoE)组成,试图弥合视觉、语言与动作之间的鸿沟。

任广辉详细阐述了这一设计的初衷:“现有的VLA(Vision-Language-Action)架构没有充分利用大规模人类和跨本体操作视频数据,缺少一个重要的来源,导致迭代成本高、进化速度慢。我们提出的ViLLA通过预测Latent Action Tokens(隐式动作标记),有效利用了互联网异构视频和高质量的AgiBot World数据集,增强了策略的泛化能力。”

图片

ViLLA的底层逻辑源于智元提出的“数字金字塔”概念。任广辉将其比作人类学习的过程:“以打乒乓球为例,你先通过课本和视频理解理论,知道球的上旋、下旋是怎么回事;然后看世界冠军的比赛视频,学习动作模式;再通过发球机模拟练习,最后找教练手把手教。数据金字塔也是如此——底层是互联网海量图文数据,赋予模型通用知识;中间是人类和跨本体操作视频,提供动作理解;再往上是仿真数据增强泛化性;顶层则是真机示教数据,确保动作精准。”

具体而言,VLM继承了开源多模态模型InternVL2.5-2B的权重,负责场景感知和语言理解;MoE中的Latent Planner(隐式规划器)基于人类和跨本体视频数据抽象出动作序列;Action Expert(动作专家)则利用百万真机数据将动作映射到机器人本体上。任广辉说:“比如‘挂衣服’,VLM理解指令和场景,Latent Planner推演出提衣、挂杆的步骤,Action Expert将其转化为机器人的精确执行。这是一个全链路的闭环。”

在评测中,GO-1的表现令人瞩目。智元机器人在五种不同复杂度任务上针对GO-1的测试显示,相比已有的最优模型,GO-1的任务成功率领先,平均成功率提高了32%(46%->78%),其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)的任务中表现尤为突出。

任广辉透露:“单独验证Latent Planner的作用时,成功率也提升了10多个百分点。这证明了ViLLA架构的有效性。”

GO-1并非实验室中的概念验证,而是旨在解决具身智能落地困境的实用方案。任广辉总结了当前行业的四大痛点:“泛化性差、扩展新任务成本高、不同本体数据无法共享、缺乏持续进化机制。”GO-1通过四大特性直面这些挑战。

图片

一是人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。

二是小样本快速泛化:该大模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

任广辉举例:“擦拭桌子上的污渍,我们只用了150条数据,一天采集完成;倒水需要1000条。相比传统方法动辄上万条,我们降低了1-2个数量级的成本。”  

三是一脑多形:该大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。

任广辉解释:“GO-1抽象出了跨本体的动作概念,能快速适配轮式或人形机器人,实现群体升智。”

四是持续进化:该大模型搭配一整套数据回流系统,可以从实际执行中遇到的问题数据中持续进化学习。

任广辉强调:“我们有一套完整的数据回流系统。比如机器人放咖啡时抖落了杯子,这些异常数据会回传,经过人工审核后优化模型,越用越聪明。”

图片

这四大特性让GO-1从单一任务走向多任务,从封闭环境迈向开放世界,从预设程序进化到指令泛化。任广辉总结:“GO-1就像给机器人提供了‘基础教育’和‘职业教育’,让它天然适应新场景和新任务。”

GO-1的成功离不开智元在数据端的深耕。2023年9月,智元建成全球首个数采超级工厂;同年12月,开源了AgiBot World数据集,包含百万条真机数据。这一数据集在HuggingFace上连续多周位居下载榜首,GitHub上发布一周获1200星,远超谷歌Open X-Embodiment一年的900星。截至2025年3月,下载量已超2万次。

图片

姚卯青回顾道:“我们在硬件量产的基础上,用千台机器人编队采集数据,再用这些数据自研大模型,最后部署回本体,形成了闭环迭代。这是全球首创。”任广辉补充:“AgiBot World的质量和规模远超同行,每条数据都有人工审核,确保工业级标准。用户反馈这是他们能接触到的唯一高质量大规模数据集。”

数据回流系统则是GO-1持续进化的关键。任广辉举例:“机器人执行任务时发现问题,比如放咖啡失败,这些数据会回传,经过审核后加入训练集,推动模型迭代。”

机器人领域,数据采集的成本是很高的,未来数据采集里有没有可能单独剥离出来,形成一个产业?姚卯青认为,这是有可能的,“上一代 AI 的发展是有明确的产业分工的,像数据的采集标注、审核甚至是数据的交易都是有一些平台性的机构出现的,那么在机器人领域,我认为这也是有机会的。”

姚卯青说,因为每一家都来自己建设场地,投入设备,是一个重复造轮子、重复投资的行为。长期来看的话,可以由个别的几家企业来集中承担公共平台的职责。”

姚卯青透露:“我们在上海‘魔都生成语料普惠计划’中,与多家企业统一数据接口,推动数据汇聚。Q1末可能会有数据交易模式的政策发布。”这将为具身智能行业注入新的活力。

同时,关于数据的标准方面,“理想状态是统一标准,共享互联网图文、动作视频和真机数据,推动具身智能量级跃升。”任广辉说。

“机器人如果没有自主作业能力,价值非常有限。AI能力将是未来竞争的核心,就像新能源车和手机行业一样,硬件会收敛,供应链会整合,最后拼的是智能化。”姚卯青接受采访时说。

在应用场景上,智元采取渐进式策略。姚卯青表示:“短期内,我们聚焦工业、服务业和商业场景,比如POC项目已在工厂落地。长期目标是走进家庭,五年左右可能实现。工业场景对成功率要求高,我们会实地采集几万条数据,但比传统方法仍更高效。家用场景如倒茶、做早餐,万元内能够实现。”

价格方面,姚卯青坦言:“当前量产规模在千台以上,但供应链尚未完全成熟,机器人定价可能在30万元以上。不过AI研发成本会被分摊,不会显著推高售价。”商业计划上,他透露:“今年出货量将达数千台,营收比去年增长数倍,覆盖科研、教育、工业和服务业。”

GO-1还将在Q1末对核心用户开源模型。任广辉说:“我们已公开技术博客和论文,未来用户可将GO-1部署到自家机器人上。”这不仅加速了技术普及,也为智元构筑了数据与模型的双重护城河。

关于是否带来启发或技术路线方面的影响时,姚卯青回应:“DeepSeek等优秀工作给我们很大启发。我们参考了通用能力预训练加垂类数据后训练的思路,但在机器人领域增加了Latent Planner和Action Expert的创新。而且机器人是物理应用,与数字模型不同,我们的定制化创新让GO-1通用具身基座大模型更贴合具身需求。”

近期火热的智能体也引发讨论。姚卯青也表示:“Agent智能体在任务规划上有借鉴意义,但机器人更复杂,涉及小脑控制和物理交互。短期内,我们靠数据到模型的闭环,长期可能融合Agent理念。”

在技术路线上,姚卯青判断:“机器人模型尚未收敛,未来会结合模仿学习和强化学习。我们已有布局,几个月后将发布基于强化学习的Foundation Model。”

面对当前市场上大量的具身智能公司,包括有八九年历史的“老公司”,也有仅2年历史的智元科技,新公司的优势在哪里?姚卯青认为:“‘老牌公司’可能有历史包袱,战略调整难且保守。智元平均研发年龄30岁以下,势头正猛,两年走完别人八年的路,今年有望成为国内龙头。”

    以上就是本篇文章【“不做大模型,机器人是没有未来的”,智元发布首个通用具身基座大模型】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/9570.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
【教程】全民K歌,用手机唱卡拉OK,朋友一起听!手机k歌「【教程】全民K歌,用手机唱卡拉OK,朋友一起听!」
用手机软件来唱卡拉OK,我知道的有两个软件推荐给您,全民K歌和唱吧。两个软件功能都很强,以前年轻人似乎用唱吧的多一些,现在
繁荣“入境游”,“游”出“日常感”是关键
原标题:繁荣“入境游”,“游”出“日常感”是关键年初至今,我国入境游市场持续复苏,到清明节期间迎来小高峰。数据显示,清明
苹果iPhone14和13对比区别是什么 苹果美版值得买吗?手机壳多少钱「苹果iPhone14和13对比区别是什么 苹果美版值得买吗?」
处理器、屏幕、摄像头、内存等不同处理器相同:iPhone14的处理器没有变化,还是iPhone13 Pro上的满血版A15 仿生芯片,只有iPhone
两个人在线观看免费完整版日本手机在线播放「两个人在线观看免费完整版日本」
格式“武神主宰08集”是武神一部出色的武侠古装影片,充斥着大量精彩的主宰空手道、木棉三绝和剑术招式的武神视觉盛宴。它是主宰
北京:“以花为媒”培育新消费
  4月的北京,繁花似锦装点千年古都,满城春色中涌动着勃勃生机。  北京玉渊潭公园樱花绽放,吸引游客慕名赏花;元大都城垣
美股震荡三大股指再度转涨!特斯拉涨逾5%市值再破8000亿美元美股手机新浪网「美股震荡三大股指再度转涨!特斯拉涨逾5%市值再破8000亿美元」
腾讯证券1月13日讯,美股周二走势震荡,三大股指一度悉数转跌后再度转涨,因投资者越来越担忧股市的估值过高。与此同时,市场还
光明肉业旗下佛手品牌亮相成都糖酒会,传统调味智慧激活餐饮新势能
近期,2025年第112届全国糖酒商品交易会在成都盛大启幕。旗下百年调味品品牌“佛手”携经典与创新产品亮相成都友源假日酒店1楼,
以小博大,《我的世界大电影》全球豪赚
来到春季,《我的世界大电影》为全球影市注入一剂强心针。 在北美,《我的世界大电影》首周末便席卷1.63亿美元,无悬念创下今年
拍照买微单还是买手机?写在vivo蓝图影像技术沟通会后
刚刚参加完蓝厂的X系列蓝图影像技术沟通会。嗯,现在各家厂商似乎都很重视这种在旗舰新品发布会前的“技术预热发布会”。是的,
带上3米长充电线、术前手机静音……住院必备小技巧,建议收藏手机小技巧「带上3米长充电线、术前手机静音……住院必备小技巧,建议收藏」
原创 果壳病人 果壳病人 收录于合集 #闲聊时间 11个在世间行走,免不了生病看病,一不留神还得住院。忽然接到住院手术的通知,难