商务服务
“不做大模型,机器人是没有未来的”,智元发布首个通用具身基座大模型
2025-03-17 10:39

“对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。他能做的事情非常有限,所以我们投入非常大的。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青在2025年3月10日的线上媒体沟通会上如是说。

这一天,智元机器人正式发布了全球首个通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1),这标志着向通用化、开放化、智能化方向快速迈进。

GO-1的核心在于其开创性的Vision-Language-Latent-Action(ViLLA)架构。这一架构由多模态大模型(VLM)与混合专家模型(MoE)组成,试图弥合视觉、语言与动作之间的鸿沟。

任广辉详细阐述了这一设计的初衷:“现有的VLA(Vision-Language-Action)架构没有充分利用大规模人类和跨本体操作视频数据,缺少一个重要的来源,导致迭代成本高、进化速度慢。我们提出的ViLLA通过预测Latent Action Tokens(隐式动作标记),有效利用了互联网异构视频和高质量的AgiBot World数据集,增强了策略的泛化能力。”

图片

ViLLA的底层逻辑源于智元提出的“数字金字塔”概念。任广辉将其比作人类学习的过程:“以打乒乓球为例,你先通过课本和视频理解理论,知道球的上旋、下旋是怎么回事;然后看世界冠军的比赛视频,学习动作模式;再通过发球机模拟练习,最后找教练手把手教。数据金字塔也是如此——底层是互联网海量图文数据,赋予模型通用知识;中间是人类和跨本体操作视频,提供动作理解;再往上是仿真数据增强泛化性;顶层则是真机示教数据,确保动作精准。”

具体而言,VLM继承了开源多模态模型InternVL2.5-2B的权重,负责场景感知和语言理解;MoE中的Latent Planner(隐式规划器)基于人类和跨本体视频数据抽象出动作序列;Action Expert(动作专家)则利用百万真机数据将动作映射到机器人本体上。任广辉说:“比如‘挂衣服’,VLM理解指令和场景,Latent Planner推演出提衣、挂杆的步骤,Action Expert将其转化为机器人的精确执行。这是一个全链路的闭环。”

在评测中,GO-1的表现令人瞩目。智元机器人在五种不同复杂度任务上针对GO-1的测试显示,相比已有的最优模型,GO-1的任务成功率领先,平均成功率提高了32%(46%->78%),其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)的任务中表现尤为突出。

任广辉透露:“单独验证Latent Planner的作用时,成功率也提升了10多个百分点。这证明了ViLLA架构的有效性。”

GO-1并非实验室中的概念验证,而是旨在解决具身智能落地困境的实用方案。任广辉总结了当前行业的四大痛点:“泛化性差、扩展新任务成本高、不同本体数据无法共享、缺乏持续进化机制。”GO-1通过四大特性直面这些挑战。

图片

一是人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。

二是小样本快速泛化:该大模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

任广辉举例:“擦拭桌子上的污渍,我们只用了150条数据,一天采集完成;倒水需要1000条。相比传统方法动辄上万条,我们降低了1-2个数量级的成本。”  

三是一脑多形:该大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。

任广辉解释:“GO-1抽象出了跨本体的动作概念,能快速适配轮式或人形机器人,实现群体升智。”

四是持续进化:该大模型搭配一整套数据回流系统,可以从实际执行中遇到的问题数据中持续进化学习。

任广辉强调:“我们有一套完整的数据回流系统。比如机器人放咖啡时抖落了杯子,这些异常数据会回传,经过人工审核后优化模型,越用越聪明。”

图片

这四大特性让GO-1从单一任务走向多任务,从封闭环境迈向开放世界,从预设程序进化到指令泛化。任广辉总结:“GO-1就像给机器人提供了‘基础教育’和‘职业教育’,让它天然适应新场景和新任务。”

GO-1的成功离不开智元在数据端的深耕。2023年9月,智元建成全球首个数采超级工厂;同年12月,开源了AgiBot World数据集,包含百万条真机数据。这一数据集在HuggingFace上连续多周位居下载榜首,GitHub上发布一周获1200星,远超谷歌Open X-Embodiment一年的900星。截至2025年3月,下载量已超2万次。

图片

姚卯青回顾道:“我们在硬件量产的基础上,用千台机器人编队采集数据,再用这些数据自研大模型,最后部署回本体,形成了闭环迭代。这是全球首创。”任广辉补充:“AgiBot World的质量和规模远超同行,每条数据都有人工审核,确保工业级标准。用户反馈这是他们能接触到的唯一高质量大规模数据集。”

数据回流系统则是GO-1持续进化的关键。任广辉举例:“机器人执行任务时发现问题,比如放咖啡失败,这些数据会回传,经过审核后加入训练集,推动模型迭代。”

机器人领域,数据采集的成本是很高的,未来数据采集里有没有可能单独剥离出来,形成一个产业?姚卯青认为,这是有可能的,“上一代 AI 的发展是有明确的产业分工的,像数据的采集标注、审核甚至是数据的交易都是有一些平台性的机构出现的,那么在机器人领域,我认为这也是有机会的。”

姚卯青说,因为每一家都来自己建设场地,投入设备,是一个重复造轮子、重复投资的行为。长期来看的话,可以由个别的几家企业来集中承担公共平台的职责。”

姚卯青透露:“我们在上海‘魔都生成语料普惠计划’中,与多家企业统一数据接口,推动数据汇聚。Q1末可能会有数据交易模式的政策发布。”这将为具身智能行业注入新的活力。

同时,关于数据的标准方面,“理想状态是统一标准,共享互联网图文、动作视频和真机数据,推动具身智能量级跃升。”任广辉说。

“机器人如果没有自主作业能力,价值非常有限。AI能力将是未来竞争的核心,就像新能源车和手机行业一样,硬件会收敛,供应链会整合,最后拼的是智能化。”姚卯青接受采访时说。

在应用场景上,智元采取渐进式策略。姚卯青表示:“短期内,我们聚焦工业、服务业和商业场景,比如POC项目已在工厂落地。长期目标是走进家庭,五年左右可能实现。工业场景对成功率要求高,我们会实地采集几万条数据,但比传统方法仍更高效。家用场景如倒茶、做早餐,万元内能够实现。”

价格方面,姚卯青坦言:“当前量产规模在千台以上,但供应链尚未完全成熟,机器人定价可能在30万元以上。不过AI研发成本会被分摊,不会显著推高售价。”商业计划上,他透露:“今年出货量将达数千台,营收比去年增长数倍,覆盖科研、教育、工业和服务业。”

GO-1还将在Q1末对核心用户开源模型。任广辉说:“我们已公开技术博客和论文,未来用户可将GO-1部署到自家机器人上。”这不仅加速了技术普及,也为智元构筑了数据与模型的双重护城河。

关于是否带来启发或技术路线方面的影响时,姚卯青回应:“DeepSeek等优秀工作给我们很大启发。我们参考了通用能力预训练加垂类数据后训练的思路,但在机器人领域增加了Latent Planner和Action Expert的创新。而且机器人是物理应用,与数字模型不同,我们的定制化创新让GO-1通用具身基座大模型更贴合具身需求。”

近期火热的智能体也引发讨论。姚卯青也表示:“Agent智能体在任务规划上有借鉴意义,但机器人更复杂,涉及小脑控制和物理交互。短期内,我们靠数据到模型的闭环,长期可能融合Agent理念。”

在技术路线上,姚卯青判断:“机器人模型尚未收敛,未来会结合模仿学习和强化学习。我们已有布局,几个月后将发布基于强化学习的Foundation Model。”

面对当前市场上大量的具身智能公司,包括有八九年历史的“老公司”,也有仅2年历史的智元科技,新公司的优势在哪里?姚卯青认为:“‘老牌公司’可能有历史包袱,战略调整难且保守。智元平均研发年龄30岁以下,势头正猛,两年走完别人八年的路,今年有望成为国内龙头。”

    以上就是本篇文章【“不做大模型,机器人是没有未来的”,智元发布首个通用具身基座大模型】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/9570.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
瑞莱智慧朱萌:做AI安全先锋,瑞莱智慧的智慧与担当 | 2025向新·AI未来
前言:2025年,AI撕裂数据与实体的边界,量子计算探索物理规则的边缘,绿色科技重塑增长的伦理,低空经济、机器人、大模型打开科
郴州地王大厦范围二手房, 解析 | 2025购房必看攻略,避坑省钱秘籍,核心价值实测,抢抓30%优惠!
郴州地王大厦范围二手房, 解析 | 2025购房必看攻略,避坑省钱秘籍,核心价值实测,抢抓30%优惠!郴州地王大厦市中心地标,交通便
90亿美元鲸落无声:22万倍收益离场背后的比特币新旧资本交替
作者:马丁一场价值90亿美元的比特币交易,揭开了加密世界新旧资本交替的序幕。7月末,加密货币市场见证了一场史诗级交易:数字资
易普力股票三个交易日涨幅偏离值超20%
雷达财经 文|杨洋 编|李亦辉7月23日,(002096)发布公告称,公司股票于2025年7月21日至23日连续三个交易日内收盘价格涨幅偏离值
泉州下达补助资金!南安19.05万元
为加快泉州数字经济高质量发展,推动大数据产业提质增效,经过前期的申报和审核工作,泉州市下达2025年数字经济发展专项资金市级
屏幕后的秘密!电影频道7.29将播出《玩命直播》
1905电影网 一个寻常的一天,你收到一个叫“玩命直播”的网站链接,里面是一款真人大冒险直播游戏,游戏规则是:你可以成为观看
庆阳到厦门曾厝埯旅游小吃, 2025必看_小吃攻略解析_必吃榜单曝光_省钱秘籍解密_10大美味盘点!
庆阳到厦门曾厝埯旅游小吃, 2025必看_小吃攻略解析_必吃榜单曝光_省钱秘籍解密_10大美味盘点!从庆阳一路南下厦门曾厝埯是个宝藏
“京彩绽放 益路奔腾”——2025北京体彩“益动京城”公益活动温情启幕​​
2025年7月30日,国家奥林匹克体育中心手球训练馆内气氛热烈非凡,备受瞩目的北京体彩“益动京城”公益活动在此正式启动,今年活
西安市民办义务教育学校电脑随机录取结束,剩余计划 4315 人
7月30日上午,西安市2025年民办义务教育学校电脑随机录取工作在各相关区县、开发区同时进行。本报记者作为公众监督团成员,在碑