商务服务
“不做大模型,机器人是没有未来的”,智元发布首个通用具身基座大模型
2025-03-17 10:39

“对机器人公司,你如果不做大模型,那是属于没有未来的机器人,没有智能化,没有作业能力只是一个硬件。他能做的事情非常有限,所以我们投入非常大的。”智元新创技术有限公司研究院执行院长、具身业务部总裁姚卯青在2025年3月10日的线上媒体沟通会上如是说。

这一天,智元机器人正式发布了全球首个通用具身基座大模型——智元启元大模型(Genie Operator-1,简称GO-1),这标志着向通用化、开放化、智能化方向快速迈进。

GO-1的核心在于其开创性的Vision-Language-Latent-Action(ViLLA)架构。这一架构由多模态大模型(VLM)与混合专家模型(MoE)组成,试图弥合视觉、语言与动作之间的鸿沟。

任广辉详细阐述了这一设计的初衷:“现有的VLA(Vision-Language-Action)架构没有充分利用大规模人类和跨本体操作视频数据,缺少一个重要的来源,导致迭代成本高、进化速度慢。我们提出的ViLLA通过预测Latent Action Tokens(隐式动作标记),有效利用了互联网异构视频和高质量的AgiBot World数据集,增强了策略的泛化能力。”

图片

ViLLA的底层逻辑源于智元提出的“数字金字塔”概念。任广辉将其比作人类学习的过程:“以打乒乓球为例,你先通过课本和视频理解理论,知道球的上旋、下旋是怎么回事;然后看世界冠军的比赛视频,学习动作模式;再通过发球机模拟练习,最后找教练手把手教。数据金字塔也是如此——底层是互联网海量图文数据,赋予模型通用知识;中间是人类和跨本体操作视频,提供动作理解;再往上是仿真数据增强泛化性;顶层则是真机示教数据,确保动作精准。”

具体而言,VLM继承了开源多模态模型InternVL2.5-2B的权重,负责场景感知和语言理解;MoE中的Latent Planner(隐式规划器)基于人类和跨本体视频数据抽象出动作序列;Action Expert(动作专家)则利用百万真机数据将动作映射到机器人本体上。任广辉说:“比如‘挂衣服’,VLM理解指令和场景,Latent Planner推演出提衣、挂杆的步骤,Action Expert将其转化为机器人的精确执行。这是一个全链路的闭环。”

在评测中,GO-1的表现令人瞩目。智元机器人在五种不同复杂度任务上针对GO-1的测试显示,相比已有的最优模型,GO-1的任务成功率领先,平均成功率提高了32%(46%->78%),其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面)和“Restock Beverage”(补充饮料)的任务中表现尤为突出。

任广辉透露:“单独验证Latent Planner的作用时,成功率也提升了10多个百分点。这证明了ViLLA架构的有效性。”

GO-1并非实验室中的概念验证,而是旨在解决具身智能落地困境的实用方案。任广辉总结了当前行业的四大痛点:“泛化性差、扩展新任务成本高、不同本体数据无法共享、缺乏持续进化机制。”GO-1通过四大特性直面这些挑战。

图片

一是人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解。

二是小样本快速泛化:该大模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

任广辉举例:“擦拭桌子上的污渍,我们只用了150条数据,一天采集完成;倒水需要1000条。相比传统方法动辄上万条,我们降低了1-2个数量级的成本。”  

三是一脑多形:该大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体。

任广辉解释:“GO-1抽象出了跨本体的动作概念,能快速适配轮式或人形机器人,实现群体升智。”

四是持续进化:该大模型搭配一整套数据回流系统,可以从实际执行中遇到的问题数据中持续进化学习。

任广辉强调:“我们有一套完整的数据回流系统。比如机器人放咖啡时抖落了杯子,这些异常数据会回传,经过人工审核后优化模型,越用越聪明。”

图片

这四大特性让GO-1从单一任务走向多任务,从封闭环境迈向开放世界,从预设程序进化到指令泛化。任广辉总结:“GO-1就像给机器人提供了‘基础教育’和‘职业教育’,让它天然适应新场景和新任务。”

GO-1的成功离不开智元在数据端的深耕。2023年9月,智元建成全球首个数采超级工厂;同年12月,开源了AgiBot World数据集,包含百万条真机数据。这一数据集在HuggingFace上连续多周位居下载榜首,GitHub上发布一周获1200星,远超谷歌Open X-Embodiment一年的900星。截至2025年3月,下载量已超2万次。

图片

姚卯青回顾道:“我们在硬件量产的基础上,用千台机器人编队采集数据,再用这些数据自研大模型,最后部署回本体,形成了闭环迭代。这是全球首创。”任广辉补充:“AgiBot World的质量和规模远超同行,每条数据都有人工审核,确保工业级标准。用户反馈这是他们能接触到的唯一高质量大规模数据集。”

数据回流系统则是GO-1持续进化的关键。任广辉举例:“机器人执行任务时发现问题,比如放咖啡失败,这些数据会回传,经过审核后加入训练集,推动模型迭代。”

机器人领域,数据采集的成本是很高的,未来数据采集里有没有可能单独剥离出来,形成一个产业?姚卯青认为,这是有可能的,“上一代 AI 的发展是有明确的产业分工的,像数据的采集标注、审核甚至是数据的交易都是有一些平台性的机构出现的,那么在机器人领域,我认为这也是有机会的。”

姚卯青说,因为每一家都来自己建设场地,投入设备,是一个重复造轮子、重复投资的行为。长期来看的话,可以由个别的几家企业来集中承担公共平台的职责。”

姚卯青透露:“我们在上海‘魔都生成语料普惠计划’中,与多家企业统一数据接口,推动数据汇聚。Q1末可能会有数据交易模式的政策发布。”这将为具身智能行业注入新的活力。

同时,关于数据的标准方面,“理想状态是统一标准,共享互联网图文、动作视频和真机数据,推动具身智能量级跃升。”任广辉说。

“机器人如果没有自主作业能力,价值非常有限。AI能力将是未来竞争的核心,就像新能源车和手机行业一样,硬件会收敛,供应链会整合,最后拼的是智能化。”姚卯青接受采访时说。

在应用场景上,智元采取渐进式策略。姚卯青表示:“短期内,我们聚焦工业、服务业和商业场景,比如POC项目已在工厂落地。长期目标是走进家庭,五年左右可能实现。工业场景对成功率要求高,我们会实地采集几万条数据,但比传统方法仍更高效。家用场景如倒茶、做早餐,万元内能够实现。”

价格方面,姚卯青坦言:“当前量产规模在千台以上,但供应链尚未完全成熟,机器人定价可能在30万元以上。不过AI研发成本会被分摊,不会显著推高售价。”商业计划上,他透露:“今年出货量将达数千台,营收比去年增长数倍,覆盖科研、教育、工业和服务业。”

GO-1还将在Q1末对核心用户开源模型。任广辉说:“我们已公开技术博客和论文,未来用户可将GO-1部署到自家机器人上。”这不仅加速了技术普及,也为智元构筑了数据与模型的双重护城河。

关于是否带来启发或技术路线方面的影响时,姚卯青回应:“DeepSeek等优秀工作给我们很大启发。我们参考了通用能力预训练加垂类数据后训练的思路,但在机器人领域增加了Latent Planner和Action Expert的创新。而且机器人是物理应用,与数字模型不同,我们的定制化创新让GO-1通用具身基座大模型更贴合具身需求。”

近期火热的智能体也引发讨论。姚卯青也表示:“Agent智能体在任务规划上有借鉴意义,但机器人更复杂,涉及小脑控制和物理交互。短期内,我们靠数据到模型的闭环,长期可能融合Agent理念。”

在技术路线上,姚卯青判断:“机器人模型尚未收敛,未来会结合模仿学习和强化学习。我们已有布局,几个月后将发布基于强化学习的Foundation Model。”

面对当前市场上大量的具身智能公司,包括有八九年历史的“老公司”,也有仅2年历史的智元科技,新公司的优势在哪里?姚卯青认为:“‘老牌公司’可能有历史包袱,战略调整难且保守。智元平均研发年龄30岁以下,势头正猛,两年走完别人八年的路,今年有望成为国内龙头。”

    以上就是本篇文章【“不做大模型,机器人是没有未来的”,智元发布首个通用具身基座大模型】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/9570.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
苹果手机涨价了吗?最新回应
近日,杭州和广州等地的非官方授权手机经销商反映,iPhone16系列价格出现上涨,尤其是高端机型如iPhone16 Pro Max,涨幅约300至5
蚂蚁集团发布最新AI成果:无需高端GPU,计算成本降低20%
每经记者:宋欣悦    每经编辑:兰素英长久以来,英伟达凭借高性能芯片构筑起“算力霸权”,在AI(人工智能)模型训练领域占
比特币年内极端走势预测:阴跌到5万,还是暴涨至25万?
撰文:Luke,火星财经2025 年 3 月 31 日,比特币在 83000 美元的边缘摇摇欲坠,较两个多月前 109000 美元的巅峰跌去约 24%。市
「酷炫十足」五款超有型的朋克风格手机,让你与众不同!电信移动双模手机「「酷炫十足」五款超有型的朋克风格手机,让你与众不同!」
随着科技进步的步伐加快,人们对于智能手机的需求日益多元化,已经不再局限于基础功能,而是开始注重个性化体验和生活质量的提升
帧间狂想曲|那些拥有绝美镜头的樱花味电影
樱花,是一期一会的春日限定,同时在电影史上承载着丰富的象征意义,既是视觉美学的核心元素,也是哲学与情感表达的载体。 胶片
价差1100元的OPPO Find X8/Find X8 Pro怎么选? FindX8/Pro对比测评军用手机「价差1100元的OPPO Find X8/Find X8 Pro怎么选? FindX8/
2024年10月24日,OPPO正式发布了年度旗舰Find X8和Find X8 Pro。这两台手机虽然同为一个系列,但是在很多配置方面完全不同。想购
SEMI全球副总裁居龙:今年全球半导体销售额预计两位数增长 2030年将达万亿美元
3月26日,SEMICON China 2025国际半导体展于上海拉开帷幕。该次开幕主题演讲汇集了全球行业领袖,演讲嘉宾们在现场分享了全球产
如何激活手机?手机激活「如何激活手机?」
简介:在现代社会,手机已经成为人们生活中不可或缺的一部分。然而,有时候我们可能会遇到手机无法正常使用的情况,这时就需要激
一键清理大师手机版手机清理大师「一键清理大师手机版」
手机中垃圾文件过多,手机越来越慢,可用内存越来越少怎么办?你可以试试kkx为大家分享的一键清理大师手机版来进行清理,帮助用
iPhone手机怎么录音?苹果手机录音教程苹果手机如何录音「iPhone手机怎么录音?苹果手机录音教程」
在日常工作中,例如涉及一些会议或者谈话记录,很多人都会有录音需求。那么iPhone手机录音该怎么操作呢?今天小编就来给大家简单