热门推荐
四木专访|「灵宇宙」顾嘉唯:半年完成三轮融资,携新一代智能硬件OS亮相CES
2025-02-26 10:48

四木相对论:这一次成立的新公司叫「灵宇宙」,这个名称背后有什么含义?


顾嘉唯:我们一直有一个努力的方向,就是探索机器和AI的“灵魂”。“万物有灵”是我们追求的理念,“灵”也是我们公司名字。


“灵”体现的是机器“醒来”,开始解读人的意图,像人一样去表达。


从2016年我决定创业开始,就想把机器的这一层主动交互和灵性做出来,这件事情是没有变过的。


要实现这个“灵”,我们一直在做解读和解构物理世界的事情,也就是对物理世界的理解。


比如之前在百度。最早我们做小度机器人,就是把身体变成了一个可操作的空间;做Face U人脸识别的项目,就是把第三视角的交互变成一个可理解空间;又或者做一个可穿戴的设备,可以让机器看到人的第一视角,第一视角的空间也能被理解。


后来这种机器对空间的理解能力,被李飞飞提出的“空间智能”概括,也就是在文本、语音之外,对视觉、三维空间乃至时序信息的综合理解,同时也能完成与物理世界交互。


我们之前在「物灵」做了Luka,卖了接近1000万台,服务了400万个家庭,也是对这个理念的实践。


它的核心是增加物理世界交互。比如你可以通过手指的运动,指定它的阅读内容,也通过一双可以变化神情的“大眼睛”来表达阅读方向和情绪。


Luka给行业带来一些好的定义。所有的学习机、故事机、早教机全都是带摄像头交互的。也就是说,我们开创这个品类之后,它就变成一个明牌了,都觉得这个东西很好。


不过当时的Luka距离真正的“灵性”还有距离。灵性是个综合的体验和表达,如果能够把物理世界的理解和与人的交互都做到下一个层级,它就具备了灵性的能力。


四木相对论:这里的“下一个层级”具体怎么理解?


顾嘉唯:从效果上来说,我认为主动交互非常重要,机器能察言观色,有及时反馈,有情感连接,能让用户能保持在一个被动、舒适的状态。


从路径来看,很可能是基于LLM大模型对意图理解的升维,通过IOT和传感器收集全天候数据,实现场景智能,进行空间智能,Agent实现自动化执行,最终实现属于每个人的Personal AI,个性化人工智能。


从底层模型结构上看,这体现的是物件、空间、动作、行为之间的关系模型。


要做到这一层,机器的环境感知和情感表达是不可缺少的环节,能准确快速地识别用户意识,主动与用户做出交互。类比机器人,就是“感知系统”、“决策系统”。


如果用更为专业的术语来讲,我们称为“关系模型”和“交互大行为模型”。


上一个时代在做类似的事情时,包括我在内的从业者基本都遇到挑战。


首先,当年的AI能力有限,每一个行业,CV、NLP、 TTS等相关技术都是一个单独的技术栈,产品层面没法做统一多模态,这就使得最后的终端产品无法实现“察言观色”的智能。


其次,数据飞轮的效应,必须建立在对用户行为、用户周围的环境的共同建模上。每个行业如果不自己真正去磕一个硬件闭环,很难做到数据闭环,也很难通过产品迭代将用户场景和需求价值打透。


四木相对论:也就是说,这一次大模型让“灵性”更容易实现。


顾嘉唯:从机器人的“感知、决策、执行”三大要素去拆解,可能更容易理解“灵性”来自于哪里。


感知是信息数据的输入,是对物理空间诸多信息的理解与认识。这其中就包括文字、语音、图像、视频等等数据模态。决策是对感知的内容进行分析和处理,进而发出指令,形成任务,指导机器人的行为。


在上一个周期中,每一个模态如听觉、视觉、触觉都需要用CNN、RNN的模式,分别去做感知,基于rule-based(机器按照人的定义确定的一个映射,输入问题的数据,输出一个问题的答案)写规则,然后统一决策去做实现,效率低,泛化也比较难。


我们当时投的Jibo,是请了百老汇的人来写脚本,写了10万个对子。然后我们再把对子用rule- based实现。


现在有了大语言模型,以往用rule-based去写的东西,变成Transformer的底层。视觉数据加入模型混训之后,机器有了统一的多模态感知能力,也有了涌现情感表达和输出的能力。通过大模型和Finetune的生成模型,可以实现高级任务的情感表达,并自动生成多模态时序任务。


在环境感知的方面,大语言模型整体能力提升,尤其是多模态模型,增强了对环境的理解,可以提升用户意图预判的准确性,这是最大的一个变化。


在决策方面,首先之前基于rule-based数据库的决策机制转到了类似大脑决策的生成模型,最后调用大模型的Agent去完成任务输出。


再往底层是小脑和执行,这一部分是目前多数人形机器人在“卷”的部分。


而我们更多是做更上一层,也就是感知、交互以及大脑侧的Agent,这也是我们和其他人形机器人公司最大区别的地方。


类似于自动驾驶行业,以往都是基于Rule-based, 要经过感知、决策、控制等环节。特斯拉采用了“端到端”的方案。


今天,AI硬件和具身智能很可能也会经历类似的阶段,有机会从原来的意图理解能力,直接做到对环境的预感知和预决策,甚至直接做到决策。


我们把这一套感知—决策模型系统定义为“ LingOS(灵OS)”。我们希望这是一种通用的能力,可以在多种垂类场景中使用。


四木相对论:对「灵宇宙」来说,现在做这件事的壁垒是什么?


顾嘉唯:机器人的“灵性”必须要做到空间交互智能,而感知是实现空间交互最重要的环节。在这个环节中,数据积累又是最核心的。


类比特斯拉做自动驾驶的视觉方案,本质其实是先完成司机这一人物行为与真实世界互动的数据构建,然后将数据重新标定后,加入模型训练当中。


这个路径复制在具身上,就有一个最大的问题,就是时效成本太高了。具身机器人的数据标定要通过机器背后操作人完成各个动作才能构建。具身机器人要执行的任务非常发散,几乎不可能穷举所有任务来进行数据的标定。


所以我们的思路是,铺出足够量级的消费终端和AI硬件,来换回数据流的闭环,这数据流有三种。


第一种就是真机抛进去,让机器去和人交互,完成数据的闭环。这主要是第三视角的数据,就是机器人眼中,人在做各种任务和各类交互时的反应。


第二种是第一视角的数据流,即人类与物理世界直接交互的面对面数据。这种数据,可以通过一个可穿戴式陪伴式设备获取。


第三种数据是视频数据混训的内容,这里体现在情感表达能力以及进一步排除鸡尾酒效应的能力。


这些数据之外,还有一个关系算法的链接,就是让机器与用户存在长期互动关系,有记忆能“懂你”。

    以上就是本篇文章【四木专访|「灵宇宙」顾嘉唯:半年完成三轮融资,携新一代智能硬件OS亮相CES】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/quote/9664.html 
     动态      相关文章      文章      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多