最新动态
王小川:大模型这件事我还能做多久?
2024-12-26 13:47


_


_


_


_


_

王小川

百川智能创始人兼CEO



_


_


_


_


_
以下根据王小川在高山书院北京思享课的分享整理而成,经导师审核修改后对外发布。


从4月10日开始下场做大模型,我的状态基本是“度日如年”,每天都有很多新的知识进来,每天都要做很多新的决策。

做到现在,整个行业已经没有开始的那种亢奋感了,已经慢慢有点进入到“不应期”了,比如前一阵,OpenAI 发布了“Code interpreter” (代码解释器),我觉得特别兴奋,但行业并没有展现出那种兴奋的感觉。其实我觉得这代表着AI能力又往前迈进了一步。


在今天,我们依然还处在一个“反共识”的状态当中,在与身边人沟通时我发现,大家一会儿觉得中国没机会了,一会儿又觉得中国能冲上去;一会儿觉得能做到GPT3.5的水平,一会儿又做不到;一会儿觉得没有机会做到GPT4,一会儿又要开始讲应用。


不管是理工科背景的还是技术背景的,又或者是通晓全球各种信息的顶尖投资人,依然是没有达成共识,或者是短暂的达成共识后又很快被推翻的状态。


所以大模型是一个极具挑战的事情,有点类似当初比特币出现时候的情形。它既是个技术问题,又是个商业问题,还是意识形态问题。


因为大模型的突然到来,有很多东西我们都没有来得及细想。那么今天我就跟大家分享分享整个过程中我的一些思考,一些从一开始就逐步被验证,基本没有被推翻或“证伪”的部分。



大模型五问



1. AGI是否已经到来?


从2月份开始,大家就已经在思考这个问题。很多顶尖的AI科学家也发表过一些质疑,不同的人对于这个问题有不同的见解。


我的结论非常简单,2018年的时候我就讲过:“机器掌握语言,通用人工智能就已经到来了。


Pony(马化腾)说,我们最开始以为这是互联网十年不遇的机会,但是越想越觉得这是几百年不遇,类似发明电的工业革命一样的机会。我很同意他的观点。


几百年是什么概念?


我们来画个图,从2023年往后倒推,推400多年到1785年左右,工业革命的起点。所以相当于涵盖了从工业革命到电气革命,再到信息革命一个完整的时间段。

今年4月份,微软也出了一篇几百页的文章,论述GPT4已经达到了初步的通用人工智能的阶段。他们说的是,即便是没有到来,那也是未来几年的事情了。


我们知道,以前我们讲什么事情还需要时间,都是30年50年起步,当然那也代表着大家的认知还不够,还没啥机会。但现在说的是未来三五年,十年的事儿,这就是区别了,代表着基本已经可以做到了。


那么这一次,就意味着我们可能真的开始进入到新的智能时代了,这可能是人类的最后一个时代,再往后,人类就要与机器文明产生新的融合了。



比尔·盖茨在今年3月份讲过一句话:“人工智能时代已经开启,人工智能与移动电话互联网一样具有革命性的影响。


而黄仁勋的话很简单:“我们正处在AI的iPhone时刻。


对于大模型的理解,这两个观点其实很不一样。一个是以移动电话和互联网来打比方,一个用iPhone时刻打比方。


比尔·盖茨强调的是机器的能力:可读、可写、可理解。而与之相对应的,乔布斯做产品是以人为中心,强调技术带给人的便利和舒适,“iPhone时刻”讲的是机器可以交流,使得人的能力得到了很大的拓展。


这两种理解不能去评判谁对谁错,其实就是一个大事件的两个不同部分。


比如在信息时代,有两个东西很重要,一个是芯片,一个是搜索引擎。


通用芯片或专用芯片,是基础设施,安装到设备里去,这设备就被点亮了。


而搜索引擎,以Google为代表,是互联网开启的巅峰部分。Google讲过一句话:“让信息民主化。”其实就是人人都可以享有互联网的信息。这话越听越有味道。


大模型也一样,既有基础的东西比如OpenAI给到的很多可调用的API,甚至在做私有化部署,这些是可以提升整个社会生产力的;但它也有像ChatGPT这样的人机交互的应用。


这很巧,两件事发生在同一个公司,都被OpenAI给做了。相当于是信息时代兼具“芯片”和“搜索”功能的公司,所以大模型有它的诱惑力存在。



3. 为什么AGI的起点是语言模型



维特根斯坦说,“语言的边界,就是世界的边界。”


我们来假想一个场景:如果在一个原始部落,人们只会800个单词,那这部落可能有文明吗?


没有。只有800个单词的民族,一定是很落后的。


当我们去认知这个世界的时候,自然而然地会对世界进行各种范畴化,进行各种类比,然后变成符号或者语言来表达它,再进行语言与表达之间的各种关系。所以某种程度上,语言代表着我们认知世界的一个最基础的文明能力。人与动物最大的区别是什么,就是语言和使用工具。


威廉·冯特曾说,语言是文化的载体。我去问GPT4,语言是什么的载体?它说语言是知识、思考、沟通、文化的载体。


侯世达在2019年出版过一本书——《表象与本质》,里面讲到语言在认知体系中扮演了重要角色,而在智力上扮演的角色可以说是“前无古人,后无来者”,它既不像是数学公式,也不像是图像的作用,而是预测的功能。



在现实世界当中,牛顿通过《自然哲学之数学原理》一本书,把自然哲学变成了数学。他把各种思辨的东西、物理的规律变成了数学公式或数学原理表达了出来,他用数学的方法带领人类认识了自然规律。


比如万有引力定律,有了万有引力,苹果怎么落地,天上的星星怎么运动等等都能被计算出来,也就意味着我们知道了此刻万物的状态,就能知道下一秒他们的变化,相当于是具有了解释过去和预测未来的能力。


在量子力学出现之前,大家都觉得,凭借力学三大定律和万有引力等几条公式,纷繁的物理世界就被压薄了,压缩成了几行数学模型。用最简单的数学模型来解读世界,这就是牛顿的威力所在。把一个现实世界变成一个数学模型,这是当时科学的最高境界。


ChatGPT干的事情就有点类似于预测苹果落地一样,能够预测每一句话说完后,下一个词怎么讲,这代表着对语言的预测能力,能够预测语言,基本就代表着掌握了语言。


我们常说读书是要把书读薄,今天ChatGPT就是把全世界的书都读过,然后再用预测的方法把它变成参数模型,这就是把书读薄,也就是一种“压缩”能力。


某种程度上,我们也可以说,AI把知识、思考、沟通和文化变成了数学模型,变成了数学问题。这是一件非常了不起的事情,这也是为什么说AGI的起点是语言模型。



4. AGI的世界会变成怎样的?



这是投资者和创业者最关心的问题。


我大概画了个图。从基础模型上,大概会往三个方向走。

第一方向叫生产力提升。这块更多的是体现工具的作用,通过API调用给各个行业赋能,做更好的客服,更好的问答,甚至更好的写作。


第二个方向是智能助理。现在大家也都在提这个词了,就是personal assistant。这个智能助理跟我们理解的现在的团队里的助理不是一个概念。这个助理可以帮你做很多事情,相当于每个人都有一个虚拟的团队,除了繁重的事情,还有很多更高级的事情,比如私人医生,私人律师等等,都是助理的职责。


第三个方向,我们称为开放世界。开放世界是指能够打造一个虚拟的空间,更多像游戏一样。在这个空间里我们听到的、看到的、感受到的,都是由AI去创造的。这个事情未来也会很大的想象力。大家通常容易低估游戏在人类文明当中的意义,或者它能创造的经济价值,甚至有时候对我们的文化也会有巨大的影响。


工具是比我们人类低一点的存在,而助理层面,则可能是我们的伙伴了,到了开放世界,我们就是被“包容”的所在了。


电影《异次元骇客》讲人其实是生活在超级计算机所创造的一个虚拟世界,人自己再创造虚拟世界,把自己的分身投射进去。这也是能引发我们很多思考的。


电影《异次元骇客》海报



5. ChatGPT会取代什么职业和工作?



这个问题大家都是会关心的。


前两天看到个有意思的笑话,说我们以为有了AI之后可以不用再去扫地、洗碗,可以只是去画画写诗了,结果现在发现,机器已经学会了画画写诗,我们还在扫地和洗碗。


到底什么工作容易被取代,这个答案可能跟我们之前的想法非常不一样。


简单一句话,就是在电脑面前的工作很容易被取代。2021年,OpenAI CEO 山姆·阿尔特曼预测说,人工智能将导致在电脑前进行的工作的价格下降速度远远快于现实世界中发生的工作的价格。


所以不管是你在电脑前写作还是画画,或者写代码,分析数据,都很快会被取代掉。也就是说,今天在电脑面前的工作,才是高危行业。


机器已经帮我们读万卷书了,那我们要做的就是行万里路,别再呆坐在电脑前面了。大家需要走向真实世界,多出去互动、交流会变得更有意义。


也许再过十年二十年,工作可能变得不重要了。机器参与劳作,生产供给越来越多,人就可以做自己想做的事情了,也许机器文明跟人类文明之间会来到一个新的境界当中。


4月10日我下场做大模型的时候,就写过这样一句话:让AGI帮助我们繁荣和延续人类文明。也许在智能未来里的变化,会远远超出我们自己的想象。

 



有关大模型的思考



逆工业革命


有人说这是又一次的工业革命,因为它跟工业革命一样,生产率提高。但我在想说这次跟工业革命有非常不一样的地方,我把它叫做“逆工业革命”。


工业革命一个典型的现象,就是出现了更高度的社会分工,分工越细,效率越高。而大模型出现后,就变成了端到端了,不再是社会分工了,一个人就变成一个团队、一个公司。


比如说产品经理,以前是需要产品经理提一个需求,交给开发人员去实现,然后测试人员、数据部门去配合,最后再来验收。而今天的产品经理,只需要把需求文档灌给GPT4,直接就能有结果了。


所以除了端到端,未来社会的层级、分工也都会被压扁,社会更加扁平化,这也许是智能时代到来后带来的一个很大的变化,每个人被压迫的可能性也许会减少。



从工具到伙伴


以前我们在造工具,尤其在互联网时代,我们老讲两个概念,一个是连接,一个是工具。这是上一代信息文明里面的核心性逻辑。但是我们刚才讲到ChatGPT是会语言的,掌握了语言其实就已经到了人这样一种高度,就不是把它当成工具用了。


OpenAI现在在做的PlugIn,其实是相当于人工智能已经开始使用工具了。语言帮助我们认知世界,工具帮助我们改变世界。今天机器开始具有去认知世界,改变世界的这种能力了。那么在这里面,我们更多把它当成伙伴了。


原来是连接信息,现在从信息开始它能够有知识、有思考,甚至是有经验、有服务了,开始升级了。



新文艺复兴


在文艺复兴时期,人们摆脱了教会,开始提倡人本主义。但到了工业革命之后,人都变成了“螺丝钉”,在生产线上被奴役,成为社会的一小部分。


而这次之后,可能会有更多的超级个体出现,会有更多自我实现。这里面有一定的鸡汤成分存在,但不可否认的是,如果率先拥抱新技术,个人确实是会变得更加强大的。


4月份我准备下场的时候,去问ChatGPT该怎么才能找到更多优秀的领军人物跟我一起干,ChatGPT给我列了8条建议,我一看其中有6条我没有做过,而第一条就是让我把自己的想法总结出来,写成文章发出去,所以我就写了一个下场宣言作为投身大模型的起点。


所以拥抱新技术,会给我们带来很多这样的灵感、思考或者启发。



破局之道


那如果在智能时代,社会被压扁了,人们都是超级个体,机器也变强了,那企业该怎么做?该给人提供什么样的服务才有生存可能呢?


我认为有三个事情比较重要。


一是帮助人更有创造力,底层的东西叫做让人更有存在感。如果世界因为我的存在而有所不同,那就是生命的意义所在。也就是去创造一些东西,改变这个世界。


另外的两点,一个是健康,一个是快乐。


不管是做什么东西,都可以从这三个点出发去思考技术发展的方向。比如这波做得最好的事情是“营销文案的生成”,但仔细想想,长期来看,大家需要这种文案吗?根本就不会需要。所以短期看可能会有的行业会有一波利益受损,但长期来看,这不是关键所在。所以该做什么不该做什么,就会有所取舍。

 


百川智能的实践


6月16日我飞了趟美国,去之前我提出一个理念:在理想上慢半步,在落地上快半步。回来后我改了,改成了:在理想上慢一步,在落地上快三步。


为什么改?因为去了美国之后,我发现OpenAI是一个“疯子”公司,他们追求尽早实现AGI的想法已经达到了无以复加的地步,不管是投入多大的人力和财力,甚至是想象力。


除了成本极其高,还有很多现实限制,所以在中国,我们是无法复制OpenAI的。单纯去追赶他的进度我觉得是没有多大意义的。相反,在落地这块,则是OpenAI的短板,当时误打误撞做出了ChatGPT,但其实作为产品,还是有很多东西没有想清楚的。


而落地做产品,我们现在要做三件事。


首先要做的是搜索增强。大家都知道人工智能里有个词叫“幻觉”,幻觉是什么,就是非事实。要解决幻觉问题,一个办法就是做大规模,当规模到10倍100倍的时候,幻觉率就会降下来,但那其实是不具有实操性的。


那我们要做的就是用事实类的问题来解决,用检索的模式来总结问题,这样就会降低幻觉。OpenAI没有这么做是因为他们一股脑儿地往往前冲,虽然用了一点强化学习的技术在里面,但并不多。


第二件事就是做对话增强。让人机对话更加友好,甚至在垂直领域比如医学领域上,让医学问题识别更准确。


第三件事是做超级应用。OpenAI疯狂追求模型的更大,其实有点把大家带沟里去了,超级应用实际上唾手可得,之前在技术如此落后的时代里面,大家都能做搜索和输入法,现在有大模型的加持,就更不用说了。另外,做应用其实中国是比美国有优势的。


关于搜索与大模型的关系,今年年初的时候大家都就觉得他们是对立面,OpenAI是颠覆搜索的,但实际上这完全是一个误解,而现在大家也都慢慢达成了共识,认为搜索经验能够助力大模型的研发。


为什么这么说?


今天我们知道,做大模型大家都会考虑三个层面:数据、算法和算力。


其实做搜索的公司天然就有数据,并且都是高质量数据,都已经经过了抓取、抽取、清洗、去重、反垃圾等等操作,再去做大模型,相当于是菜已经放在砧板上,就差炒一炒了。对比来说,其他公司要做的话,就会难很多。


算法其实就是以自然语言处理为中心,然后把算法工程进行迭代,但这种迭代并不是单一的工程问题,而是在文本数据驱动下,算法和工程连轴运行。


数据评价是推动进步的一个重要手段,做大模型的时候,很多公司不知道怎么评价。而在这里面,做搜索的公司又天然能干好这个活儿。它会把数据分门别类做好,然后用人机结合的方式去评价数据好不好,根据指标变化每次都会据此来迭代一版算法。


算力这件事呢,坦白讲所有公司都差不多,做训练是个新物种,大家都没怎么干过。所以我们招人的时候也会发现,能做算力的工程师都特别贵。


目前大模型存在的共识问题基本就是:幻觉率、时效性和安全性。


幻觉率可以通过搜索事实来解决。


而对于大模型的时效性问题,我们知道之前OpenAI的数据是更新到2021年的,原本那个模型它的确就不是一个能够快速更新的系统,而现在我们做ToB的时候,大家都开始提到“大模型+向量数据库”,“向量数据库”其实是搜索的一个子集,2018年有了“Transformer”之后,搜索引擎公司就开始从倒排索引转向语义索引两套并行的模式,相当于已经完成了向量数据库的储备。


在安全性方面,需要用各种混合搜索技术去保持高度的政治敏感性,很不容易做。


今年4月份下场的时候,很多投资人预计我们最快10月份发第一个版本的大模型。实际上6月份我们的第一个版本Baichuan-7B就发出来了,7月10日我们又发布了第二个版本Baichuan-13B,参数是130亿,大概是GPT3.5的1/15,GPT4的1/200。如果是商业实践,基本这两个版本就是最好的尺寸了。


这样也证明了我之前的判断,做搜索的公司确实是有优势和能力在里面的。


预计很快我们将会发布超级底座,目前内部测试大概是仅次于百度,百度现在发展速度非常快,我们现在是处于第二名的位置。预计在第四季度将会发布智能助理,还有一些其他的路线图还在进行中。另外,关于开放世界,我们也会涉足。


关于新发的这个Baichuan-13B,我还想补充几句。


之前我们在做Baichuan-7B的时候,相当于房地产开发商只是做了一个毛坯房,要住人的话,还需要企业自己有精装修的能力。但后来发现中国社区的力量还不太够强,很多人不懂,直接拿着毛坯房就想用,最后发现效果很不好。


但我们的考虑是,如果一开始就开发精装房,很多人有自己的需求,最后又要拆掉重新装,那性能也会变低。


所以在研究Baichuan-13B的时候,我们开发了“精装房”和“毛坯房”两种规格,免费商用,各取所需。


另外,百川智能之所以做这些事情,跟我们最开始的思考是一致的。我们希望这轮技术能够使得大家轻松普惠地获得世界知识和经验,甚至到专业服务。这件事情在未来有巨大的空间。



问答环节


Q1

OpenAI不计成本地投入到大模型中,你怎么看他们这个不断增加的成本和效率之间的关系?很多人说未来人工智能的发展是混合式的,当我需要的时候就从云上找大模型去算,但更多的时候是在手机或汽车智能终端来操作,这种“云+终端”的模式是效率最高的吗?你怎么看?

答:OpenAI现在是提了三个词:Scale、Cost、Speed。就是“既要又要”。一方面他们是在做前沿的大模型,追求速度,另一方面在应用方面的部署,他们也是在大量降低成本的。


我们知道GPT3.5的参数是1750亿,但是应用层面他们部署的大概是100亿-500亿参数这样的一个尺寸,是蒸馏过的一个小模型,在单独不断地优化,不断地降低成本。同时他们也计划在今年年底前把GPT4的成本降到1/4。


他们有钱去追求丰满的理想,其实也干了不少落地的活儿。


第二个问题,学院派的都是只管发Paper,但实际操作中其实我们做的都是混合系统。我们做搜索也一样,有的系统是三个月更新一次,有的是5分钟更新一次,也都是混合系统,单一的系统是跑不动的,这里面有大量的各种技术在里面。


Q2

刚才您分享说,牛顿把物理世界变成了一个数学模型,而大模型则把语言转换成了数学模型。这里我有一点不同想法。我觉得这两者是有区别的,区别就是中间过程的可解释性。


物理过程的每一步都可以用公式推导出来,但大模型某种程度上来讲更像是经验学,或者有点像是中医,我们不知道它是怎么做到的,这个不可解释性也意味着我们不知道怎么去改进它。在这种情况下,OpenAI投入那么多,未来真的能搞出来一个突破性的东西吗?


答:我们大部分人应该都看过《三体》小说或者电视剧,外星文明如此发达,但三个天体的运行轨迹都找不到规律,这说明还原论的体系是有天花板的。


我们总是想要从第一性原理的角度去找到一个基本公式来解释世界,但这次是遇到了瓶颈,这一次其实可以说是经验主义者的胜利。靠经验主义把它变成了一个数学问题。


之前AlphaFold研究蛋白质三维结构的时候其实用的也是这个路数。就是用大量的数据做成一个神经网络模型,然后再去找基因对应的蛋白质三维结构,在制药领域找药物靶点也是这样做的,都是相当于在一个黑箱子里做事情。


在当前的环境下,这个模型能够解释过去,能够预测未来,能够做到实用,在当下这就够了。要不然还能怎样呢,制药不做了吗?


所以其实我想说的是,大模型它就是一种经验主义的胜利,一种现代的、靠数据驱动的新的范式正在构建当中。


另外我还想说的一点事就是,我们要先尝试再去解释。大家都希望大模型能够像人一样去做各种事情,不管是加代码还是做什么,其实就是在增强它的可解释性。


一步步努力,慢慢来,再有所突破。不完美的话就去改进,如果我们的理论不符合现实,那就修改理论而不是去改变现实。


Q3

刚才分享中您讲到说,未来电脑前面的工作都会被取代,那有没有可能人类当中最有创造力的人都将被取代?未来机器有可能解决目前人类尚未解决的问题吗,比如黎曼猜想这种的?


答:我觉得主要还是需要定义什么是创造力。在我心目中,Evolution就是一种创造力。现在依托大模型有很多的创业,比如Midjourney画画这件事,他们能画已经存在的东西,这不稀奇,但是他们同时也能画不存在的东西,我觉得这就是创造力。


比如说凤凰、麒麟等等这类虚幻的,都是传说,但是机器就非常擅长,从已知的东西去做未知的东西。另外还有格式明确的论文,编译性文件等等,机器都比人类更擅长。


但还有一些东西,是要去创造或发明一种新的理论,用这个理论去刻画事实,比如说相对论。而在这个方面,大模型是不具备这种能力的。


当然还有很根本的一点,机器不能生孩子()

 

Q4

我很喜欢百川智能提出的使命:帮助大众轻松、普惠地获取世界知识和经验。


你刚才讲到,语言大模型出来之后,搜索将由原来的信息搜索变成了知识搜索。我们知道,原来的信息搜索能够促进网页内容的生产,它在网页内容生产者和消费者之间创造了一个价值闭环,最终不管是用广告的形式还是注意力的形式,都能够给内容创造者以激励。


但现在GPT其实是一次性收割了过去的知识。但对于未来,我们其实还是需要大量细微的知识或者专业的经验,比如医生的经验等等,而这些知识或经验也都是需要不断维护到新的知识引擎里的,才能发挥更大的价值。所以我想问问未来场景下,经验的生产者能在这个过程中获得什么好处呢?


答:在我们设计体系当中,第一步是先把现有的知识用起来;第二步再去构思怎么能把内容生产者引进来,让他们参与创作,让他们有刷存在感的空间。


刚才我们提到一个新的概念叫“信息到经验”。其实信息和经验是两个平级的东西,是无法互相取代的。互联网上的信息是一种更加稳固的存在,但经验是需要依靠人不断去创造的,就比如像小红书这样的存在,其实就是一个生活经验的引擎。


现在我们并不能确定机器能不能创造这种经验,它可能需要人创造出各种经验之后再去做聚合之类的工作,但也或许它也可能完全不能替代人去做这样的事情。这也是我们现在需要去思考的一种重要的问题。


去年的时候我不是这样思考的,但现在我觉得我开窍了。


作为理工男,我之前一直认为知识是最重要的,比如日心说是重要的,行星的运动估计是重要的,经验算啥呢?


但后来我发现,当我们把自己拉回到地球的时候,这个东西就没那么重要了。用我之前打过的一个比方就是,我把经验比作是糖,是特别容易消化吸收这个东西,知识则是蛋白质,不好消化吸收。你看大家的反应也都是更愿意吃糖而不是蛋白质。所以某种程度上怎么去找“糖”也是我面临的一个新的课题。


就像刚才提到的医疗里面,很多医学经验其实是只停留在医生的脑子里的,怎么去把很多有用但很散的经验收集起来,形成闭环,做成一个大的生态系统,那可能未来我们每个人都将会有一个数字的家庭医生,医疗资源挤兑这种事情就会缓解很多。


Q5

我们也在做生命科技方向东西,如果我们要选百川智能合作,我也很想问一个问题,就是你创业的初心是什么,这件事情你能做多久,会投入多大程度的精力去做?


答:我做了20年搜索,从来没有人跟我说我适合做搜索,但我开始做百川,好多朋友都来跟我说,小川,你特别适合做大模型。


后来我想通了,做搜索这个经历在我的人生阅历里面,它可以增加自己经验和定力,但是外部看来可能并不是一个加分项。而这次做百川,可以说是对自己很大的一个修复,把原来积累经验都给用起来。


这次我甚至连名字放进去了,百川的川,就是王小川的川。


做百川,完全是出于我自己的决心要做的,我觉得这是一个使命驱动的事情。我并不是想靠这个获得多大的回报,更多的其实是想做一些让社会更美好的事。人最底层的原动力就是刷存在感,而不是有钱。如果能做出一些有意义的贡献,让这个世界因为你的存在而有所不同,我觉得这就足够了。