文章      动态     相关文章     最新文章     手机版动态     相关动态     |   首页|会员中心|保存桌面|手机浏览

hmu3ft

http://fabua.ksxb.net/comhmu3ft/

相关列表
文章列表
  • 暂无文章
推荐文章
联系方式
  • 联系人:李女士
  • 电话:15533179685
从DeepSeek聊到AGI,Lex Fridman这期播客值得一听|投资笔记第208期
发布时间:2025-03-17        浏览次数:0        返回列表

图片

投资笔记是纪源资本关于投资、商业、科技的所见所闻所想,探讨关于世界的一切。

在这里,你可以收获:

全球优秀科技公司管理经验、一线调研;
顶级风险投资人&创业者经验分享;
大航海时代的世界人文历史、商业见闻……

以下是第208期。

一期长达5小时的播客,究竟谁在听?MIT人工智能研究员、知名播客主持人及科技传播者Lex Fridman的对谈节目《Lex Fridman Podcast》近期推出了有关的一期内容:
“DeepSeek,China,OpenAI,NVIDIA,xAI,TSMC,Stargate, and AI Megaclusters|Lex Fridman Podcast”。
截至3月7日,这一期节目在YouTube上获得了178万播放量和2.5万like(点赞),对DeepSeek所代表的AI大模型革新的解读,获得了大量科技界、商界从业者的关注。
图片

Lex Fridman是MIT人工智能研究员,生于俄罗斯,后移民美国,拥有计算机科学博士学位,研究方向为深度学习和自动驾驶。在他的播客中多次提到自己的老本行AI深度学习业的近况。

此前Lex Fridman大部分节目都只有一位嘉宾,本期节目却邀请了两位,分别是Dylan Patel和Nathan Lambert。Dylan Patel是半导体、GPU、CPU和通用AI硬件的知名研究分析公司SemiAnalysis的首席分析师,Nathan Lambert则是Allen人工智能研究所的研究科学家,自己也拥有一个以AI为主题的博客Interconnects
那么,这期讲述DeepSeek的为时5小时的播客,讲了哪些要素?

我们特意请Deepseek自己总结了一下:


本期播客内容本身非常技术化,涉及AI模型的架构、训练成本、开源与闭源模型、地缘政治因素,以及半导体产业的现状和未来。


播客中提到了DeepSeek推出的V3和R1模型,特别是R1作为推理模型的特点,比如能够展示推理的思维链,而不仅仅是最终答案。这可能是技术上的一个亮点,因为它提高了模型的可解释性。


接着,关于开源与闭源的讨论,DeepSeek的开源策略被认为对行业有积极影响,可能迫使其他公司更加开放。同时提到了开源在AI发展中的作用,以及不同许可证对商业应用的影响。


此外,播客还涉及(通用人工智能)的时间表预测,以及不同专家对未来发展的看法。


最后,关于计算集群的建设和能源消耗的问题,讨论了各大公司(如OpenAI、meta)如何构建大规模GPU集群,以及这些集群对电力基础设施的挑战。


其中的亮点部分集中在DeepSeek技术上的创新(如DeepSeek的推理模型)、开源策略的影响、地缘政治对技术发展的制约、半导体产业的竞争格局,以及AGI发展的前景和挑战。同时还提到了一些具体技术细节,如混合专家模型(MoE)、多头潜在注意力(MLA)等,以及这些技术如何提升模型效率和性能。

展开来看的话,节目里提到了哪些重要信息?
首先,几位嘉宾最先讨论的问题是:DeepSeek与OpenAI目前的模型究竟区别在哪?而与DeepSeek-R1两款同宗同源的模型又相差几何?
图片

OpenAI所推出的o3-mini是OpenAI于2025年1月31日发布的推理模型,主要面向开发者,支持函数调用、结构化输出和开发者消息等功能。DeepSeek-V3和DeepSeek-R1,其中后者近期在中国各行业中被广泛采用。DeepSeek-R1与o3-mini,前者可能提供完整的推理思维链,而后者大多只提供推理摘要;前者是开源,后者并非开源。

为了方便理解,Nathan Lambert引入了概念“语言训练模型中的预训练和后训练”,OpenAI与DeepSeek的预训练都使用了大规模互联网文本预训练方式,在后训练方面,DeepSeek的base版本进行了两种不同的后训练,得到了DeepSeek-V3推理模型。此后DeepSeek在此基础上,又采用了新的推理训练方法,才得到了DeepSeek-R1模型。

R1的R代表Reasoning(推理),人们提问时,DeepSeek-V3会快速生成token,这些token会组合成易于理解的人类语言答案。而DeepSeek-R1在生成答案之前,会以token的形式快速解释、分解问题。

图片

第二,播客中也提到了一个重要概念:开源权重。“开源权重”是指语言模型的权重数据在互联网上公开,供人下载。这些权重数据可能附带不同的许可证,因为即使是相似的模型,也可能采用不同的许可条款。完全开源包括开源代码、开源数据和开源权重,尽管DeepSeek并没有开源前两者,但已经在引领整个行业走向开源路线了。Lex Fridman点评DeepSeek为“信息披露方面做得非常出色,技术报告质量很高,内容详实,而非泛泛而谈”。

第三,节目中还讨论了一个备受关注的问题“以如今的AI模型的发展境况来看,它的最佳应用场景会是什么”。

Nathan Lambert认为,早期的语言模型在数学和代码能力方面表现较弱,需要聘请数学和编程专家来编写高质量的问答数据,但如今AI模型在编写高质量的数学和代码答案方面已经超越了人类,而且它开始表现出类似人类的思考过程。它会披露诸如“让我想想”“让我检查一下”“哦,这里可能有个错误”这些思考过程,这将使人类在推理模型训练中的作用进一步降低。

Dylan Patel提出了自己的观点,数学方面可验证的任务相对有限,但是在编程方面还有很大的提升空间。真正的“顿悟时刻”可能会出现在计算机使用或机器人技术领域。一旦AI模型将能够完成更复杂的任务,例如去某个众包平台完成任务,并且以获得大量点赞作为自己的正反馈模式,那么就相当于一个能够进行无数次试错的机器,前途无量。

此外,如何客观地去看待DeepSeek目前的能力水平?嘉宾们还小小地“八卦”了一下——通过和行业数据的对比,嘉宾们得出了以下结论:

1)人才配备:例如,节目中,三位科学家对于DeepSeek的人才配备称赞不已,他们认为,为了实现超高效训练,DeepSeek能够在NVIDIA芯片的CUDA层(Compute Unified Device Architecture,计算统一设备架构)或更底层进行了优化,具备这种能力的人才是绝对顶尖人才,即使在美国的前沿实验室也确实不多。

2)商业前景:DeepSeek的盈利能力不容小觑,GPU(图形处理单元)的数量和计算能力决定了训练时间和成本,拥有更多GPU,就可以支撑更多企业客户。DeepSeek在2021年就拥有10,000个GPU,Dylan Patel所在的机构SemiAnalysis猜测,它所实际拥有的GPU数量可能接近50,000个。

3)成本:不仅实现了高产能,DeepSeek还真正做到了低成本。DeepSeek-R1的输出token价格是大约2美元/每百万个token,而OpenAI-o1是大约60美元/每百万个token,差别巨大。

图片

探讨DeepSeek之余,几位嘉宾无法掩饰对于创始人梁文锋的喜爱。他们形容他为一个“像Elon Musk、黄仁勋式的人物,事必躬亲,参与公司的方方面面”,Lex Fridman表示,自己最近刚请了一位中文翻译,希望有机会能够与梁文锋对谈。

节目里还提及了一个AI界非常著名的概念或方法论:YOLO,You only Live Once(你只活一次)。在大规模训练前,研究人员需要反复试验不同的模型架构、超参数、专家模型配置等等,当实验积累到一定程度,他们会选择一个最优或最有潜力的配置,“拿出所有的资源,选择认为最靠谱的配置,然后全力以赴,冲啊”的方式开始冲刺。


“YOLO运行”与all in异曲同工,背后都有拼尽全力赌一把的含义。对于科学家们来说,“赌一把”仍是他们难以避免的方法论。在三位大牛的对谈中,谈到了“YOLO运行”的两类研究人员的不同偏好,一类人员重视方法论,会系统地探索整个搜索空间,分析不同配置的消融结果,力求找到最佳方案。而另一些研究人员则更依赖直觉,去感受YOLO运行的最佳时期。毕竟科学家也是人,三位主播最后打趣道,在很多情况下,运气也是一种技能。

最后,一个被重点谈论的话题是:AGI(通用人工智能Artificial General Intelligence)时代何时会到来?