Lex Fridman是MIT人工智能研究员,生于俄罗斯,后移民美国,拥有计算机科学博士学位,研究方向为深度学习和自动驾驶。在他的播客中多次提到自己的老本行AI深度学习业的近况。
我们特意请Deepseek自己总结了一下:
本期播客内容本身非常技术化,涉及AI模型的架构、训练成本、开源与闭源模型、地缘政治因素,以及半导体产业的现状和未来。
播客中提到了DeepSeek推出的V3和R1模型,特别是R1作为推理模型的特点,比如能够展示推理的思维链,而不仅仅是最终答案。这可能是技术上的一个亮点,因为它提高了模型的可解释性。
接着,关于开源与闭源的讨论,DeepSeek的开源策略被认为对行业有积极影响,可能迫使其他公司更加开放。同时提到了开源在AI发展中的作用,以及不同许可证对商业应用的影响。
此外,播客还涉及(通用人工智能)的时间表预测,以及不同专家对未来发展的看法。
最后,关于计算集群的建设和能源消耗的问题,讨论了各大公司(如OpenAI、meta)如何构建大规模GPU集群,以及这些集群对电力基础设施的挑战。
其中的亮点部分集中在DeepSeek技术上的创新(如DeepSeek的推理模型)、开源策略的影响、地缘政治对技术发展的制约、半导体产业的竞争格局,以及AGI发展的前景和挑战。同时还提到了一些具体技术细节,如混合专家模型(MoE)、多头潜在注意力(MLA)等,以及这些技术如何提升模型效率和性能。

OpenAI所推出的o3-mini是OpenAI于2025年1月31日发布的推理模型,主要面向开发者,支持函数调用、结构化输出和开发者消息等功能。DeepSeek-V3和DeepSeek-R1,其中后者近期在中国各行业中被广泛采用。DeepSeek-R1与o3-mini,前者可能提供完整的推理思维链,而后者大多只提供推理摘要;前者是开源,后者并非开源。
为了方便理解,Nathan Lambert引入了概念“语言训练模型中的预训练和后训练”,OpenAI与DeepSeek的预训练都使用了大规模互联网文本预训练方式,在后训练方面,DeepSeek的base版本进行了两种不同的后训练,得到了DeepSeek-V3推理模型。此后DeepSeek在此基础上,又采用了新的推理训练方法,才得到了DeepSeek-R1模型。
R1的R代表Reasoning(推理),人们提问时,DeepSeek-V3会快速生成token,这些token会组合成易于理解的人类语言答案。而DeepSeek-R1在生成答案之前,会以token的形式快速解释、分解问题。
第二,播客中也提到了一个重要概念:开源权重。“开源权重”是指语言模型的权重数据在互联网上公开,供人下载。这些权重数据可能附带不同的许可证,因为即使是相似的模型,也可能采用不同的许可条款。完全开源包括开源代码、开源数据和开源权重,尽管DeepSeek并没有开源前两者,但已经在引领整个行业走向开源路线了。Lex Fridman点评DeepSeek为“信息披露方面做得非常出色,技术报告质量很高,内容详实,而非泛泛而谈”。
第三,节目中还讨论了一个备受关注的问题“以如今的AI模型的发展境况来看,它的最佳应用场景会是什么”。
Nathan Lambert认为,早期的语言模型在数学和代码能力方面表现较弱,需要聘请数学和编程专家来编写高质量的问答数据,但如今AI模型在编写高质量的数学和代码答案方面已经超越了人类,而且它开始表现出类似人类的思考过程。它会披露诸如“让我想想”“让我检查一下”“哦,这里可能有个错误”这些思考过程,这将使人类在推理模型训练中的作用进一步降低。
Dylan Patel提出了自己的观点,数学方面可验证的任务相对有限,但是在编程方面还有很大的提升空间。真正的“顿悟时刻”可能会出现在计算机使用或机器人技术领域。一旦AI模型将能够完成更复杂的任务,例如去某个众包平台完成任务,并且以获得大量点赞作为自己的正反馈模式,那么就相当于一个能够进行无数次试错的机器,前途无量。
此外,如何客观地去看待DeepSeek目前的能力水平?嘉宾们还小小地“八卦”了一下——通过和行业数据的对比,嘉宾们得出了以下结论:
1)人才配备:例如,节目中,三位科学家对于DeepSeek的人才配备称赞不已,他们认为,为了实现超高效训练,DeepSeek能够在NVIDIA芯片的CUDA层(Compute Unified Device Architecture,计算统一设备架构)或更底层进行了优化,具备这种能力的人才是绝对顶尖人才,即使在美国的前沿实验室也确实不多。
2)商业前景:DeepSeek的盈利能力不容小觑,GPU(图形处理单元)的数量和计算能力决定了训练时间和成本,拥有更多GPU,就可以支撑更多企业客户。DeepSeek在2021年就拥有10,000个GPU,Dylan Patel所在的机构SemiAnalysis猜测,它所实际拥有的GPU数量可能接近50,000个。
3)成本:不仅实现了高产能,DeepSeek还真正做到了低成本。DeepSeek-R1的输出token价格是大约2美元/每百万个token,而OpenAI-o1是大约60美元/每百万个token,差别巨大。
节目里还提及了一个AI界非常著名的概念或方法论:YOLO,You only Live Once(你只活一次)。在大规模训练前,研究人员需要反复试验不同的模型架构、超参数、专家模型配置等等,当实验积累到一定程度,他们会选择一个最优或最有潜力的配置,“拿出所有的资源,选择认为最靠谱的配置,然后全力以赴,冲啊”的方式开始冲刺。
“YOLO运行”与all in异曲同工,背后都有拼尽全力赌一把的含义。对于科学家们来说,“赌一把”仍是他们难以避免的方法论。在三位大牛的对谈中,谈到了“YOLO运行”的两类研究人员的不同偏好,一类人员重视方法论,会系统地探索整个搜索空间,分析不同配置的消融结果,力求找到最佳方案。而另一些研究人员则更依赖直觉,去感受YOLO运行的最佳时期。毕竟科学家也是人,三位主播最后打趣道,在很多情况下,运气也是一种技能。