商务服务
ChatGPT背后天价超算力!上万颗英伟达A100,烧光微软数亿美元!
2024-12-31 15:26

新智元

ChatGPT背后天价超算力!上万颗英伟达A100,烧光微软数亿美元!

ChatGPT背后,是微软超级昂贵的超级计算机,耗资数亿美元,用了英伟达数万颗芯片。

ChatGPT能成为如今火遍全球的顶流模型,少不了背后超强的算力。

数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天)。

那么,作为依托的那台微软专为OpenAI打造的超级计算机,又是如何诞生的呢?

微软在官博上连发两文,亲自解密这台超级昂贵的超级计算机,以及Azure的重磅升级——加入成千上万张英伟达最强的H100显卡以及更快的InfiniBand网络互连技术。

基于此,微软也官宣了最新的ND H100 v5虚拟机,具体规格如下:

  • 8个NVIDIA H100 Tensor Core GPU通过下一代NVSwitch和NVlink 4.0互联
  • 每个GPU有400 Gb/s的NVIDIA Quantum-2 CX7 InfiniBand,每个虚拟机有3.2Tb/s的无阻塞胖树型网络
  • NVSwitch和NVlink 4.0在每个虚拟机的8个本地GPU之间具有3.6TB/s的双向带宽
  • 第四代英特尔至强可扩展处理器
  • PCIE Gen5到GPU互连,每个GPU有64GB/s带宽
  • 16通道4800MHz DDR5 DIMM

数亿美元撑起来的算力

大约五年前,OpenAI向微软提出了一个大胆的想法——建立一个可以永远改变人机交互方式的人工智能系统。

当时,没人能想到,这将意味着AI可以用纯语言创造出人类所描述的任何图片,人类可以用聊天机器人来写诗、写歌词、写论文、写邮件、写菜单……

为了建立这个系统,OpenAI需要很多算力——可以真正支撑起超大规模计算的那种。

但问题是,微软能做到吗?

毕竟,当时既没有能满足OpenAI需要的硬件,也无法确定在Azure云服务中构建这样庞大的超级计算机会不会直接把系统搞崩。

随后,微软便开启了一段艰难的摸索。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell(左)和微软战略合作伙伴关系高级总监Phil Waymouth(右)

为了构建支持OpenAI项目的超级计算机,它斥资数亿美元,在Azure云计算平台上将几万个Nvidia A100芯片连接在一起,并改造了服务器机架。

此外,为了给OpenAI量身打造这个超算平台,微软十分尽心,一直在密切关注着OpenAI的需求,随时了解他们在训练AI时最关键的需要。

这么一个大工程,成本究竟是多少呢?微软负责云计算和人工智能的执行副总裁Scott Guthrie不愿透露具体数目,但他表示,「可能不止」几亿美元。

OpenAI出的难题

微软负责战略合作伙伴关系的高管Phil Waymouth指出,OpenAI训练模型所需要的云计算基础设施规模,是业内前所未有的。

呈指数级增长的网络GPU集群规模,超过了业内任何人试图构建的程度。

微软之所以下定决心与OpenAI 合作,是因为坚信,这种前所未有的基础设施规模将改变历史,造出全新的AI,和全新的编程平台,为客户提供切实符合他们利益的产品和服务。

现在看来,这几亿美元显然没白花——宝押对了。

在这台超算上,OpenAI能够训练的模型越来越强大,并且解锁了AI工具令人惊叹的功能,几乎开启人类第四次工业革命的ChatGPT,由此诞生。

非常满意的微软,在1月初又向OpenAI狂砸100亿美元。

可以说,微软突破AI超算界限的雄心,已经得到了回报。而这背后体现的,是从实验室研究,到AI产业化的转变。

目前,微软的办公软件帝国已经初具规模。

ChatGPT版必应,可以帮我们搜索假期安排;Viva Sales中的聊天机器人可以帮营销人员写邮件;GitHub Copilot可以帮开发者续写代码;Azure OpenAI 服务可以让我们访问OpenAI的大语言模型,还能访问Azure的企业级功能。

近日,微软举办了一场AI发布会,宣布将推出名为Copilot(副驾驶,助手[koup'ailət]人工智能服务,并将其嵌入Word、PowerPoint、Excel等Office办公软件中,该技术主要运用于工作场景,被嵌入能够帮助用户生成文档、电子邮件以及幻灯片等。

随着硅谷两家竞争进入白热化,微软突然宣布GPT-4全面接入微软Office,不管是Word、Excel、PPT,还是Outlook、Teams、Microsoft Viva、Power Platform,都将植入GPT-4!

这款名为Microsoft 365 Copilot(微软365智能副驾驶)全系统,可以在Office中调用所有办公软件,并通过植入GPT-4让所有软件更加智能,这意味着一场全新的AI桌面革命正式打响。

和英伟达联手

其实,在去年11月,微软就曾官宣,要与Nvidia联手构建「世界上最强大的AI超级计算机之一」,来处理训练和扩展AI所需的巨大计算负载。

这台超级计算机基于微软的Azure云基础设施,使用了数以万计个Nvidia H100和A100Tensor Core GPU,及其Quantum-2 InfiniBand网络平台。

Nvidia在一份声明中表示,这台超级计算机可用于研究和加速DALL-E和Stable Diffusion等生成式AI模型。

随着AI研究人员开始使用更强大的GPU来处理更复杂的AI工作负载,他们看到了AI模型更大的潜力,这些模型可以很好地理解细微差别,从而能够同时处理许多不同的语言任务。

简单来说,模型越大,你拥有的数据越多,你能训练的时间越长,模型的准确性就越好。

但是这些更大的模型很快就会到达现有计算资源的边界。而微软明白,OpenAI需要的超级计算机是什么样子,需要多大的规模。

这显然不是说,单纯地购买一大堆GPU并将它们连接在一起之后,就可以开始协同工作的东西。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell表示:「我们需要让更大的模型训练更长的时间,这意味着你不仅需要拥有最大的基础设施,你还必须让它长期可靠地运行。」

Azure全球基础设施总监Alistair Speirs表示,微软必须确保它能够冷却所有这些机器和芯片。比如,在较凉爽的气候下使用外部空气,在炎热的气候下使用高科技蒸发冷却器等。

此外,由于所有的机器都是同时启动的,所以微软还不得不考虑它们和电源的摆放位置。就像你在厨房里同时打开微波炉、烤面包机和吸尘器时可能会发生的情况,只不过是数据中心的版本。

大规模AI训练

完成这些突破,关键在哪里?

难题就是,如何构建、操作和维护数万个在高吞吐量、低延迟InfiniBand网络上互连的共置GPU。

这个规模,已经远远超出了GPU和网络设备供应商测试的范围,完全是一片未知的领域。没有任何人知道,在这种规模下,硬件会不会崩。

微软Azure高性能计算和人工智能产品负责人Nidhi Chappell解释道,在LLM的训练过程中,涉及到的大规模计算通常会被划分到一个集群中的数千个GPU上。

在被称为allreduce的阶段,GPU之间会互相交换它们所做工作的信息。此时就需要通过InfiniBand网络进行加速,从而让GPU在下一块计算开始之前完成。

Nidhi Chappell表示,由于这些工作跨越了数千个GPU,因此除了要确保基础设施的可靠外,还需要大量很多系统级优化才能实现最佳的性能,而这是经过许多代人的经验总结出来的。

所谓系统级优化,其中就包括能够有效利用GPU和网络设备的软件。

在过去的几年里,微软已经开发出了这种技术,在使训练具有几十万亿个参数的模型的能力得到增长的同时,降低了训练和在生产中提供这些模型的资源要求和时间。

Waymouth指出,微软和合作伙伴也一直在逐步增加GPU集群的容量,发展InfiniBand网络,看看他们能在多大程度上推动保持GPU集群运行所需的数据中心基础设施,包括冷却系统、不间断电源系统和备用发电机。

微软AI平台公司副总裁Eric Boyd表示,这种为大型语言模型训练和下一波AI创新而优化的超算能力,已经可以在Azure云服务中直接获得。

并且微软通过与OpenAI的合作,积累了大量经验,当其他合作方找来、想要同样的基础设施时,微软也可以提供。

现在,微软的Azure数据中心已经覆盖了全球60多个地区。

全新虚拟机:ND H100 v5

在上面这个基础架构上,微软一直在继续改进。

今天,微软就官宣了全新的可大规模扩展虚拟机,这些虚拟机集成了最新的NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 网络。

通过虚拟机,微软可以向客户提供基础设施,根据任何AI任务的规模进行扩展。据微软称,Azure的新ND H100 v5 虚拟机为开发者提供卓越的性能,同时调用数千个GPU。

    以上就是本篇文章【ChatGPT背后天价超算力!上万颗英伟达A100,烧光微软数亿美元!】的全部内容了,欢迎阅览 ! 文章地址:http://fabua.ksxb.net/news/4838.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 海之东岸资讯移动站 http://fabua.ksxb.net/mobile/ , 查看更多   
最新文章
赛场直击|把握眼前时刻 迎面冲锋
“这是一场季后赛级别的比赛,我们的队员们保持了足够的专注,虽然上半场球队的外线火力没有完全打开,但下半时面对强敌,我们展
官宣!落户怀化辰溪
辰溪县是湖南省首个“篮球之乡”,孝坪镇是重要承载地,具有举办全省、全国篮球赛事的天然阶梯篮球场、工人俱乐部等场馆设施。孝
张明 | 如何大力提振消费?
注:本文发表于《财经》杂志,转载请务必注明出处。文中配图摄于云南大理沙溪古镇。在2024年,受各种因素影响,消费对中国经济增
谢浩男到南京了!准备请吃南京菜,谢爸痛苦喝奶茶,嘴里却说好甜
3月23日上午,谢浩男安全抵达南京,这次谢爸带着全家人送他回学校,似乎又有好戏看了。一早,全家人就收拾好了行李,大包小包的
一图看懂比亚迪仰望U7:贵不到10万 选它还是小米SU7 Ultra
快科技3月28日消息,昨晚品牌推出全新轿车仰望U7,共推出四款车型(均提供EV和插混)。仰望U7定位于“百万级行政旗舰”,对标、
20+14,火箭丧失两大优势!申京难堪大任,乌度卡赛后表态成关键
北京时间3月24日火箭主场对阵掘金,全场比赛结束火箭以111-116输给了掘金。火箭在近期状态火热,反观掘金这边已经是缺席多场比赛
最低仅需16.98万起的路虎发现运动版,能买吗?
前阵子,网络上爆出了车型一口价16.98万元的降价海报。虽说该海报上明确写出了这是只有大客户才可享受到的价格,但有一说一,只
每周艺汇丨首演必看!今春必看的舞台指南
当现实与舞台重叠,三场不同维度的生命叙事即将开演——烽烟中的战歌 《寻找李二狗》带你重温家国情怀,时空迷雾中的《尘封十三
采访了索尼高层,才理解为什么只有索尼敢称“把影院带回家”
老马在AWE上泡了整整一个礼拜,也目睹了一个个展台如何拔地而起。要说2025年AWE上令人印象最深刻的展台,无数人把票投给了索尼,
平安银行信用卡2024年在稳健中前行:精细化存客经营,风险调优谋长远
本文来源:时代周报 作者:穆白A股上市银行首份年报出炉。近日,平安银行率先发布2024年年报,该行信用卡业务的成绩单也随之揭开