昨天凌晨4点20,马斯克发推文宣称,自己刚刚启动了世界上最强的AI训练集群。
这个超算中心位于美国田纳西州,孟菲斯,使用了100,000个(不用数了!是10万个!)英伟达H100液冷GPU,通过单一RDMA网络连接 。
RDMA(Remote Direct Memory Access)即远程直接内存访问,它可以把数据直接从一台计算机传输到另一台计算机,无需双方操作系统的介入。单一RDMA打造了高吞吐、低延迟的网络通信,尤其适合在大规模并行计算机集群中使用。
感谢xAI,X团队,英伟达以及其他厂商的支持|X@elonmusk
单从规模来看,xAI孟菲斯超算中心已经在算力上跻身世界第一,不仅远远超过了OpenAI用来训练GPT-4的2.5万块A100 GPU,也超越了Aurora(60,000 个 Intel GPU)和Microsoft Eagle(14,400 个 Nvidia H100 GPU),甚至超过了此前的世界第一超算Frontier(37,888 个 AMD GPU)。
H100是英伟达专为处理大型语言模型数据而开发的芯片,每块芯片价格大概在3万美元左右,也就是说xAI这次建的超算中心仅是芯片的价值就高达30亿美元。
此前,马斯克的xAI一直不温不火,xAI推出的人工智能Grok也经常被大家吐槽不好用,但以目前的状况来看,大模型训练就是一场算力游戏,再往下深究是能源游戏,而马斯克不愿意再等了,直接把料堆满。
他表示,改进后的大模型(不出意外的话是Grok3)会在今年年底完成,届时它将会是世界上最强大的AI。
2014年的马斯克:我们正在召唤AI恶魔;2024年的马斯克:我要自己召唤AI恶魔!!|X@JoshWhiton
其实,英伟达已经推出了新一代的H200芯片和基于Blackwell新架构的B100和B200 GPU,但是更先进的芯片要在今年年底才能出货,而且也不能一下变出几万张来,也许是为了抢在ChatGPT5之前成为世界最强,马斯克这次比平时更加大干快上。
据福布斯称,今年3月马斯克才在孟菲斯敲定这项协议,之后这座超算基地几乎立即开工。为了加快速度,马斯克从甲骨文借了2.4万块H100。
然而如前文所说,目前的大模型训练归根结底是能源游戏,而美国的电网系统相当陈旧,已经有几十年没有见证过大规模增长,尤其是AI训练的用电结构和民用商用电很不一样,经常会突然出现超高的用电波峰,极大地挑战电网的最大负荷。在这种情况下能挤出电力水力资源支持超算中心的地方所剩无几。
据孟菲斯电力、天然气和水务公司的首席执行官估计,xAI孟菲斯超算集群每小时使用的电力最高会达到150兆瓦,相当于10万户家庭的用电量。
目前孟菲斯工厂有3.2万块GPU在线,预计今年第四季度供电建设将会完成,工厂将会全速运行。
也难怪会有人质疑马斯克在撒谎,因为这个电力要求和这个建设速度实在是太不可思议了。
后来质疑马斯克的人道歉了,他发现马斯克真的办到了|DylanPatel@X
除了用电之外,xAI超算集群预计每天至少需要100万加仑(约379万升)的水来散热。
据福布斯报道,孟菲斯市议会议员Pearl Walker上周表示:“民众很害怕。他们担心水资源可能出现问题,也担心能源供应出现问题。”她说,目前数据中心预计每天需要从孟菲斯的地下蓄水层,也就是该市的主要水源中抽取492万升(该市每天总共消耗大约5.68亿升水)。虽然他们说这只是暂时的,但新的灰水工厂的建造计划还没定,孟菲斯的公用事业部门也证实,在处理厂建成运行之前,马斯克的超级计算机将被允许使用地下蓄水层的水。
除了马斯克,OpenAI和微软也在部署更大规模的超算,这台名叫“星际之门”的超算芯片数量会达到百万级,成本预计高达1150亿美元,计划在2028年推出。
今年四月,OpenAI把微软电网搞崩溃了,据微软工程师说,他们当时正在为GPT-6部署10万个H100训练集群,不知道马斯克会不会成为第一个让10万个H100一起工作的人呢?
作者:翻翻
编辑:odette
封面图来源:datacenterdynamics