重生08:游戏开发有手就行青椒大虎皮
第385章 大场面!(第2页)
鲍尔以及在场的研究人员都陷入了沉思。
要理解底层逻辑,对于在场的人来说是非常简单的。
不过在阿列克斯之前,所有人想到“计算”两个字,首先就是cpu,完全不会去思考显卡的事情。
在场研究人员和阿列克斯之间的差距,也就是一层窗户纸罢了,捅破了就能理解了。
“那么,文先生,你们黑洞和阿列克斯之间又有什么差别呢?否则不可能在表现上出现这么大的差异。”
文韬轻轻一笑,“鲍尔先生,以及在场的大家,黑洞可没说过这是个开源的项目啊……我唯一能说的是,我们已经做出了百卡集群!”
阿列克斯一怔,再次喊出声来,“百卡?这不可能!”
阿列克斯是对现在对于显卡集群最了解的人,即便他只用了两张显卡并行计算跑出了一个模型。
而百卡和两卡之间,不仅仅是差了98张显卡这么简单。
Ai时代,大家都在说大模型大模型的,这个“大”字,实际上比大家认知的还要大。
这个“大”字,首先体现在其参数规模,比如,gpt-3的参数达到了1750亿,而更大型的模型gpt-4则达到了1.8万亿。
gpt-4由16个专家模型组成,每个专家模型包含约1110亿参数,再加上注意力层的550亿共享参数,总共形成了1.831万亿参数的模型。
巨大的参数能让模型捕捉到更复杂的语言和视觉特征,从而提高模型的性能和泛化能力。
其次就是大模型训练所需要的海量数据,互联网上的数据太多太多,每个大模型训练的数据几乎都是以tB为单位。
因为参数和数据的巨量,训练模型就需要更大的计算资源,怎么想两张gpu都没办法搞出大模型吧……
事实上,大模型几乎最少都需要千卡集群,才有可能在能接受的时间范围内完成模型训练。
所谓的集群也不仅仅是把卡串联或者并联起来就行,参数少一点还能搞一搞数据并行,再大就只能张量并行,更大就必须要流水线并行。