头部芯片公司大模型竞争“全栈化” 拼完算力拼网络 | 百模大战
头部芯片厂商在大模型领域竞争正进入软硬件、算力、网络的“全栈式”比拼态势——英伟达拔得AI生态头筹之下,英特尔、AMD等厂商不愿落于人后,在应用场景中除了数据中心也瞄准边缘用途,芯片算力之外还看重网络能力。
参数是通用AI大模型最重要的指标之一。2022年4月公布的PaLM大模型训练参数高达5400亿,而2021年发布的LaMDA参数为1370亿,ChatGPT背后的GPT-3.5模型参数为1750亿。
近日,英特尔公司高级副总裁兼网络与边缘事业部总经理Sachin Katti对界面新闻表示,在云端训练大模型,单个服务器已无法承载,对网络需求的高要求前所未有,“我们训练一个大模型就需要5-20万台服务器,需要通过网络来把这些服务器连接起来然后进行训练,这个量是非常大的。”
(资料图片)
AI计算大致分为两个层面,首先是对模型进行训练(training),整个过程可能耗时数天或数周;之后是训练出的模型做出推理(inference)。
在训练大模型的过程中,网络的重要性已成业界共识。根据中国移动通信研究院发布的《面向AI大模型的智算中心网络演进白皮书》测算,以1750亿参数规模的GPT-3模型训练为例,从理论估算模型分析,当动态时延从10us提升至1000us时,GPU有效计算时间占比将降低接近10%;当网络丢包率为千分之一时,GPU有效计算时间占比将下降13%;当网络丢包率达到1%时,GPU有效计算时间占比将低于5%。“如何降低计算通信时延、提升网络吞吐是AI大模型智算中心能够充分释放算力的核心问题。”白皮书指出。
对此,英特尔中国区网络与边缘事业部首席技术官张宇解释称,在训练大模型时,模型参数存储于加速器(如GPU显卡)的片外缓存中,随着训练进程对模型参数进行不断更新迭代。同时,不同加速器之间需要进行频繁且大量的数据交换,且只有在数据交换完成之后,才能够去算下一步的训练结果。
“但如果数据交换更新没有结束,训练也不会计算。”张宇说,“所以从中我们可以看到算力和网络能力,对大模型整体性能是两个关键要素。”
从推理端来看,张宇提及,AI模型的部署大部分在边缘场景,算力、功耗、成本往往都有限,不像数据中心可以无限增加设备。因此,如何在一个资源受限的情况下去部署大模型,是基础设施厂商需要考虑的重要问题,网络端的考虑点同样不少。
“如网络模型压缩问题,如果你把大模型原封不动的放在边缘的话对算力要求太高,很多设备是无法承受的。”张宇表示,对于大模型在推理端的应用,需要根据行业特定要求进行优化,使得简化后的模型既满足特定行业对准确度、功能的要求,所需的算力又能够被边缘设备所承载。
对于大模型在边缘的应用上,英特尔除了提供CPU、独立显卡等芯片,满足人工智能模型训练、推理对算力的要求外,还有针对网络的IPU(Infrastructure Processing Unit)产品。张宇称,IPU给用户提供一个可靠的数据传输环境,可满足大模型训练对网络可靠性、丢包率的严格要求,以及对网络速度的要求。
“在大模型这一块,和一些友商相比,英特尔的产品实际上涵盖了计算、通讯等各个领域,给用户提供了一个相对来说比较全面的方案。”张宇称。
在更考验计算力的AI训练领域,英伟达的优势在于牢牢占据大模型训练的主流市场。此外,英伟达持续推进GPU(图形处理器)、CPU和DPU(数据处理器)的“三芯”策略。其中DPU用于处理海量数据,可以做一些数据的处理和预处理,由DPU将任务分发给CPU、GPU和FPGA等进行计算,定位与英特尔的IPU一致。
伴随AI市场的驱动,英特尔的大客户也在加入竞争。2016年,谷歌专门为深度学习打造了TPU(张量处理器),部署在谷歌云平台中,以服务的形式售卖。亚马逊云计算部门也有自研Arm芯片架构服务器CPU,结合用于训练和推理的AI芯片、自研网络芯片等,构成了云计算环境下的芯片布局,可用于大模型计算。
张宇强调,除了硬件端,软件也很重要,如英特尔的OpenVINO、OneAPI等软件和组件,可以供开发者方便使用,“用户使用CPU,是因为现有软件能够充分支持,即便这达不到最佳性能。”他称在大模型领域,凭借前期投资和生态搭建,英伟达基于GPU的CUDA软件生态,已经成为开发者用于大模型乃至AI开发的首要选择。
关键词:
相关阅读
-
头部芯片公司大模型竞争“全栈化” 拼...
头部芯片厂商在大模型领域竞争正进入软硬件、算力、网络的“全栈式... -
西安一医院已收治近百例!警惕!
根据剩余的时间和作业,重新制定学习计划,安排好每天的学习任务,家长 -
杭州结束防台风应急响应
预计“卡努”对杭州影响将趋于减弱,市防指决定于8月4日14时30分结... -
新疆独立储能参与中长期市场
8月2日,新疆自治区发展改革委发布印发《新疆电力市场独立储能参与中长 -
中国队夺得体操女团冠军
中国队夺得体操女团冠军 -
上海:到2025年燃料电池汽车应用总量力...
上海印发《上海市清洁空气行动计划(2023—2025年)》,加快公共领域车 -
艾华集团股东户数增加24.11%,户均持股4...
艾华集团最新股东户数1 86万户,低于行业平均水平。公司户均持有流通股 -
首届贵州科技节:“蓝星球科幻电影展演...
8月2日,记者从首届贵州科技节组委会了解到,“蓝星球科幻电影展演... -
猪肉价格止跌转涨 “供强需弱”基本面...
华声在线8月3日讯今日,记者从湖南省发改委获悉,上周(7月24日至7月28 -
感谢帮助的话简短精辟
今天小鱼来为大家解答以上问题,感谢帮助的话简短精辟很多人还不知道, -
北京市发布暴雨黄色预警
舜网社会频道发布各类社会新闻,社会万象第一时间呈现。 -
富士GFX 100迭代机型将使用可拆卸EVF ...
近日,CNMO注意到,根据FujiRumors的消息,富士全画幅相机GFX100的迭代 -
红米K60至尊版带来性能解题新思路:终端...
8月3日,Redmi后性能时代战略发布会成功举办。MediaTek董事、总经理陈 -
投研孱弱个人背锅 ,上银基金“固收+”...
7月27日,上银高质量优选9个月持有期混合型证券投资基金(013358) -
暴雨洪灾现场大片房屋被淹,买什么保险...
暴雨洪灾现场大片房屋被淹,买财产险、意外险、医疗险、寿险可以赔。 -
哪里的火腿比较好吃?
当选云南宣威火腿!宣威火腿,云南省著名地方特产之一,因产于宣威而得 -
阿克曼称正做空美国国债,因预计长期通...
《华尔街日报》8月4日消息,对冲基金经理阿克曼(BillAckman)称他正在 -
宝可梦中超梦配招攻略推荐
宝可梦中超梦配招攻略分享呢,在宝可梦系列游戏中,超梦(Mewtwo)是一 -
成都:推动算力基础设施建设 加快建成...
据成都市经信局网站消息,成都市印发《成都市加快大模型创新应用推进人 -
深宫曲宫女代幸效果介绍
在深宫曲游戏中,玩家怀孕时可以使用宫女代幸。很多人不知道这样做的具