加入收藏

前沿热点:微软推ZeRO++新系统:减少大模型训练时间和成本

2023-06-27 17:03:37 来源:站长之家


(资料图片仅供参考)

站长之家(ChinaZ.com)6月26日 消息:微软研究人员推出了名为ZeRO++的新系统,用于优化训练大型AI模型,以应对高数据传输开销和有限带宽的难题。

ZeRO++ 建立在现有的 ZeRO 优化的基础上,并提供增强的通信策略,以提高训练效率,减少训练时间和成本。

像Turing-NLG、ChatGPT和GPT-4这样的大型模型的训练需要跨多个GPU设备占用大量内存和计算资源。DeepSpeed开发的ZeRO++引入了通信优化策略,以克服在每个GPU上批量大小较小时或在低带宽集群上进行训练时ZeRO的限制。

ZeRO优化系列包括ZeRO-Inference,它使用GPU的集体内存和计算能力,将模型状态分割在多个GPU之间。然而,在训练过程中,ZeRO可能会产生较高的通信开销。ZeRO++通过整合三组通信优化来解决这个问题:量化权重通信(qwZ)、分层权重分割(hpZ)和量化梯度通信(qgZ)。

为了减少参数通信量,ZeRO++对权重进行量化,利用基于块的量化方法来保持训练精度。这种优化的量化过程比基本量化更快更准确。为了在反向传播过程中尽量减少通信开销,ZeRO++通过在每台机器上保持完整的模型副本,以 GPU 内存换取通信。梯度通信方面,ZeRO++引入了一种新的量化梯度通信范式 qgZ,可以减少跨节点的流量和延迟。

这些通信优化大大减少了通信量。与ZeRO相比,ZeRO++实现了减少高达4倍的通信量,提高了训练吞吐量和效率。当在每个GPU上使用小批量大小时,在高带宽集群中,ZeRO++相比ZeRO-3的吞吐量提高了28%至36%。在低带宽集群中,与ZeRO-3相比,ZeRO++实现了平均2倍的加速,使得大模型训练在更多种类的集群上更为可行。

ZeRO++不仅限于训练场景,还可应用于对话模型中使用的人类反馈强化学习(RLHF)训练。通过将ZeRO++与DeepSpeed-Chat集成,RLHF训练可以获得更好的生成和训练吞吐量,生成吞吐量提高了高达2.25倍,训练吞吐量提高了1.26倍,超过了ZeRO。

DeepSpeed已经发布了ZeRO++,以使大型模型的训练在AI社区更加高效和可访问。该系统旨在加快训练速度,减少通信开销,并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO++更有效地训练像ChatGPT这样的模型,并在AI领域探索新的可能性。

(举报)

关键词:

相关新闻

资讯

“招生考试服务台”上线!升学问题来这里找答案↓_全球微速讯
“招生考试服务台”上线!升学问题来这里找答案↓_全球微速讯

进入6月学生们迎来升学季高考、中招、小升初接踵而至......更多>

世纪佳缘推出“组局”功能 满足年轻人找“搭子”需求
世纪佳缘推出“组局”功能 满足年轻人找“搭子”需求

近日,知名婚恋APP世纪佳缘推出了全新的“组局”功能......更多>

什么是速食品_速食品介绍
什么是速食品_速食品介绍

1、快餐是指快餐,可以短时间缩短白。2、快速消费品是......更多>

个人户口网上查询 个人户口查询_头条
个人户口网上查询 个人户口查询_头条

1、你上大学的时候有没有转户口,没有的话就在老家,转......更多>

率先出货!海目星光伏接线盒激光焊接设备批量交付客户!
率先出货!海目星光伏接线盒激光焊接设备批量交付客户!

今日,海目星自主研发的光伏接线盒激光焊接设备批量交......更多>

我为群众办实事|车辆穿行村道要收费?六村堡街道:为村内道道路
我为群众办实事|车辆穿行村道要收费?六村堡街道:为村内道道路

6月14日,有市民向华商报反映称,西安市未央区六村堡......更多>

6月27日 11:28分  新巨丰(301296)股价快速拉升
6月27日 11:28分 新巨丰(301296)股价快速拉升

分时图快速拉升意味此时存在大单买入,在大单的推动下......更多>

我国首台腹腔内窥镜单孔手术机器人成功研制、获批上市 实时
我国首台腹腔内窥镜单孔手术机器人成功研制、获批上市 实时

据工信部网站消息,近日,北京术锐机器人股份有限公司......更多>

【读财报】银行业消费者投诉透视:2023年一季度累计处理投诉超10万件 当前消息
【读财报】银行业消费者投诉透视:2023年一季度累计处理投诉超10万件 当前消息

国家金融监督管理总局公布的银行业消费投诉数据显示,......更多>

当前快报:北京丰台:定向音响让广场舞不扰民
当前快报:北京丰台:定向音响让广场舞不扰民

北京丰台:定向音响让广场舞不扰民...更多>

关注

中国平安“港币-人民币双柜台”正式启用  股份代号:82318.HK
中国平安“港币-人民币双柜台”正式启用 股份代号:82318.HK
2023年6月19日,港交所“港币-人民币双柜台模式”(简... 更多>
中国平安“港币-人民币双柜台”正式启用 股份代号:82318.HK
2023年6月19日,港交所“港币-人民币双柜台模式”(简... 更多>
【世界新要闻】Snowflake 携手 NVIDIA 助力企业 在数据云端利用数据实现生成式 AI
NVIDIANeMo与Snowflake的结合,使企业能够在Snowflake... 更多>
当前关注:618期间顺丰航空杭州基地保障货量同比去年增长14%
电商报快讯:6月27日消息,顺丰航空杭州基地保障货量... 更多>
抖音直播间一朵玫瑰花多少钱_一朵玫瑰花多少钱
1、只要不是情人节。2、每朵玫瑰也就3元左右,一束玫... 更多>
瑞丰新材:6月26日融资买入357.71万元,融资融券余额1.03亿元
6月26日,瑞丰新材(300910)融资买入357 71万元,融... 更多>
世界速讯:勋章的两面,是缉毒英雄某某某和她
某某某是一名缉毒警察是同事们公认的缉毒英雄曾指挥、... 更多>
毕业典礼泪点直拍!祝福毕业生,前程似锦 热文
毕业季进入尾声。对很多人来说,毕业典礼,就是大学的... 更多>
世界播报:英特尔酷睿 Ultra 1xxx处理器曝光 缓存128MB
据报道,有网友在SiSoftware数据库中发现一款MeteorLa... 更多>
环球通讯!面膜到底有什么用?
面膜是用于护肤的一种产品,它的作用可以从各个角度来... 更多>
焦点信息:6月26日基金净值:南方中证科创创业50ETF最新净值0.5663,跌0.32%
6月26日,南方中证科创创业50ETF最新单位净值为0 566... 更多>
晶盛机电:6月26日融券卖出4.28万股,融资融券余额9.21亿元 世界短讯
6月26日,晶盛机电(300316)融资买入2104 52万元,... 更多>
天天热文:花椒豆豉的腌制方法?
1 取适量黄豆放置盆中,将黄豆清洗干净,用水侵泡3个... 更多>