您当前位置:首页 > 宏观

我们来看一下GLaM模型的具体情况

来源:TechWeb   阅读量:10095   
时间: 2021-12-15 04:32

WOT全球技术创新大会2022,门票6折抢购中!购票立减2320元!

我们来看一下GLaM模型的具体情况

近几年,我们已经看到模型规模越来越大,例如 2018 年诞生的 GPT 具有 1.17 亿参数,时隔一年,2019 年 GPT—2 参数量达到 15 亿,2020 年更是将其扩展到 1750 亿参数的 GPT—3根据消息显示,OpenAI 打造的超级计算机拥有 285000 个 CPU 核以及 10000 个 GPU,供 OpenAI 在上面训练所有的 AI 模型

大型语言模型虽然训练昂贵,但也有其重要的一面,例如可以在各种任务中执行小样本学习,包括阅读理解,问答虽然这些模型可以通过简单地使用更多参数来获得更好的性能但是有没有方法可以更有效地训练和使用这些模型呢

为了回答这个问题,谷歌推出了具有万亿权重的通用语言模型 ,该模型的一大特点就是具有稀疏性,可以高效地进行训练和服务,并在多个小样本学习任务上取得有竞争力的性能。

我们来看一下 GLaM 模型的具体情况。

数据集

谷歌首先构建了一个高质量的,具有 1.6 万亿 token 的数据集,该无标签数据集很大一部分来自 Web 页面,其范围从专业写作到低质量的评论和论坛页面此外,谷歌还开发了一个文本质量过滤器,该过滤器是在维基百科和书籍文本数据集上训练而成,由于过滤器训练的数据集质量很高,所以谷歌将其过滤 Web 网页内容的质量最后,谷歌应用这个过滤器来生成 Web 网页的最终子集,并将其与书籍和维基百科数据相结合来创建最终的训练数据集

GLaM 模型架构

GLaM 是混合专家模型 ,这种模型可以被认为具有不同的子模型,每个子模型都专门用于不同的输入每一层的专家由一个门控网络控制,该门控网络根据输入数据激活专家对于每个 token,门控网络选择两个最合适的专家来处理数据完整的 GLaM 总共有 1.2T 参数,每个 MoE 包含 64 个专家,总共 32 个 MoE 层,但在推理期间,模型只会激活 97B 的参数,占总参数的 8%

GLaM 的体系架构,每个输入 token 都被动态路由到从 64 个专家网络中选择的两个专家网络中进行预测。

与 GShard MoE Transformer 类似,谷歌用 MoE 层替换其他 transformer 层的单个前馈网络MoE 层有多个专家,每个专家都是具有相同架构但不同权重参数的前馈网络

尽管 MoE 层有很多参数,但专家是稀疏激活的,这意味着对于给定的输入 token,只使用两个专家,这样做的优势是在限制计算的同时给模型提供更多的容量在训练期间,每个 MoE 层门控网络都经过训练,使用它的输入来激活每个 token 的最佳两位专家,然后将其用于推理对于 MoE 层的 E 专家来说,这本质上提供了 Etimes, 个不同前馈网络组合的集合,而不是经典 Transformer 中的一个组合,从而带来更大的计算灵活性

最终学习到的 token 表示来自两个专家输出的加权组合,这使得不同的专家可以激活不同类型的输入为了能够扩展到更大的模型,GLaM 架构中的每个专家都可以跨越多个计算设备谷歌使用 GSPMD 编译器后端来解决扩展专家的挑战,并训练了多个变体来了解稀疏激活语言模型的扩展效果

评估设置

谷歌使用 zero—shot 和 one—shot 两种设置,其中训练中使用的是未见过的任务。。评估基准包括如下:

完形填空和完成任务, 开放域问答, Winograd—style 任务, 常识推理, 上下文阅读理解, SuperGLUE 任务, 自然语言推理。

谷歌一共使用了 8 项自然语言生成任务,其中生成的短语基于真值目标进行评估,以及 21 项自然语言理解任务,其中几个 options 中的预测通过条件对数似然来选择。这就是AI-Writer:的模型,开发者亲切地称之为“智力低下的人工写作”,由GPT魔改而成。

实验结果

当每个 MoE 层只有一个专家时,GLaM 缩减为一个基于 Transformer 的基础密集模型架构在所有试验中,谷歌使用「基础密集模型大小 / 每个 MoE 层的专家数量」来描述 GLaM 模型比如,1B/64E 表示是 1B 参数的密集模型架构,每隔一层由 64 个专家 MoE 层代替

谷歌测试了 GLaM 的性能和扩展属性,包括在相同数据集上训练的基线密集模型与最近微软联合英伟达推出的 Megatron—Turing 相比,GLaM 使用 5% margin 时在 7 项不同的任务上实现了不相上下的性能,同时推理过程中使用的算力减少了 4/5

此外,在推理过程中使用算力更少的情况下,1.2T 参数的稀疏激活模型在更多任务上实现了比 1.75B 参数的密集 GPT—3 模型更好的平均结果。

NLG和 NLU任务上,GLaM 和 GPT—3 的平均得分。

谷歌总结了 29 个基准上,GLaM 与 GPT—3 的性能比较结果结果显示,GLaM 在 80% 左右的 zero—shot 任务和 90% 左右的 one—shot 任务上超越或持平 GPT—3 的性能

此外,虽然完整版 GLaM 有 1.2T 的总参数,但在推理过程中每个 token 仅激活 97B 参数的子网。

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

金融聚焦

 ,联想方面今日宣布,小新PadPro12.6ZUI13OTA1正式开启推送,12月14日早10:00开启推送通道,拥有相关设备的小伙伴注意及时更新此外,YOGA

2021-12-15 04:32

 日前,华林证券发布关于公司股票交易异常波动公告的补充公告,公司股票于2021年12月8日,9日,10日连续三个交易日内收盘价格涨幅偏离值累计超过20%,,属于股

2021-12-15 04:32

 财联社讯,在今年10月现货价格大涨的纯碱,在12月初的期货市场却遭到看空12月14日早盘,SA2201合约在2440附近震荡,较10月最高点3648点已下跌超过

2021-12-15 04:32

 今日早盘高开一度涨超10%,现报38.5港元,涨8.6%消息面上,美东汽车拟以人民币37亿收购一家保时捷经销商 公告称,公司拟向Wearnes—StarC

2021-12-15 04:32

 近20年高歌猛进后,一路疾驰的互联网正踩下刹车,减速换挡:腾讯净利润下滑,阿里,字节等巨头增长失速,大厂们密集调整组织架构的同时,也在挤掉飞速扩张产生的泡沫但深

2021-12-15 04:32

 :苹果公司今天宣布,移动心电图房颤提示软件和移动脉率房颤提示软件已与watchOS8.3和iOS15.2在中国推出。 根据消息显示,苹果手表心电图支持Ap

2021-12-15 04:32

 年末新一轮吃肉行情启动!昨日,植发第一股雍禾医疗$02279.HK在港交所挂牌,首日盘中最高涨幅超过16%,截至收盘时涨幅5.06%,最新市值86.31亿港元,

2021-12-15 04:32

 上周市场整体共识度有所回升,各类投资者在电子,农林牧渔,计算机,机械等行业的买入共识度较高值得一提的是,当下消费者服务,银行,家电等板块在被主动偏股基金与两融减

2021-12-15 04:32

 ,iQOONeo5s将于12月20日发布,确定首发搭载原系统OriginOSOcean。 该机已出现在GeekBench5,型号为vivoV2154A,搭

2021-12-15 04:32

 ,港股恒指昨日大幅高开,最终转跌,隔夜美股走跌,美联储即将召开为期两天的货币政策会议今日早盘,恒指低开低走,截至午盘,恒指跌1.26%,报23653.16点,国

2021-12-15 04:32

 发布易12月14日—报喜鸟公告称,公司于2011年12月与韩国LGCORP.签订了《品牌许可合同》,有效期为2012年1月1日至2021年12月31日日前,公司

2021-12-15 04:32

 日前,同仁堂安宫牛黄涨价热议还未完全退去,另一家中药巨头华润三九又宣布旗下安宫牛黄丸已经提价。 日前,华润三九在互动平台上回应投资者提问时表示,华润三九安

2021-12-15 04:32

 ,美国太空探索技术公司CEO埃隆马斯克周一发布推文称,SpaceX将启动一项从地球大气中清除二氧化碳的计划,并把它转化为火箭燃料 马斯克 马斯克还表示,

2021-12-15 04:32

 ,据新京报贝壳财经,阿里巴巴今日在内网公布了多项针对员工关怀的暖心计划,包含多项员工福利升级。 对此,阿里相关人士向记者向其证实了暖心计划确已对内发布,会

2021-12-15 04:32

 为充分发挥保险保障功能,服务国家碳达峰,碳中和战略目标,支持国家新能源汽车产业发展,在银保监会的指导下,中国保险行业协会认真落实《关于实施车险综合改革的指导意见

2021-12-15 04:32

 ,顺丰同城将于明日正式于港交所挂牌上市,今日暗盘破发,跌幅一度扩大至10%,报14.68港元,发行价为16.42港元每股。 在11月15日,顺丰同城通过港

2021-12-15 04:32

 国元国际发布研究报告称,维持龙源电力买入评级,目标价升至22.8港元,相当于2021/22年26/22.3倍PE,目标价较现价有33%上升空间。 国元国际

2021-12-15 04:32

 日前,36氪WISE2021中国数字化创新高峰论坛在上海召开峰会现场,WISE2021中国新经济之王年度榜单重榜发布,安能物流荣获物流与供应链领域年度硬核企业大

2021-12-15 04:32

 12月9日—11日,第六届·格隆汇全球投资嘉年华在深圳举行越秀服务荣获年度最具成长力IPO奖项,体现了资本市场对越秀服务在稳健的财务表现,快速的业务发展以及长期

2021-12-15 04:32

 ,据育碧消息,育碧宣布《刺客信条:英灵殿》的下一部扩展内容《末日曙光》将于2022年3月10日发售拥有游戏本体的玩家可前往育碧国际商城单独购买《末日曙光》,售价

2021-12-15 04:32

市场金融网
关注我们
foota footb footc footd foote footf