您当前位置:首页 > 财经

解决这些问题的一个途径是机械的可解释性

来源:TechWeb   阅读量:16493   
时间: 2021-12-31 14:38

Transformer 是 Google 团队在 2017 年 6 月提出的 NLP 经典之作,由 Ashish Vaswani 等人在论文《 Attention Is All You Need 》中提出自 Transformer 出现以来,便在 NLP,CV,语音,生物,化学等领域引起了诸多进展

解决这些问题的一个途径是机械的可解释性

Transformer 在现实世界中的应用越来越广泛,例如 GPT—3 ,LaMDA ,Codex 等都是基于 Transformer 架构构建的可是,伴随着基于 Transformer 模型的扩展,其开放性和高容量为意想不到的甚至有害的行为创造了越来越大的空间即使在大型模型训练完成数年后,创建者和用户也会经常发现以前从来没见过的模型问题

解决这些问题的一个途径是机械的可解释性,即对 transformers 计算过程进行逆向工程,这有点类似于程序员如何尝试将复杂的二进制文件逆向工程为人类可读的源代码。

如果逆向工程可行,那么我们就会有更系统的方法来解释当前模型的安全问题,识别问题,甚至可能预见未来尚未构建的模型安全问题这有点类似于将 Transformer 的黑箱操作进行逆向,让这一过程变得清晰可见之前有研究者开发了 Distill Circuits thread 项目,曾尝试对视觉模型进行逆向工程,但到目前为止还没有可比的 transformer 或语言模型进行逆向工程研究

左:Neel Nanda,右:Christopher Olah

考虑到语言模型的复杂性高和规模大等特点,该研究发现,从最简单的模型开始逆向 transformer 最有效果该研究旨在发现简单算法模式,主题或是框架,然后将其应用于更复杂,更大的模型具体来说,他们的研究范围仅包括只有注意力块的两层或更少层的 transformer 模型这与 GPT—3 这样的 transformer 模型形成鲜明的对比,GPT—3 层数多达 96 层

该研究发现,通过以一种新的但数学上等效的方式概念化 transformer 操作,我们能够理解这些小模型并深入了解它们的内部运作方式值得注意的是,研究发现特定的注意头,本文称之为归纳头,可以在这些小模型中解释上下文学习,而且这些注意力头只在至少有两个注意层的模型中发展此外,该研究还介绍了这些注意力头对特定数据进行操作的一些示例

各章节内容概览

为了探索逆向工程 transformers 面临哪些挑战,研究者对几个 attention—only 的 toy 模型进行了逆向功能。

首先是零层 transformers 模型的二元统计研究者发现,二元表可以直接通过权重访问

在讨论更复杂的模型之前,考虑零层transformer 很有用。在一个综合排序任务上进行的实验证明了infin;-former能够保留来自长序列的信息。。这类模型接受一个 token,嵌入,再取消嵌入,以生成预测下一个 token 的 logits

由于这类模型无法从其他 tokens 传输信息,因此只能从当前 token 预测下一个 token这意味着,W_UW_E 的最优行为是近似二元对数似然

零层 attention—only transformers 模型。

其次,单层 attention—only transformers 是二元和 skip 三元模型的集合同零层 transformers 一样,二元和 skip 三元表可以直接通过权重访问,无需运行模型这些 skip 三元模型的表达能力惊人,包括实现一种非常简单的上下文内学习

对于单层 attention—only transformers 模型,有哪些路径扩展技巧呢研究者提供了一些

如下图所示,单层 attention—only transformers 由一个 token 嵌入组成,后接一个注意力层,最后是解除嵌入:

使用之前得到的张量标记和注意力头的替代表征,研究者可以将 transformer 表征为三个项的乘积,具体如下图所示:

研究者采用的核心技巧是简单地扩展乘积,即将乘积转换为一个和,其中每个项对应一个端到端路径他们表示,每个端到端路径项都易于理解,可以独立地进行推理,并能够叠加组合创建模型行为

最后,两层 attention—only transformers 模型可以使用注意力头组合实现复杂得多的算法这些组合算法也可以直接通过权重检测出来需要注意的是,两层模型适应注意力头组合创建「归纳头」,这是一种非常通用的上下文内学习算法

具体地,当注意力头有以下三种组合选择:

Q — 组合:W_Q 在一个受前面头影响的子空间中读取, K — 组合:W_K 在一个受前面头影响的子空间中读取, V — 组合:W_V 在一个受前面头影响的子空间中读取。此外,研究者还进行了语言建模的实验,包括从头开始训练一个模型以及对一个预训练的语言模型进行微调,这些实验显示了无限长期记忆的优势。

研究者表示,Q — 和 K — 组合与 V — 组合截然不同前两者都对注意力模式产生影响,允许注意力头表达复杂得多的模式而 V — 组合对一个注意力头专注于某个给定位置时所要传输的信息产生影响结果是,V — 组合头变现得更像一个单一单元,并可以考虑用来创建额外的「虚拟注意力头」

对于 transformer 有一个最基础的问题,即「如何计算 logits」与单层模型使用的方法一样,研究者写出了一个乘积,其中每个项在模型中都是一个层,并扩展以创建一个和,其中每个项在模型中都是一个端到端路径

其中,直接路径项和单个头项与单层模型中的相同最后的「虚拟注意力头」项对应于 V — 组合虚拟注意力头在概念上非常有趣,但在实践中,研究者发现它们往往无法在小规模的两层模型中发挥重大作用

此外,这些项中的每一个都对应于模型可以实现更复杂注意力模式的一种方式在理论上,很难对它们进行推理但当讨论到归纳头时,会很快在具体实例中用到它们

郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。

金融聚焦

 作为长安汽车四大自主品牌之一,长安凯程是肩负长安汽车商用车业务的支柱板块数据显示,长安凯程2021年1―6月累计销售104760辆,同比增长33.6%同时,20

2021-12-31 14:38

 黄金最新行情解析 日前,周五亚市盘初,现货黄金窄幅震荡,守住了隔夜大部分涨幅,交投于1819美元附近,美债收益率的走弱和新冠疫情的恶化,帮助金价重新站在1

2021-12-31 14:38

 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 继萤石网络公布招股书,上市进程再进一步之后海康威视火速又公开了新一轮的分拆子公司

2021-12-31 14:38

 创金合信基金2021—2022跨年投资策略会之宏观策略专场于12月30日晚8点到9点举行,创金合信基金首席经济学家魏凤春与招商证券首席宏观分析师谢亚轩,广发证券

2021-12-31 14:38

 日前,第十五届全国知识图谱与语义计算大会线上顺利召开会上公布了CCKS—2021技术评测结果,云知声—中科院自动化所联合实验室在医疗科普知识答非所问识别赛道斩获

2021-12-31 14:38

 2021年港股打新圆满收官,今年最后上市的3只新股:商汤—W,泉峰控股和圣诺医药—B今日全部收涨。 据华盛资讯统计,2021年港股合计有97只新股成功挂牌

2021-12-31 14:38

 伴随着木头姐凯西·伍德旗下ETF买入Teladoc等医疗保健类股,这些今年以来表现逊于大盘的股票在2021年尾实现了反弹。 根据消息显示,包括ARKGen

2021-12-31 14:38

 中国经济网编者按:美股周四收跌,截至收盘,道指跌90.55点,跌幅为0.25%,报36398.08点,纳指跌24.65点,跌幅为0.16%,报15741.56点

2021-12-31 14:38

 ,在小米12新品发布会上,小米正式推出了MIUI13/13Pad系统,并且宣布了MIUI家族,推出了小米妙享中心。 小米妙享中心可以让内容跨设备自然流转用

2021-12-31 14:38

 最近几天,由京津冀交通运输部门联合编制的《京津冀交通一体化发展白皮书》印发,全面梳理了7年来京津冀交通一体化发展成果《白皮书》显示,京津冀区域干线铁路和城际铁路

2021-12-31 14:38

 视频|百度智能交通四川省解决方案总监陈虹岩:交通设施数字化升级提升城市交通治理水平 日前,以数字基建产业支撑为主题的2021成都新经济双千发布会,新基建助

2021-12-31 14:38

 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 紫光集团重整草案获得通过,健坤集团投了赞成票,旗下两家上市公司大涨 日前,紫光

2021-12-31 14:38

 炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 今年9月,Z哥带着投基Z世代栏目和各位读者见面三个多月过去了,A股市场也将告别2

2021-12-31 14:38

 今日大盘震荡反弹,创业板指数领涨盘面上个股涨多跌少,超2900只个股上涨从成交量来看,今日两市成交金额10178亿,较上个交易日放量205亿,成交量重回万亿上方

2021-12-31 14:38

 京东方A12月30日大宗交易平台出现一笔成交,成交量373.00万股,成交金额1887.38万元,大宗交易成交价为5.06元该笔交易的买方营业部为中国银河证券股

2021-12-31 14:38

 年底喜事多! 据台湾经济日报报道,台湾海运企业长荣海运今天开始给员工发放年终奖,有人竟然领到高达40多倍月薪的资金一时间,长荣海运的许多员工都嗨翻了不少员

2021-12-31 14:38

 远洋集团昨日晚间发布公告称,其间接全资附属公司巨利创建有限公司以约10.24亿美元认购远洋云泰数据科技有限公司已发行股本的24.83%。 截至收盘,远洋集

2021-12-31 14:38

 日前,两市主要指数反弹,沪指全天收涨0.62%报3619.19点,深成指涨0.97%报14796.23点,创业板指涨1.25%报3322.79点总体上个股涨多跌

2021-12-31 14:38

 财联社讯,本周四,伴随着投资者们转向风险偏好更高的货币和资产类别,日元汇率在年末清淡的交投中跌至一个月新低。 这一走势标志着最近市场情绪的改善尽管月初奥密

2021-12-31 14:38

 30日,商务部召开例行新闻发布会在发布会上,商务部发言人高峰表示,目前从总体上看,西安市生活必需品市场供应总量充足 有记者提问:最近几天陕西西安在采取防疫

2021-12-31 14:38

市场金融网
关注我们
foota footb footc footd foote footf