本文来自作者[admin]投稿,不代表永利号立场,如若转载,请注明出处:http://www.siyonli.com/zlan/202506-793.html
我们的实验结果是在由300毫米晶片制造的芯片上测量的,该芯片在外部铸造厂制造的14 nm互补金属 - 氧化物 - 氧化型前端前端。在IBM Albany纳米技术中心的“后端 ”中添加了PCM设备 。蘑菇电池PCM设备是用一个圆形加热器建造的 ,直径约为35 nm,高度约为50 nm(图1E)作为底部电极,掺杂的GE2SB2TE5层和顶部电极。在1-驱动器宏和1,024×2,048个阵列诊断显示器上 ,都使用芯片式放大器进行包装之前的晶圆表征。选择高收益模具后,将晶片切成切并包装到IBM Bromont的可测试模块中,如图1A ,b所示 。
实验是通过将模块安装在连接到由由三个Xilinx Virtex-7 VC707磁场可编程栅极阵列(FPGAS)的插座上安装到定制设计的板(扩展数据图1C)来运行的。使用了四个Keysight E36312A电源为板和芯片供电。除了主文本中提到的1.5 V,0.8 V和1.8 V用品外,还提供了3.0 V电源,但仅在PCM设备编程期间(不在推理期间)提供 。最后 ,供应0.75 V预先拨出外围电容器,并设置PCM编程中使用的芯片数字到Analog转换器(DAC)的下限,并设置了0.3 V设置PCM读取电压和坡道启动伏特。这些耗材在图6a中被测量并报告为“其他”电压供应。三个FPGA通过自定义板连接 ,并由带有外围组件互连Express连接器的X86机器控制。所有实验均使用Xilinx Microblaze软处理器代码和X86 MATLAB软件包装器进行运行(扩展数据图1C) 。
我们芯片上的芯片外传输带宽为38.4 Gbps,总计384个输入输出引脚,能够在100 MHz下运行。扩展数据图1D显示 ,路由精度,KWS和RNNT功率测量是运行的,而没有将任何其他中间数据发送回X86机器。RNNT精度结果使用X86进行矢量 - 矢量操作和瓷砖校准 。为了对此类数字操作进行绩效进行建模 ,我们基于Foundry 14-nm工艺设计套件来模拟ILP – OLP之外的数字电路,以实现优化的数字管道,控制逻辑和登记册。未来的芯片最终将包括靠近模拟瓷砖的数字电路。
输入被编码为在每个ILP中的SRAM上存储的8位数字单词 。使用每个ILP中的时钟驱动的反电路进行512个此类数字单词为512个PWM持续时间。然后使用OLP从芯片中检索数据 ,OLP在内部使用512个计数器加上跌落边缘检测器在内部执行了数字转换(扩展数据图2A)。
每个模拟图块由512×512个单位单元格组成(扩展数据图2B),每个单元都包含四个PCM设备 。电路可以实现显着性因子f> 1,但我们采用了f = 1,这意味着g +/-和g +/-是相同的 ,除了内在的随机性外。这使得能够实现2-PCM每次重量和AB方法,既需要WP1和WP2的同等贡献。单词线和选择线由WEST电路控制,选择两个或四个PCM设备是否连接到边缘电容器 。在重量编程过程中 ,信号VSIG1和2被保存在地面上。每次选择单词,选择和返回行,每次都只能编程四个PCM设备中的一个。重量编程是在迭代的行时尚4中完成的。在推断过程中 ,VSIG1和2在读取电压为0.3 V的读取电压下偏置,而信号RL1和2在地面上 。
推理以两个步骤实现(扩展数据图2C)。在整合阶段,在每行中激活的PWM脉冲与所需的输入幅度成正比(与参考文献32不同 ,这些持续时间未使用DAC转换为模拟电压)。VREAD受到每列操作放大器的强迫,该放大器偏向整个位线 。这些脉冲沿行缓冲以维持脉冲宽度的完整性。尽管IR下降确实沿列发生,但宽的电线使它们对MAC准确性的降解至关重要 ,尤其是与其他更重要的因素(例如外围电路线性和饱和效应)相比。然后将电流镜像到每柱电容器中,该电容器可以通过连接多达8个平行的金属氧化物 - 氧化物 - 轴导剂电容器来调整该电容器,每个电容器为50 ff(我们通常选择250 ff) 。电容器大小和可调性范围的选择基于可用的列区域,阵列中的预期电流 ,集成时间和镜像比率可实现。整个512行瓷砖的求和是在模拟中完全执行的,而无需在数字域中进行部分求和。在涉及两个垂直邻近图块的广泛输入情况下(图1i),在模拟域中仍然完全执行1,024行(甚至2,048)以上的1,024行(甚至2,048) ,而没有任何中间数字化 。对于使用广泛输入的层,闭环调整期间的读取操作使用了这种组合的配置,从而可以体验并纠正与最终推理Mac中所经历的相同非理想性。这提供了通过组合瓷砖引起的其他MAC误差的重大缓解。根据输入的迹象 ,可以将电流转向电容器或排放电容器 。当前集成之后, 断开瓷砖并产生输出持续时间。在此步骤中,一个可调的坡道电路(在所有列之间共享)设置了一个线性电压坡道 ,该坡道与512外围电容器上的电压进行了比较(扩展数据图2D)。对于每一列,输出电压开始高,当比较器切换时 ,输出持续时间结束,确定了该特定输出脉冲的持续时间,这与参考中的方法相似。33,34 。最后,启用和端口启用或禁用脉冲输出。通过由LC控制的正确启用信号正时 ,可以在芯片上实现激活功能,例如relu或hard Sigmoid。并行生产512个持续时间,在512条电线上退出瓷砖 。面积有效的设计选择(例如在所有列中共享的通用坡道发电机电路 ,消除常规ADC和相关的数字寄存器,以及优化的完整布局)启用了在球场上的专用人均电路,而无需列列多路复用器。
这些生成的持续时间将瓷砖留下 ,并使用扩展数据中的外托型路径向下一个瓷砖或OLP传播。每柱南北路线电路允许进行完整的平行持续时间处理,使N – S或S – N连接(无需输入相应的瓷砖),从瓷砖(外部折叠)中收集持续时间 ,或将持续时间寄入瓷砖柱(in-On-toe-col)(in In-of-COL)(在重量编程过程中使用) 。4。每排西 - 东部路由块启用了W – E或E – W持续时间传播和对行通信,从而使持续时间可以到达模拟瓷砖内的行和/或在瓷砖上移动以实现多铸件(扩展数据图2F)。
每个图块上的用户可配置LC(图2A)从本地SRAM检索说明 。每个非常宽的指令词(128位)包括几个模式位,以及在检索下一份指令之前 ,在大约1-GHz本地时钟的情况下,等待持续时间(大约1 ns的周期)。尽管某些模式位配置允许跳跃和循环语句,但大多数指定了要驱动哪种瓷砖控制信号。因此,128位中的大多数代表了瓷砖控制信号的给定子集的下一个状态 。这种方法允许进行高度灵活的测试和简化的设计验证 ,与预定义的状态机相比,面积较小。
例如,LC可以配置2D网格路由 ,以通过西电路(图2B)和外围电容器上的MAC积分启用对模拟图块的输入访问。然后,LC配置了用于将电容器上电压转换为PWM持续时间的坡道和比较器,避免了瓷砖外围的能量昂贵的ADC。最后 ,LC决定了哪个方向(北,南,西或东)发送生成的持续时间 ,配置了南2D路由电路4,33 。
LC还配置了每个瓷砖四个边缘的“边框”电路,以实现各种路由模式。例如,图2C显示了如何将顶图中奇数列的持续时间与底部瓷砖均匀列的持续时间合并在一起。该配置用于RNNT DEC芯片(扩展数据图7C) 。
输入转换为ILP电路中的持续时间。持续时间跨越0到255 ns ,使用8位单词编码。为了验证这些通信路径在整个芯片上的可靠性(图2D),我们在同一时间从西南ILP到所有六个OLP都反复多次铸造512输入PWM持续时间 。这些持续时间在1 ns粒度(1 GHz时钟)下均匀地随机分布在0至50 ns之间,并且在2,048个矢量(100万个样本)之间的误差和传输持续时间之间的CDF如图2d所示。重复该实验的分布,跨越0至100、150 、200和250 ns。最大误差未超过5 ns ,持续时间较短,甚至显示较小的最差误差(±3 ns),表明可以在整个芯片上准确传达持续时间 。尽管在这种情况下 ,误差是由双ILP -olp转换和异常长的路径引入的,但在常规推理任务期间,MAC误差始终由模拟MAC主导。
KWS仅在说出特定的音频关键字之后才能在各种设备(例如个人和家庭助理)中执行操作。延迟和准确性是重要属性 。当以“始终在线 ”配置中使用时 ,原始功率也是一个优势。当通过更简单的两级前端门控,可以检测到潜在相关性的音频输入并唤醒多级KWS系统时,每个任务的能量将成为功绩相关的图形。
使用HWA技术对KWS网络进行了训练 ,以使网络对模拟记忆噪声和基于电路的非理想性更具弹性。我们使用重量夹在间隔(-1,1)上训练了无单位的重量 。此外,我们在每个训练小批次中以0.02的标准偏差为0.02(扩展数据图3A) ,在每个训练中添加了正态分布的噪声。我们还添加了类似的分布式随机噪声,标准偏差为0.04,以输出激活,以模仿图层到层激活传输所期望的缺陷。我们发现 ,这种简单的噪声模型非常适合我们的模拟系统,并提供有效的HWA培训 。我们进行了广泛的高参数搜索,并选择了0.0005的基本学习率 ,批次大小为250。我们发现,包括该网络的偏差参数几乎没有好处,因此将其从模型中消除。我们使用自适应力矩估计作为优化器 ,以及重量衰减(即L2正则化)为零 。最后,我们将跨透明拷贝丢失作为我们的损失度量。在扩展数据中显示了HWA精度对重量和训练期间激活的注入噪声的依赖性图3b显示。
KWS网络在将数据馈送到FC层之前执行了几个预处理步骤 。输入数据(关键字)代表以16 kHz采样率编码为.WAV文件的1秒间隔语音记录。我们计算了音频谱图,这是使用在多个时间步骤进行的快速傅立叶变换的平方尺寸来表示音频信息的标准方法 ,使用窗口大小为30 ms,步幅为20 ms。然后,我们计算了MEL频率曲线系数(MFCC) ,该系数(MFCC)是一种常用的非线性转化,可以准确地近似于人类的声音感知 。我们每次使用40个曲线系数或垃圾箱。我们还将MFCC剪切到范围(-30,30),以避免进入HW进入的任何潜在激活问题。这种预处理导致每个关键字的二维MFCC指纹 ,尺寸为49×40(扩展数据图3C),然后将其压扁以得到1,960输入矢量。我们还将关键字随机转移了100毫秒,并将背景噪声引入了80%(大部分)训练样本 ,以使关键字检测更现实和弹性 。
为了进一步降低输入大小并拟合1,024输入范围的层,我们根据验证输入的绝对值平均值修剪输入数据(扩展数据图3D)。将平均输入强度低于一定阈值的像素修剪,将整体尺寸降低至1,024。有趣的是 ,修剪导致了准确的提高,如扩展数据的摘要表所示 。尽管我们的模拟瓷砖可以在最多2,048个元素的输入向量上计算MAC,但AB方法固有地使用WP1和WP2。因此 ,可以支持完全模拟求和的最大输入大小减少到1,024。
由于KWS网络是完全芯片的,因此需要在HW中进行瓷砖校准 。每三个步骤实现了每柱坡度和偏移校正程序。首先使用名义目标值对权重进行编程。接下来,将1,000个从验证数据集中获取的输入用作输入 ,并收集单瓦MAC结果,以计算要应用于目标权重的列坡缩放系数 。然后将瓷砖用缩放的重量重编程。最后,通过对每个图块上可用的八个其他PCM偏置行编程进行编程(扩展数据图3F),将实验MAC转移或向下移动。瓷砖校准后 ,使用相同的验证输入调整了Relu激活函数,并将验证数据上的实验结果与预期的SW Relu进行比较 。然后在测试数据集上进行推理实验。校准实现了列到列的过程变化和输入时间重量列依赖性(例如激活稀疏性和残余重量泄漏)的补偿。如RNNT的漂移结果所示,由于平均效果 ,瓷砖重量通常显示出良好的弹性。偏置权重需要更频繁的更新,以补偿列漂移,但这仅仅涉及仅运行较小的推理工作量和重新编程偏置权重 。最终 ,瓷砖重量也需要重新编程。尽管我们尚未探索温度依赖温度的条件,但我们认为,此处显示的PCM漂移水平足以允许运行几天甚至数周 ,这足以使模型重编程是为了在PCM漂移中与模型刷新无法区分的其他目的(例如资源平衡和模型更新)。
为了编码mlperf rnnt权重,我们使用了五个芯片 。迭代权重编程允许对电导的准确调整以匹配目标重量。在扩展数据中,为WP1和WP2显示了与目标和测量的芯片1重量相关的热图和测量的芯片-1权重。图4A ,b 。每个图块的相应误差表示为最大重量的分数,在扩展数据中显示了WP1和WP2的扩展数据。为了比较用于RNNT实验的五个芯片中的权重编程,我们根据扩展数据中显示的数据计算了CDF。这样,每个图块都提取了两个数据点 ,一个用于WP1,一个用于WP2 。芯片模拟产量为重量的比例,其编程误差少于最大重量幅度的20% ,约为99%(扩展数据图4E)。芯片4的产量略低,因为相应的最大w定义为用于从MLPERF([-1,1]左右)重新缩放整数的系数 ,因为需要更多的信号,从而导致更大的权重饱和度。扩展数据图4E显示了五个芯片中每个芯片中每一个的扩展分布 。
使用前四个芯片映射RNNT编码器的权重,如图5A所示。用于编码器LSTM的大型WX和WH矩阵的大小为1,024×4,096 ,除了传统的ENC-LSTM0(WX是960×4,096)和ENC-LSTM2(WX是2,048×4,096)。ENC-LSTM0,ENC-LSTM1和ENC-LSTM2 emparion AB的WH矩阵。在ENC-LSTM0,ENC-LSTM1和ENC-LSTM2中 ,WX和WH Mac的求和在X86主机外进行了芯片,而实现ENC-LSTM3和ENC-LSTM4的芯片4在模拟中进行了整个sumpation 。此外,块1(-1),9(-9)和2(-2)和2(-2) ,10(-10)的ENC-LSTM0 WX和ENC-LSTM1 WX,以及块1(9),17(9) ,17(25)(WP1(WP1(WP2))和2(10),18(26),18(26) ,在数字上在数字上插入数字上。最后,在芯片4上实现了ENC-FC。通过在模拟域中共享外围电容器(图1i)连接瓷砖的任何位置都可以用深蓝色的棒突出显示 。我们没有在模拟内存中绘制偏差,而是通过将它们合并到校准偏移量中而没有额外成本来将它们纳入已经存在的片外数字计算中。因此 ,这些偏见总是以FP32精度应用。没有应用网络再培训 。
为了提供输入数据和收集MAC的结果,以从ILPS -OLP的大规模平行方式进行了大规模的结果,对复杂的路由路径进行编程 ,利用LCS的灵活性(扩展数据图5B)。在每个Mac之后,在RNNT编码器中,需要进行数据输入输出以进行外芯片数字处理。每个全面操作(包括输入,MAC ,持续时间生成和输出数字化)需要2.1μs 。输入箭头与一个或多个模拟图块并行显示多铸件,其中Mac操作发生在这些图块上。由于OLP的数量少量,将输出MAC分为三个时间步骤。
RNNT实验实现了MAC片 ,而瓷砖仿射校准(移位和比例)和LSTM矢量 - 矢量计算在SW中进行(MATLAB SW在X86上运行) 。特别是,由于WER对其权重的任何噪声的敏感性很高,因此第一个ENC-LSTM0 WX需要仔细的输入信号管理才能最大化信噪比。扩展数据图6a显示 ,在ENC-LSTM0 WX的情况下,自然表现出广泛的动态范围的输入数据首先转移到零均值,然后将标准化归一化为最大输入幅度。然后将预处理输入用于模拟MAC。MAC结果后来在SW中将MAC结果不可解化 ,在SW中添加了输入均值贡献(倒数为一个数字的乘积,输入图像的平均值和一个矢量,每个列的权重之和)和校准的仿射系数 。
在扩大权重的情况下(扩展数据图6B) ,输入首先使用随机矩阵M进行MAC(这样的矩阵具有随机的正常权重,但在所有输入中固定)。由于具有零平均值的矩阵的输入的乘积会生成均值接近零值的输出,因此不需要应用零均值移位,尽管仍执行归一化为最大幅度。在模拟片上MAC之后 ,结果将结果定义,并应用了通常的校准 。对于RNNT中的所有其他层(扩展数据图6C),将输入直接用作瓷砖激活 ,并用通常的仿射系数校准MAC。所有仿射系数都是通过使用训练数据集的2,000个输入帧来比较实验和预期的SW MAC来计算的。数据线性拟合以获得斜率和偏移系数 。
扩展数据图6D显示了所有数据类型转换的详细说明。所有SW计算均在FP32中进行。为了传输到芯片,将数据转换为INT9(UINT8 Plus符号),并将UINT8矢量加载到ILP中 。在这里 ,生成了持续时间并将其发送到执行模拟MAC的图块,并在外围电容器上收集模拟电压。一旦将UINT8向量加载到ILP中,如扩展数据图所示 ,在第二或第四次步骤的集成过程中发送了“负”持续时间。5b和7d 。最后,通过外围电路将集成到柱的电容器集成到柱的电容器上的电荷转换为发送到其他瓷砖或OLP的持续时间,从而将它们转换回UINT8。然后将数据在片段外发送 ,并在校准阶段转换回FP32。扩展数据图6E显示了方程的摘要,强调了所有MAC在片上进行了所有MAC,而在SW中计算了矢量 - 矢量,偏置和非线性激活。联合层在SW 。
扩展数据图7显示了DEC映射和信号路由的详细信息。为了说明EMB层(扩展数据图7A) ,我们首先将EMB和DEC-LSTM0 WX层折叠成具有28×1,280尺寸的单个EMB×WX矩阵,该矩阵接收一击输入向量。与WH相比,这种乘法在SW中是完全等效的 ,但导致EMB×WX矩阵的重量很大,如第一组CDF所示,报告了每列的最大权重 。由于MAC来自EMB×WX和WH的结果直接在模拟域中使用共享电容器汇总 ,因此无法任意缩放权重值。为了克服这个问题,对9×1,280 emb×Wx矩阵的9份副本进行了编程,并将28个输入复制到9×28行上 ,从而导致与WH的信号相似。这使我们能够有效地在9个单位单元格上分配这些大量重量,同时确保模拟求和可以通过正确的缩放量表汇总EMB×WX和WH贡献 。
DEC重量映射使用的AB(扩展数据图7B)和信号路由启用了所有信号的并行输入和输出(扩展数据图7C)。在这里,使用路由串联来有效地将信号从两个不同的图块组合到同一OLP中。完整的输入 - MAC - 输出处理时间为1.5μs(扩展数据图7D) 。
与KWS实验不同 ,MLPERF存储库要求使用验证数据集执行推理。图5中所示的RNNT MLPERF推理实验是通过将完整验证数据集输入第一个芯片中完成的,从而将输出结果保存在X86机器上,在第二个芯片中交换并继续实验,并使用先前保存的输出作为新输入。对于所有五个芯片 ,重复了此过程,以确保像完全集成的系统一样,确保逐个示例级联的一致示例 。可以通过改善的存储密度(包括在后端中的多层PCM堆叠) ,多芯片模块,甚至多模型解决方案,并通过仔细的神经新工作分配以最大程度地使昂贵的模块间交流来绘制均匀的模型(包括堆叠多个PCM) ,多芯片模块甚至多模块解决方案。
实验性MAC细节显示在扩展数据图8中。每个芯片显示误差分布和MAC相关性。在所有数字中,一个虚线的区域突出了该MAC的主要关注区域 。对于LSTM层,感兴趣的区域对应于[-5 ,5]范围,因为在该范围之外,随后的Sigmoid或Tanh函数可以预期完全饱和(例如 ,输出始终为-1或+1,几乎完全独立于输入上的任何变化)。同样,由于relu激活函数,FC层的感兴趣区域主要是正MAC。在这种特定情况下 ,ENC-FC和DEC-FC是在Relu之前总结的,因此略有负面贡献也可能很重要 。我们绘制了感兴趣的区域,即Mac> -5。报告的标准偏差σ计算LSTMS [-5 ,5]中的SW MAC的误差和FC层的[-5,INF]。还提供了针对ENC-LSTM0的原始WX与权重膨胀的WX2之间的比较 。扩展数据图9显示了图5中的实验中转录句子输出的示例,该句子几乎显示了几乎等等准确性。转录结果在模拟HW和SW中实现的MLPERF RNNT模型之间非常吻合 ,这表明我们的HW示范的有效比分是NBITS = 4.097,对于9.475%WER,NBITS = 4.153 = 4.153 ,对于9.258%WER(重量扩展),与整个网络相比,对于9.258%的增长(重量扩展) ,与完整的网络相比。
提出的5个芯片RNNT实现并未与数字处理集成在一起,但是我们可以通过将模拟芯片中的Mac处理时间和能量与估计的数字处理时间和能量相结合,并估算整个数据集所需的时间,这些时间和能量我们先前在Architecture Paper20中列出了我们先前列出的 。扩展数据图10a显示了一个定时模拟 ,描述了用于处理所有2,513个输入音频样本的RNNT层执行,考虑了所有管道,时间堆叠 ,复发和DEC步骤。我们假设ENC和DEC层的时间分别为2.1μs和1.5μs,其中包括所有持续时间生成,以及用于每层数字处理的相对保守的300 ns。鉴于这些假设 ,整个数据集可以以1.2877 s进行评估,对应于每秒1,951.59个样本的速率 。结合下面的功率测量值,这些数字可用于推断模拟式系统性能。
使用一组32个示例输入向量完成了RNNT的功率测量 ,该载体填充了ILP SRAM到容量。通过溢出ILP的地址指针,可以重复相同的32个矢量AD Infinitum。加上LCS中的跳跃说明,将程序计数器重置为程序执行开始 ,这允许从推理任务的电压供应中进行实时电流测量 。在这些测量值中,包括了ENC(或DEC)的所有7(或5)阶段,包括4个集成阶段和3(或DEC的1个)持续时间生成阶段。这不仅说明了MAC集成,还考虑了随后生成 ,运输和数字化MAC结果的成本。测得的功率如图6a所示 。
使用来自我们的体系结构研究20的能源和执行时间模型,总数字能量(对于SW中执行的所有任务以支持本文所示的实验)估计为标称ENC-LSTM0的0.11 J,对于ENC-LSTM0 ,eNC-LSTM0和0.26 J均为0.26 J。扩展数据中显示了数字操作的总数和详细的故障图。图10c,d 。
尽管文献中已经提出了基于SRAM和数字计算的几种计算机或近序列方法,并且数字计算35,36,37,38列出了 ,但其中大多数并未解决重新加载重量的能量和时间成本,因此与基于NVM的基于基于NVM的权重方法进行了直接的并非及时比较。但是,一些NVM计算机中的计算研究集中在宏观级别的32,34,39,40,41上 ,而没有考虑数据传输,控制或芯片基础架构(例如时钟)成本。它们通常也比这里的工作要小得多(有时少于100万参数7),对大型模型的准确性和相关持续的TOPS/W值进行了公平评估 。
相反 ,我们将持续的功率和性能值与来自MLPERF的同一RNNT任务的其他报告的系统编号进行了比较,如图10E所示。通过加权单个芯片的持续功率测量,其与扩展数据中所示的定时模拟相应的活动因子的持续功率测量值分别计算出系统的总系统能量和相应的骨料TOP/W值,分别为4.44 j和6.94 j和6.94 tops/w(4.60 J和6.70 J和6.70 tops/W x xx2)。尽管我们在图6中的评估不包括实际系统中使用的某些外部组件 ,例如系统总线和电压调节器,但此任务的最高能源效率仍然比该任务的最佳发布结果更好 。
网络中相对较少的数字操作意味着可以通过提高原始模拟MAC能源效率(目前20个上升速度)来获得可观的好处。这可以通过较短的集成时间,提高效率的模拟操作机和/或较低导电设备来实现。取而代之的是 ,芯片4的能源效率下降至12.4个顶部/W(图6C),是由于芯片基础设施(例如降落垫)而发生的,需要在每个MAC的末端进行降落垫。这突出了需要在芯片数字计算的核心上 ,可能与同一芯片接近,并使用相同的局部2D网格进行数据传输,如我们的体系结构研究20所述 。
MLPERF提交的RNNT表现效率在每瓦3.98至38.88范围内 ,使用的系统功率在300至3,500 W之间,假设使用大批量来最大程度地提高效率。我们的工作固有地假设小批量的大小为1。尽管我们假设可以使用其他样本来保持管道满足,但我们的预测实际上与迷你批量大小无关 。在这些条件下 ,使用本文报道的芯片的模拟系统可以在3.57 W时获得每瓦的546.6个样品(6.704顶/W),比提交给MLPerf的最佳能源效率结果提高了14倍。通过降低,混合PWM40或比特系列方案可以减少总体整合时间,可以提高吞吐量和能源效率 ,但是这些可能会在高显着位置上遇到错误扩增。未来的努力将需要解决他们对MAC准确性的影响,以实现商业相关的大型DNN 。
赞 (14)
评论列表(3条)
我是永利号的签约作者“admin”
本文概览: 我们的实验结果是在由300毫米晶片制造的芯片上测量的,该芯片在外部铸造厂制造的14 nm互补金属 - 氧化物 - 氧化型前端前端。在IBM Albany纳米技术中心的“后端...
文章不错《用于节能语音识别和转录的模拟芯片》内容很有帮助