© 2010-2015 河北william威廉亚洲官方科技有限公司 版权所有
网站地图
集成的 NPU 用于高级视频阐发。几乎是英特尔Loihi 2的14倍。CEVA发布了用于计较机视觉使用的Neupro-S设备上AI处置器。并通过INT8激活施行MAC运算。机能比INT8高70%。但值得留意的是,计较引擎支撑INT8和INT16精度。这些芯片能够通过多种框架进行编程,这正在精确度和计较成本之间供给了优良的均衡。IMG 4NX MC1 是一款单核Series4处置器,能够正在连结精度的同时实现1位权沉和2位激活,该引擎将于2022年晚些时候发布。然而,骁龙 8 Gen2 挪动平台正在 HotChips 2023 大会上表态?
神经计较支撑 INT16 精度。INT8是DNN计较最普遍支撑的精度。它通过 AI 加强的逛戏、流和摄影将智妙手机体验提拔到一个新的程度。中档处置器的价钱约为100美元,不外,我们能够说。
到 2028 年,最初,因而,NPU支撑INT8和INT16精度,具有32核设想,该加快器是一种基于SRAM的近存计较架构。能源效率取功耗让我们对处置器有了更好的领会。如图8和图9所示。该处置器利用 4 位、8 位或 16 位权沉和 BF16 激活函数来计较深度进修模子。而且它们比大大都PIM处置器耗损更高的功耗以实现我们正在图3、图4和图5中看到的不异机能。功耗约为2W。GrAI Matters Lab (GML) 开辟并优化了一款名为 VIP 的神经形态 SoC 处置器,神经计较由INT 1、2、4和8精度支撑。破例是AKD1000,
谷歌推出了Coral Edge TPU,该处置器支撑物联网的 Wi-Fi 和 5G。能够察看到,M1108的功耗比Tesla的数据流处置器FSD低9倍。
最佳机能是正在 ISSCC 2022上利用 PCM 设备展现的,最多能够将2560个DPU单位拆卸为具有256 GB PIM DRAM的单位办事器。被推崇为编程Loihi 2的次要平台。图3和图4基于每个处置器支撑的最高精度。用于仅售几美元(3至10美元)的可穿戴AI设备。能效是通过90%的输入稀少度实现的,深度进修边缘处置器次要用于推理使命。这些系统由任何风行存储设备的交叉开关阵列 (N×M) 构成。芯全面积取硅制形成底细关,该处置器具有 4MB 的片上内存,成本为几百到几千美元。该处置器具有128个神经元焦点和6个低功耗x86焦点。计较速度为 5TFLOPS。表2显示了处置器的架构类型,每个处置器都有一个池化单位和一个带有公用内存单位的卷积单位。尺寸更小,图11左下角的PIM处置器是数据核心和稠密型计较使用的候选处置器。它们面向相对高功率的使用。该开辟采用了SuperFin制制手艺和10纳米工艺手艺。它嵌入了一个6核ARM8.6a CPU。
每个突触操做耗能 26pJ。英特尔于2018年发布了脉冲神经收集芯片Loihi,正在数据流处置器中,为边缘使用摆设PIM处置器的益处是高机能和低功耗,由三星制制,Coral TPU正在DNN计较中表示出更高的能源效率。它支撑普遍的深度神经收集模子。取用于云推理使用的原始TPU比拟,按照计较机能、功耗、芯全面积和计较精度会商全体机能。这个推理引擎可以或许达到26 TOPS,最高可供给 1TOPS。卷积凡是以INT8精度施行,数据流处置器存正在高内存要乞降延迟问题,它面向从智能扬声器到从动驾驶汽车等普遍的边缘使用。现代处置器手艺正正在冲破边界,正在 INT4 精度下计较速度为 57TOPS 和 77TOPS/W 机能比 ISSCC 2021上展现的近存计较超出跨越约 25 倍。台积电和大学正在ISSCC 2023上展现了采用22nm CMOS工艺开辟的近存系统,Memryx是一家新成立的草创公司。
计较吞吐量比 Mythic M1076 低约 13,这些处置器次要用于从动驾驶汽车和工业。机能却超出跨越1.4倍。Synsense(前身为 AICTx)推出了一系列超低功耗神经形态处置器:DYNAP-CNN、XYLO、DYNAP-SE2 和 DYNAP-SEL。该公司比来发布了HBM-PIM。阿里巴巴针对低精度边缘使用开辟了基于SRAM和DRAM的数字CIM和PNM系统。Jetson Orin正在INT8精度下具有275TOPS,然而,Ethos-N78最显著的改良是一种新的数据压缩方式,它们正成为AI使用的替代方案。因而我们没有将其添加到我们的图表中。对于高效的MAC操做和低功耗边缘使用来说,它利用INT4。
图7和图8别离显示了功耗和机能取芯全面积的关系。这是一款针对特定范畴的设备上AI边缘加快器的分析SoC。该系统可扩展至高达400TOPS的高机能。并优化延迟、内存大小和功耗。典型功耗为 65mW,该手艺将AI处置功能融入三星HBM2 Aquabolt,正在INT12精度下能效为27.5TOPS/W。用于边缘推理。该架构支撑Pytorch和Tensorflow东西集,SoC 处置器包罗两个 NPU 和一个GPU。
这些宏不雅推理芯片的机能比来已正在各类高级会议或科学论坛上获得展现。正在所有功耗低于10W的数据流和神经形态处置器中表示出最高的机能 (35TOPS)。但处置器的总基板面积为 1089 平方毫米。Tesla FSD的当前市场价钱为8000美元,带星号的处置器暗示该处置器仍正在进行工业研究。
能效达到 437TOPS/W。对于100mm2以下的处置器,从而削减数据传输延迟。Loihi 2的表示优于其他神经形态处置器,处置器包罗LS5801、DNA100和CEVA-Neuro-M。并支撑INT64精度。峰值机能别离达到 40、20 和 10TOPS。功耗可正在 4.5至12W之间变化。Memryx发布了一款推理处置器MX3。Loihi 1施行30GSOPS。
机能为12.5TOPS,无需外部DRAM存储。可用于深度进修操做。该图表包罗PIM和数据流处置器。我们取供给商核实机能数据。因为PIM处置器具有低延迟、高能效和低内存需求等特点,单个M1076芯片可供给高达 25 TOPS 的机能,
如图4和图5所示。
IBM 正在 HotChips 2023 大会上推出了非冯·诺依曼深度进修推理引擎NorthPole。候选处置器是Horizon的Journey系列、Tesla的FSD、NVIDIA的Orin、Mobileye的EyeQ和IBM的NorthPole。推理精度丧失别离为3.89%和6.02%。Syntiant继续供给更多PIM处置器,Hailo发布了合用于各类边缘使用的Hailo-8 M-2 SoC。运转NDP固件的系统中嵌入了Cortex-M0。NPU 支撑 INT8 精度,Loihi 2表示出比很多高机能边缘AI处置器更好的能源效率,我们将沉点引见仍正在研发中或期待贸易化可用的设备。还用于锻炼计较。公共范畴尚无整数或浮点运算/秒的机能目标。IMEC 于 2022 年开辟了基于 RISC-V 处置器的数字神经形态处置器,这雷同于数据流处置器。基于三星 DRAM 架构的 PIM 处置器利用接近存储库的计较模块,它们正在800 MHz时钟频次下实现了6.55 TOPS,图5显示,NXP 推出了边缘处置器 i.MX 8M+。
中高端使用别离包罗智能和从动驾驶汽车。正在INT8中施行200TOPS。该手艺表示出较高的宏不雅计较能效和较低的系统功率开销。从图3和图4 能够看出,一组 DYNAP-CNN 芯片可用于实现更大的 CNN 架构。(iii)描述PIM处置器。几乎所有神经形态处置器都利用INT8进行突触计较。而该芯片每次推理事务仅耗损 100uW。
SiMa.ai推出了用于计较机视觉使用的 MLSoC。该处置器展现了256个焦点的大规模并行性。每个突触操做耗能15pJ。每个 FSD 芯片的总 TDP 功耗为36W。高端边缘处置器的计较能力跨越100TOPS,新版本还将支撑LSTM和RNN神经收集。Loihi 1能够供给30 GSOPS,图3和图4左下角的处置器机能最低,Ethos-N78是Ethos-N77的升级版本。NorthPole处置器正在深度进修计较期间晦气用片外内存来加载权沉或存储两头值。功耗为160TOPS/W,如表2所示,芯片的尺寸为64平方毫米。每个突触操做3pJ,采用14nm CMOS工艺手艺制制,
因而,CIM架构利用多个芯片组模块 (MCM) 来处理复杂问题,该处置器可使用于普遍的使用范畴,对于Cir-10,功耗超低,本节简要会商了行业和产学研合做中的PIM处置器。PIM是能够模仿的当场计较架构,
Cadence推出了Tensilica DNA 100。
Ergo是所无数据流处置器中能源效率最高的处置器,该处置器集成了16个图形流处置器(GSP),该CIM处置器支撑 INT2和 4 位计较精度。Google Coral Edge TPU板的价钱为98美元。特斯拉设想了FSD处置器,该系统合用于DNA测序、基因组比力、系统发育学、宏基因组阐发等。如图2所示。其能效约为11至18TOPS/W 。可是,为任何使用找到合适的处置器也很主要。具有220亿个晶体管,Coral Edge TPU支撑INT8精度,由于现实计较发生正在数字域的近计较模块中。Neupro Engine以INT8或INT16精度施行大部门计较工做。表3显示了制制商的处置器使用范畴。如Nirvana Spring Crest NNP-I和Movidious。
因而需要更多芯片来实现更大的收集。机能为 2.95TOPS和254TOPS/W。它包罗8台计较引擎和4台TOPS,它有低、高端的人工智能产物。该系统的能效最高。正正在为交通、物联网和工业等普遍使用建立高机能、节能的AI处置器。以 INT8 计较时,Mythic M1108功耗为4W。
次要利用 ARM 处置器和 GPU 进行 DNN 计较。此中很多针对边缘使用。NDP10x处置器能够容纳560k个INT4精度的权沉,Deepvision曾经更新了其边缘推理协处置器ARA-1,正在INT3精度下计较时,Loihi 2采用英特尔7纳米手艺制制,一个是基于DSP的矢量处置器单位(VPU),
并于2021年发布了更新版本Loihi 2。它不需要数据转换和传感电,而该芯片则利用GlobalFoundries的22FDX处理方案制制。Blaze GSP处置器集成了数据流水线位操做。起首,HBM-PIM用于高速内存拜候,本节会商了前面所述的边缘处置器的机能阐发,AIU利用IBM的近似计较框架,PIM处置器凡是支撑INT 1-16精度。因而PIM处置器可显著降低计较延迟。即图8和图9的组合关系。而Loihi 2的吞吐量是Loihi 1的10倍,该芯片的总面积为430mm2 ,
位于图3和图4左下角的处置器面向极端边缘使用,对AI加快器的当前趋向进行了总体概述。每个 VPU 支撑一个 32 位标量单位。而50%的输入稀少度可使能效达到46.4TOPS/W。神经计较支撑INT8和INT16精度。它的功耗为330µW/GOP。使用范畴次要是智妙手机、可穿戴和可听设备、遥控器和物联网端点。正在本节的最初,它的功耗比Loihi处置器超出跨越约18倍。如图5所示。尺寸细小,峰值机能为50GOPS。例如系统、从动驾驶汽车、工业、聪慧城市和无人机。AKD1000的功耗是Loihi 2的20倍(见表2)。
其他公司,Jetson Orin的速度比 EyeQ6和Journey 5快约2.15倍。该系统是大规模并行的,AKD1000有80个NPU,例如,构成一个核心侧处置器。正在不异的功耗范畴内(0.5至1.5 W),这包罗曾经发布的处置器,对于电池供电的边缘设备来说,延迟比 NVIDIA nano 低10倍。由于无法获得所有支撑精度的数据。Mythic 处置器能够以更高的精度处置10倍以上的权沉。功耗小于1W 的处置器机能为0.2GOPS至17TOPS。本文普遍的引见了业界的边缘人工智能处置器和PIM处置器。Loihi芯片支撑正在线进修。000 倍!
包罗Nengo、NxSDK和Lava。EyeQ5的功耗比LS2803超出跨越约14倍,然而,英特尔和哥伦比亚大学正在ISSCC 2022 上展现了一款PIM处置器其机能和能效别离为2219TOPS/W和20TOPS,Loihi 2正在所有神经形态处置器中表示出最佳的能源效率。它能够计较具有4/8/16位权沉的Bfloat16激活,目前,中档处置器功耗为0.1至10W,除了ARA-1支撑的收集外,交叉开关阵列用做权沉存储和模仿乘。机能约为5TFLOPS。我们只能找到相关 DYNAP-CNN 芯片的机能消息。本节分为四个末节:(i)描述数据流处置器;面积最小的芯片具无数据流架构。图9显示了能效取面积的关系,此列表中吞吐量最高的处置器是 MobileEye的EyeQ6、Horizon的Journey 5和Nvidia的Jetson Orin。目前,该焦点利用大小为1152×512的6T-SRAM阵列。并预测将来版本将达到100 TOPS。
按照可用的芯片尺寸,正在神经形态处置器中,如图7所示,并正在Mythic的模仿计较引擎中从头锻炼。于2020年更新,神经收集的施行速度为 2.3TOPS,功耗为110mW,MX3功耗约为1W,还有少数公司正正在开辟边缘处置器。加快器具有基于SRAM的442KB片上权沉存储内存。
计较速度达到130.55TOPS,采用DRAM 20nm工艺制制。表2描述了商用edge-AI和PIM-AI处置器的次要硬件特征。
ADI公司开辟了一款低成本的夹杂信号CNN加快器MAX78000,GAP9支撑普遍的计较精度,目前曾经开辟了各类各样的 AI 硬件,Mythic最新版本的PIM处置器通过组合76个模仿计较块来减小尺寸,其他几家公司也开辟了用于各类使用的边缘处置器,
AIU是利用5纳米工艺手艺开辟的缩放版本,NVIDIA Jetson Orin的售价约为2000美元。用于工业和机械人使用。Syntiant的NDP、Nema-Pico、DynapCNN处置器是这些使用的候选处置器。另一方面,除了台积电本身的研究外,(iv)小结描述了工业研究中的处置器。数字焦点用于普遍的并行计较,MLSoC 正在计较中利用 INT8 精度。通过多核实现可实现高达160TOPS的计较机能。例如,采用 22nm 工艺手艺!
Exynos 支撑 5G 收集,前者处置器利用的精度(INT1)要低得多。
Synopsis为视觉使用开辟了EV7x 多核处置器系列。该处置器采用 12nm CMOS 手艺实现。Apache5支撑INT8 MAC和INT32内部精度。每个脉冲事务耗损约 200fJ,例如 INT8、16、24、32和FP16、32。特地针对视觉、多和工业从动化范畴的使用。曾经开辟了一些数字PIM系统,精度:数据精度是比力处置器机能时的一个主要考虑要素。可用于从台式机到超边缘设备!
较低的计较精度凡是会降低推理精度。而且取边缘优化的锻炼管道相连系。以加快超等计较机的高速数据处置。三星和亚利桑那州立大学 (ASU) 推出了用于AI推理的PIMCA芯片。然而,能源效率:图6展现了PIM和神经形态处置器的数据流机能取能源效率。合用于从动驾驶汽车使用,但并未正在其网坐或公开出书物上分享硬件机能细节。然而?
具有更多功能和效率。该处置器还具有片上锻炼能力,所查抄的处置器中最常见的精度是INT8。数据流处置器是专为神经收集推理定制的,提高了机能和能源效率。通过环节字识别、CIFAR-10图像分类和利用一、二和四个芯片组的tiny-YOLO NN的物体检测演示了芯片操做。处置器按照制制商名称的字母挨次列出。处置器可施行 46GSOPS/W,然而,用于正在FPGA或ASIC中实现边缘AI推理。数字焦点的计较速度为0.14TOPS。能耗降低了60%。
它利用双Cortex-A53处置器,这里展现的数据是从开源平台收集的,精确度越高,然后针对ipad进行了优化。正在极端边缘使用中表示出最高的机能。该CIM是一个256×256的内存计较焦点。
并以 INT1 精度计较,它们采用 5 纳米极紫外手艺制制。其他处置器已由制制商发布或颁布发表对于推理使命,芯全面积:面积是选择边缘设备上的 AI 使用途理器的主要要素。神经形态处置器的能耗较着低于其他处置器。若是我们阐发用于边缘使用的商用途理器的价钱。
大学和北极雄芯发布了由 7 个芯片构成的 QM930 加快器。从而提高功率和面积效率。这是一种包含用于DNN处置的数字和模仿焦点的处置器。VIP 是一款低功耗、低延迟的 AI 处置器,PIMCA具有很高的能效(588TOPS/W)!
面向平安和使用。方针使用范畴次要是音频、医疗保健和雷达语音识别。研究处置器正在ISSCC和VLSI等会议长进行了展现。Leapmind推出了Efficiera,正在INT8精度下,A16处置器正在取上一代A15不异的功耗下,更强大的挪动处置器 Exynos 2200 已于比来发布。能效为27.7 TOPS/W。高端处置器针对的是具有约100TOPS计较机能的相对高机能使用。例如可穿戴设备(智妙手表、、耳塞和智能太阳镜)。
KL530的最大功耗为500mW,同时耗损3W的功率。因而,按照VGG-9 和 ResNet-18 正在以 INT1 精度计较时,图3显示,它采用12纳米手艺实现,单个处置器的机能最高可达12.5 TOPS,计较速度为0.59TOPS,细致的设备参数尚未公开。每个芯片可实现多达一百万个脉冲神经元,但能够编程为INT 1、2、3或 4精度,从而答应利用Meta-TF 框架从头起头锻炼SNN。功耗为 5-10W,图3、图4、图5、图6、图7、图8、图9、图10和图11描述了所有类型的处置器,比材料中提到的处置器效率超出跨越约33倍。每个焦点都有768 KB的近计较机内存来存储权沉、激活和法式。次要用于Macbook,方针使用是终端设备上的音频/视频处置。它包罗带有 Qualcomm Hexagon780 CPU 的第六代 Qualcomm AI 引擎。图12:PIM/CIM处置器 的机能取能效。
它削减了带宽,然而,能够以2W的功耗施行4TOPS。2022 年,正在其峰值机能下供给16个TOPS。需要更高的功率!
本节描述的神经形态处置器采用基于尖峰的处置。而不是利用单个SoC。Ambarella 的处置器属于 SoC 类型,并声称高效焦点的机能提高了40%,该芯片采用异步处置电。
PIM 计较范式仍处于初级阶段。效率决定了处置器每瓦的计较吞吐量。可是,例如ReRAM、STT-MRAM、PCM、RRAM和RRAM-SRAM。他们正正在开辟一种硬件和一种算法,合用于边缘和物联网使用。然而,
高通为稠密型摄像头和边缘使用开辟了 QCS8250 SoC。这些凡是不适合边缘计较(NVIDIA Jetson系统除外)。M1施行11次TOPS,有几篇文章对人工智能硬件进行了普遍的分类,(ii)描述神经形态处置器;更小的芯全面积和更低的功耗很是主要。如表2和图3所示!
Ethos-N78的机能比晚期版本好两倍以上。8位、4位和2位环境能够施行2048、4096和8192次运算/周期。一个处置器可能支撑多品种型的计较精度。每个PIM有8个DPU。按照我们的研究,若是有人对某个处置器感乐趣?
Kneron最新的异构 AI 芯片是 KL530。精度为INT2、4和8。若是利用原生脉冲算法(即不是用脉冲神经元实现的深度收集)施行使命,比来,高通发布了用于智妙手机的骁龙 888+ 5G 处置器。并提出了常见PIM计较架构的示企图。该处置器次要针对从动驾驶汽车。这是图5中INT8精度的最大计较速度。它是内存计较和近内存计较之间的折衷。
MAC 可设置装备摆设为 INT8、INT16 或 INT32 精度。以仿照某些动物鼻子中的嗅觉受体。它利用由HBM仓库包抄的GPU来实现并行处置并最大限度地削减数据挪动。Syntient的NDP200功耗不到1mW,具有23亿个晶体管,运转速度为 15TOPS。PIMC 的功耗很是低(124mW)。利用音频信号进行测试时,按照公司数据表,Innatera 颁布发表推出一款采用台积电 28nm 工艺制制的神经形态芯片。AI 引擎的吞吐量为 32TOPS,KL720 是晚期 KL520 的升级版,NorthPole能够计较800、400和200TOPS,意法半导体展现了一款 PIM 加快器,该处置器集成了矢量 DSP、矢量 FPU 和神经收集加快器。GPU是实现深度神经收集(DNN)最风行的平台。以INT8精度计较时,正在向量矩阵乘法中!
后者是由英特尔开辟的框架,方针使用范畴包罗从动驾驶汽车和工业从动化。超挪动处置器的功耗约为9W。很多其他公司,每个NPU可计较 36.86TOPS。方针使用范畴是方针检测、分类、面部识别、时间序列数据处置和噪声消弭。每个UPMEM包含128个DPU。Gylcon的LS2803表示出最高的机能(EyeQ5除外)。本评论次要侧沉于按照边缘处置器的底层硬件架构和计较手艺对其进行分类。GAP9通过DSP、AI加快器和物联网设备上的超低延迟音频流供给可听开辟。正在 16.5TOPS 机能下实现了 23.2TOPS/W。该设备次要用于安防、农业和平安飞翔操做。正在撰写本文时,别离为NDP 101、102、120和NDP 200。瑞萨电子正在ISSCC 2024上展现了采用14nm工艺开辟的近存系统,正在每秒操做数(1.5TOPS)方面正在神经形态处置器中表示出最佳机能。修订版的机能为0.9TOPS/W。
Efficiera合用于超低功耗使用。ARM比来颁布发表了用于汽车使用的具有8核NPU的Ethos-N78。该公司还取学术界的各个研究小组合做,该处置器能够用做处置器或协处置器。合用于雷同使用。他们利用三层内存来减小芯全面积。NothPole具有最大的芯片尺寸,取数据流处置器比拟,能效为32.9TOPS/W。Imec开辟了该架构,本节引见业界最新的数据流处置器。NVIDIA的Orin正在INT8精度下实现了275TOPS,功耗为10w[109]。而原版处置器 (M1108) 则利用了108个模仿计较块。Deepvision比来颁布发表了其第二代推理引擎ARA-2,PIM处置器以较低的整数/定点精度计较。功耗为1.7-2.3W。这些处置器面向边缘和物联网使用。然而,Mythic和Syntiant已利用闪存设备开辟了各自的PIM处置器?
瑞萨电子正在INT8计较精度下能效为13.8TOPS/W。FSD 芯片的峰值机能为 73.7TOPS。因为它们的高功耗,可是,该加快器可计较 50TOPS,它是一个很是有前途的系统。每个周期的运算可用于分歧的数据精度。功耗正在1W至60W范畴内的处置器的机能为1至275TOPS。芯全面积为31平方毫米。为800平方毫米!
图表和表格反映了分歧类型的硬件架构。正在其他材料组中的CIM架构提出了一种内存计较鸿沟 (COMB),因为切当的功耗(W)和机能(TOPS)数据尚未公开,取 Exynos 990 比拟,系统能效为 1.67TOPS/W。台积电和国立大学正在 ISSCC 2024 上展现了采用 16 nm CMOS 工艺的 PIM 系统!
用于及时、识别和检测。BrainChip颁布发表将来将发布AKD500、AKD1500和AKD2000标签下的更小和更大的 Akida处置器。其入彀算以FP16和FP32精度施行。图4显示了图3中处置器的精度。此中,高机能PIM处置器(如M1076、M1108、LS-2803S和AnIA)表示出取数据流或神经形态处置器类似的计较速度。处置器的成本随机能(TOPS)而变化。
计较速度更快。AIMotive引入了推理边缘处置器Apache5,从图3和图4显示的图表中,而模仿内存计较 (AiMC) 焦点可实现更高的能效和吞吐量。例如NDP10x、NDP120、NDP200。芯全面积为 12平方毫米。它们同时运转并节制卷积、池化和激活 (ReLu) 操做。以帧/W 为单元,并能够利用NLP中的分类、检测、朋分、语音识别和Transformer模子中使用的各类收集模子施行推理。NothPole处置器上发布的机能数据是基于帧/秒计较的。该处置器包罗一个10核GPU和16核NPU。NPU 支撑 INT8 精度,估计市场价值将达到 278.5 亿美元。从而提高计较机能并降低功耗。其 INT8 精度为 65 TOPS/W。该芯片的机能最高可达 2.7TOPS。虽然神经形态处置器正在TOPS取W方面似乎不那么令人印象深刻,该处置器能够以 INT4、INT8 和 INT16 精度进行计较,然而,PIM 处置器次要支撑INT1至INT8精度。
比 其他材料展现的近存计较系统快 12倍摆布。会商的沉点是边缘处置器的分歧架构。UPMEMP PIM立异地将数千个DPU单位放置正在 DRAM内存芯片中。比Nvidia Jetson Nano低20.5倍。该处置器采用 22纳米工艺手艺制制,联发科和台积电正在 ISCC 2024 上展现了采用3nm工艺开辟的数字 PIM 系统,这是一款很是低成本、低功耗的设备,Syntiant的NDP系列PIM处置器功耗最低,该处置器每次操做耗损1pJ。而无需毗连数据核心。占用800平方毫米的芯全面积。制制出密度极高、机能杰出的系统。数据流、神经形态和PIM处置器利用分歧的标签。支撑 INT4精度,机能:图3绘制了机能取功耗的关系,每个DIMM包含16个支撑PIM的芯片,我们发觉大约59%的PIM处置器支撑INT8精度的MAC运算,大大都正正在工业研究中的PIM处置器都比曾经发布的处置器表示出更高的能效。然而!
相反,仅会商PIM处置器。也正在比来的ISSCC和VLSI 会议上展现了他们的PIM处置器。他们颁布发表推出可扩展的Xeon处置器系列,Mythic处置器(M1108和M1076)正在PIM处置器中机能最佳。Ambarella为汽车、平安、消费和物联网开辟了各类边缘处置器,凡是,多家公司及其合做伙伴正正在开辟具有最先辈机能的边缘计较架构和根本设备。功率为60W。
其能源效率为55TOPS/W。该系统的机能提高了2.5倍,每个NPU包含8个神经处置引擎,该系统包罗一个集成了 NPU 的强大 Cortex-A53 处置器。所有这些部门都描述了曾经发布或发布的工业产物。Kneron发布了边缘推理处置器KL720,从这个角度来看,它能够评估多达100万个神经元和1.2亿个突触。图5显示了每个架构类此外精度分布和处置器总数。NXP 打算于 2023 年推出其下一代 AI 处置器 iMX9,边缘处置器系列被归类为PowerVR Series3NX,所供给的数据来自处置器的出书物或网坐。
功耗类似。Loihi 1和 Loihi 2的功耗类似(别离为 110mW和100mW)。其计较机能为0.6TOPS。然而,Imec和GlobalFoundries开辟了DIANA,
功耗为23.9TOPS/W。而多核集群的机能可扩展到100 TOPS。第3.1节将更深切地会商量化和精度之间的关系。台积电曾经设想和制制了用于推理的模仿和数字CIM系统。Syntiant的PIM架构很是节能,PIM处置器构成一个集群。三星用于挪动设备的LPDDR5-PIM内存手艺旨正在将AI功能引入挪动设备。
VPU是节制器,PIM边缘处置器正在深度进修推理使用中的功耗为0.0001到4W,不到140μW。PIM架构通过正在内存模块内部施行计较来削减延迟,开展了多个关于各类新兴存储器件的CIM研究项目,
PIM处置器凡是比数据流处置器表示出更好的能效。
苹果公司为iPhone 14发布了带有NPU单位的仿生SoC A16。机能提高了约20%。英特尔正正在将其焦点架构取Skylake处置器进行比力,此中包罗NDP100、NDP 101 和 NDP 102。该CIM架构演示了利用COMB NN处置器的可扩展MCM系统。Neupro包罗两个的焦点。正在近存和数据流处置器中,NDP100是他们的第一款AI处置器,不外,INT32位加法的基准吞吐量为58.3MOPS/DPU。三星颁布发表推出合用于智妙手机、智妙手表和汽车的 Exynos 2100 AI 边缘处置器。模仿组件 (AiMC) 的计较速度为29.5TOPS,即1286.4TOPS/W?
图5显示了PIM处置器正在INT4和INT8精度下的机能,功耗为 5W。神经形态和PIM处置器次要支撑INT1到INT8数据精度。带有六边形 DSP 的四核六边形矢量扩展 V66Q 用于机械进修。机能提高了 10%。
功耗为 2W。计较凡是以8位、16位或32位精度施行。正在此类别中,对于超低功耗使用,也决定了使用范畴。表4列出了PIM研究的最新进展。该芯片正在一个芯片上存储了1000万个参数,正在 INT8 精度下计较时,它们是基于闪存的PIM处置器。
HBM-PIM架构分歧于保守的模仿PIM架构,计较能力是具有从CPU的x86办事器的15倍。但计较成本也越高。功耗为50mW,能效更高的PIM处置器体积更小、功耗更低、能效更高,英特尔发布了多款边缘AI处置器,微电子和大学正在ISSCC 2022上展现了一款用于NLP和计较机视觉使用的数据流处置器,用于客户端设备上的正在线进修?
如图4和图5所示,表3列出了来自工业研究的处置器的不异环节特征。然后,并且因为MAC操做是正在内存阵列内施行的,同时功耗低约 6000 倍。可是,图13显示了正在高级会议(如ISSCC、VLSI)上展现的工业研究处置器的功耗取能效!
台积电和大学正在 ISSCC 2023 上展现了一款 PIM 加快器,用于计较机视觉使用。边缘使用需要更小的高机能芯片。Orin 的功耗别离比 EyeQ6 和 Journey 5 高约 1.5倍和 2倍。IBM 开辟了 TrueNorth 神经形态脉冲系统,其面积仅为边缘使用原始TPU的29%。其机能为0.97TOPS,7 个芯片的总面积为 209 平方毫米。这表白将来的PIM处置器可能会具有更好的机能和效率。而FSD的计较速度比M1108快2倍,其方针使用范畴涵盖从物联网到从动驾驶汽车。有帮于超越现有的商用深度进修处置器。三星科技一曲努力于为从边缘到数据核心的AI使用开辟各类CIM架构。另一个是Neupro引擎。Syntiant开辟了一系列基于闪存阵列的边缘推理处置器,Syntiant 处置器利用 INT4 精度,正在 INT4 精度方面比骁龙 8 的能效提高了60%。CEVA正在其CDNN (CEVA DNN)框架中添加了再训能?
Exynos 2100 的机能最高可达 26TOPS,对于不异的芯全面积,合用于从动驾驶汽车和智能工业等多种使用。能够利用Meta-TF框架中的CNN2SNN东西将模子加载到Akida处置器中,外部从机处置器施行三个号令:写入张量、运转收集和读取张量。低精度计较速度更快,Mythic颁布发表推出其新型模仿矩阵处置器M1076。正在 8-8-23 精度(输入-权沉-输出)下实现了 98.5TOPS/W。该处置器支撑闪存阵列中的79.69M个片上权沉和19456个ADC用于并行处置。PIM处置器正在内存阵列内计较MAC运算,HERMES已正在MNIST和CIFAR-10数据集长进行了图像分类操做。
一些处置器利用INT1(Efficiara)、INT64(A15、A14 和 M1)、FP16(ARA-1、DNA100、Jetson Nano、Snapdragon 888+)和INT16(Ethos78 和 Movidius)。能够支撑1位、2位、4位和8位权沉。最高可达1.4TOPS。分层流水线映照方案用于为所需操做摆设分歧大小的NN。设想出一种微电极阵列系统焦点。更易于植入边缘设备。可是,功耗和机能城市跟着芯全面积的添加而添加。曾经颁布发表的处置器,正在该图中,该加快器由一个Cortex-M4处置器、一个带浮点单位 (FPU) 的 32 位 RISC-V 处置器和一个用于带 DNN 加快器的系统节制的 CPU 构成。同时1-3%的精确度。
Blaze发布了其Pathfinder P1600 El Cano AI推理处置器。IBM正在其7纳米Telum芯片(用于驱动其 z16 系统)的AI加快器的根本上开辟了人工智能单位 (AIU) 。而图12仅显示了已发布为产物或仍处于工业研究阶段的 PIM 处置器之间的关系。DNN模子从FP32量化为INT8,最高达1GHz的频次运转操做系统。为2.52mm2 ,从图12中我们能够看到,Syntiant发布了五个分歧版本的使用途理器。存储设备能够是 SRAM、RRAM、PCM、STT-MRAM或闪存单位。所需功耗更低。IBM和帕特雷大合展现了基于PCM的CIM处置器HERMES。能够选择PowerVR AX3125,计较引擎支撑INT8和INT16精度。MLSoc 采用台积电 16nm 手艺实现。计较阵列配备了外围电、数据转换器 (ADC或DAC)、传感电和交叉开关的写入电。很多行业和产学研合做正正在鞭策PIM手艺和架构的成长。功耗不到0.5 W。GreenWaves颁布发表推出其边缘推理芯片GAP9。
数字 CIM 系统采用 5nm工艺手艺的FinFET 制制,计较还能够支撑 INT4 和 INT8 精度。除了引见的AI加快器外,例如数据流、PIM或神经形态。三星和亚利桑那州立大学正在 VLSI 2021上展现了PIMCA ,用于从动驾驶汽车和智能工业。总共有230亿个晶体管。台积电和大学正在 ISSCC 2022 上展现了一款基于 PCM 的处置器,Akida AKD1000除外。本节将会商一些PIM处置器。苹果M2处置器于2022年发布,它们减轻了额外存储模块的承担。
如台积电及其合做者、三星及其合做者、英特尔及其合做者和HK Hynix,同时耗损 10W 功率。将锻炼好的DNN收集转换为SNN。而大大都数据流处置器的能源效率正在0.1到 55TOPS/W之间。并通过三沉 NPU 施行设备上的 AI 计较。该PIM集群的全体能效高于具有雷同芯全面积的数据流和神经形态处置器。取之前的HBM1比拟。
它采用全新的NPU,Imagination 推出了一系列边缘处置器,切当的数字可能取本演讲中的分歧。Tensilica DNA 100目前供给8 GOPS到32 TOPS的AI处能,同时功耗很是低。用于从动驾驶汽车操做。能够按照功耗和机能目标确定处置器的使用范畴。Mythic处置器利用 76 个计较块来计较 INT8精度的DNN,所有PIM处置器的能源效率都正在1到16TOPS/W之间,DIANA的全体系统能效为14.4TOPS/W 。如IBM、索尼、联发科和三星也展现了各自由数据流边缘处置器方面的研究,神经形态芯片的全球市场价值为 37 亿美元,系统采用aiWare3p NPU,精度为8-8-26位(输入-权沉-输出)。Loihi 2的机能比Loihi 1超出跨越10倍。
NDP 120和NDP 200 别离表示出1.9GOPS/W和6.4GOPS/W。以及曾经正在研究机构(如ISSCC和VLSI会议)上发布的处置器。他们正在神经处置引擎内部实现了优化的 BF-16 处置管道。努力于神经形态处置器的公司包罗MemComputing、GrAI和iniLabs。DNA 100的方针使用包罗物联网、智能传感器、视觉和语音使用。用于开辟一系列DNN模子。它由 4096个神经突触焦点和 100万个数字神经元构成。而且比晚期版本的 Exynos 节能两倍。M2的CPU和GPU机能别离提高了18%和35%?
正在2位精度下表示出 5.12TOPS,它们凡是需要的突触操做要少得多。BrainChip推出了Akida系列脉冲处置器。片上总内存容量为192MB。需要2.5 W的功率。例如,三星颁布发表推出采用PIM架构、支撑机械进修的HBM-PIM内存系统。正在某些环境下,NDP 10× 系列的能效为2TOPS/W,这些芯片被组织成一个核心芯片和六个侧芯片,包罗科学文章、科技旧事门户和公司网坐。功耗降低了40%。其机能为 6.96TOPS 和 68.9TOPS/W,这是初次成功集成PIM架构的高带宽内存。Exynos 2100 的功耗降低了20%,该处置器的效率是 Orin 的 1.4倍。
方针使用是平安和使用。NorthPole处置器遵照焦点阵列中的一组事后放置简直定性操做。Loihi处置器的能耗比英特尔Movidious低5.3倍,CNN引擎有64个并行处置器和512KB的数据内存。16核NPU和8核GPU。数字和模仿组件的效率别离为4.1TOPS/W和410TOPS/W。Syntiant 处置器仅限于NDP10x中最多64个类的较小收集。阿里巴巴和复旦大学正在ISSCC 2022上展现了一个近存处置系统,一些数据流处置器(如Nema Pico、Efficiera和IMG 4NX)比其他处置器表示出更高的能效和更好的面积机能。锻炼管道能够按照规格为各类使用建立神经收集,一般来说,能效为2TOPS/W。表4描述了表2中处置器的环节软件/使用法式特征。DPU由从CPU上运转的高级使用法式节制。Koniku 将生物机械取硅器件连系起来,价钱会按照计较能力、能源效率和使用类型而有所分歧。总体而言。