找回密码
 立即注册

QQ登录

只需一步,快速开始

  • 欢迎访问 计算机技术论坛-电脑迷与初学者的家园!由于论坛管理严格,新注册会员可能遇到各种问题,无法解决的请发邮件 admin@jsjbbs.cn
查看: 1375|回复: 0

全球十大AI训练芯片大盘点:华为昇腾910是中国唯一入选-电子发烧友网

[复制链接]
发表于 2021-3-31 23:33:49 | 显示全部楼层 |阅读模式
#111723#<p>AI芯片哪家强?当初,有直接的对照与参考了。
<p>英国一位资深芯片工程师JamesW.Hanlon,清点了以后十大AI练习芯片。
<p>并给出了各个指标的横向对照,也是现在对AI练习芯片最新的探讨与梳理。
<p>此中,华为昇腾910是中国芯片厂商独一当选的芯片,其机能怎样,也在这一对照中有了展示。

CerebrasWafer-ScaleEngine<p>这一芯片于往年8月份正式面世,被称为“史上最大AI芯片”,名为“晶圆级引擎”(CerebrasWaferScaleEngine,简称WSE)。
<p>其最大的特点是将逻辑运算、通信和存储器集成到单个硅片上,是一种专门用于深度进修的芯片。
<p>一举创下4项天下记录:
<p>1、晶体管数目最多的运算芯片:统共包括1.2万亿个晶体管。固然三星曾造出2万亿个晶体管的芯片,倒是用于存储的eUFS。
<p>2、芯片面积最大:尺寸约20厘米×23厘米,总面积46225平方毫米。
<p>3、片上缓存最大:包括18GB的片上SRAM存储器。
<p>4、运算中心最多:包括410,592个处置中心
<p>之以是可能有如斯亮眼的数据,直接得益于其集成了84个高速互连的芯片,单个芯片在FP32上的峰值机能表示为40TeraFLOPs,芯片功率达15千瓦,与AI集群相称。
<p>片上缓存也到达了18GB,是GPU缓存的3000倍;可供给每秒9PB的内存带宽,比GPU快10,000倍。
<p>晶片范围集成,并不是一个新的主意,但产量、功率传输和热收缩相干的成绩使其很难贸易化。在这些方面,Cerebras都给出了响应的处理措施:
<p>1、为懂得决缺点致使良率不高的成绩,Cerebras在计划的芯片时间斟酌了1~1.5%的冗余,增加了额定的中心,当某个中心呈现成绩时将其屏障不必,因而有杂质不会致使全部芯片报废。
<p>2、Cerebras与台积电配合发现了新技巧,来处置存在万亿加晶体管芯片的刻蚀和通信成绩。
<p>3、在芯片上方装置了一块“冷却板”,应用多个垂直装置的水管直接冷却芯片。
<p>Cerebras公司由SeanLie(首席硬件架构师)、AndrewFeldman(首席履行官)等人于2016年创建。后者曾创立微型效劳器公司SeaMicro,并以3.34亿美元的价钱出卖给AMD。
<p>该公司在加州有194名员工,此中包含173名工程师,迄今为止曾经从Benchmark等风投契构取得了1.12亿美元的投资。
GoogleTPU(v1、v2、v3)<p>GoogleTPU系列芯片正式宣布于2016年,第一代芯片TPUv1只用于推理,并且只支撑整数运算。
<p>通过在PCIe-3之间发送指令来履行矩阵乘法和利用激活函数,从而为主机CPU供给减速,节俭了大批的计划和验证时光。其重要数据为:
<p>1、芯片面积331平方毫米,28nm制程
<p>2、频率为700MHz,功耗28-40W
<p>3、片上存储为28MBSRAM:24MB用于激活,4MB用于累加器
<p>4、芯片面积比例:35%用于内存,24%用于矩阵乘法单位,剩下的41%面积用于逻辑。
<p>5、256x256x8b压缩矩阵乘法单位(64KMACs/cycle)
<p>6、Int8和INT16算法(峰值分辨为92和23TOPs/s)
<p>IO数据:
<p>能够通过两个接口拜访8GBDDR3-2133DRAM,速率为34GB/s
<p>1、PCIe-3x16(14GBps)
<p>2017年5月,GoogleTPUv2宣布,改良了TPUv1的浮点运算才能,并加强了其内存容量、带宽以及HBM集成内存,不但可能用于推理,也可能用于练习。其单个芯片的数据以下:
<p>2、20nm制程,功耗在200-250W(揣测)
<p>3、BFloat16上机能表示为45TFLOPs,也支撑FP32
<p>4、存在标量和矩阵单位的双核
<p>5、集成4块芯片后,峰值机能为180TFLOPs
<p>单核数据:
<p>1、128x128x32b压缩矩阵单位(MXU)
<p>2、8GB公用HBM,接入带宽300GBps
<p>3、BFloat16上的最大吞吐量为22.5TFLOPs
<p>IO数据:
<p>4、16GbHBM集成内存,600GBps带宽(揣测)
<p>5、PCIe-3x8(8GBps)
<p>6、GoogleTPUv2宣布一年以后,Google再度宣布新版芯片——TPUv3。
<p>但对于TPUv3的细节很少,很可能只是对TPUv2一个渐进式改版,机能表示翻倍,增添了HBM2内存使容量和带宽翻倍。其单个芯片的数据以下:
<p>1、16nm或12nm制程,功耗估量在200W
<p>2、BFloat16的机能为105TFLOPs,可能是MXUs的2倍到4倍
<p>3、每个MXU都能拜访8GB的公用内存
<p>4、集成4个芯片后,峰值机能420TFLOPs
<p>IO数据:
<p>32GB的HBM2集成内存,带宽为1200GBps(揣测)
<p>PCIe-3x8(8GBps)(揣测)
GraphcoreIPU<p>Graphcore建立于建立于2016年,不但备受资源和业界巨子的青眼,还颇受业内大佬的承认。
<p>2018年12月,发布实现2亿美元的D轮融资,估值17亿美元。投资方有宝马、微软等业界巨子,另有有名的风投公司Sofina、Atomico等。
<p>AI巨子Hinton、DeepMind开创人哈萨比斯,都直接表白了夸奖。

<p>GraphcoreIPU是这家公司的明星产物,其架构与大批存在小内存的简略处置器高度并行,通过一个高带宽的“交流”互连衔接在一同。
<p>其架构在一个大容量同步并行(BSP)模子下运转,顺序的履行依照一系列盘算和交流阶段停止。同步用于确保全部过程筹备好开端交流。
BSP模子是一个强盛的编程形象,用于消除并发性危险,而且BSP的履行,容许盘算和交流阶段充足应用芯片的动力,从而更好地把持功耗。能够通过链接10个IPU间链路来树立更大的IPU芯片体系。其中心数据以下:16nm制程,236亿个晶体管,芯片面积大概为800平方毫米,功耗为150W,PCIe卡为300W1216个处置器,在FP32累加的情形下,FP16算法峰值到达125TFLOPs散布在处置器中心之间有300MB的片上内存,供给45TBps的总拜访带宽全部的模子状况保留在芯片上,没有直接衔接DRAM<p>IO数据:
2xPCIe-4的主机传输链接10倍的卡间IPU链接共384GBps的传输带宽<p>单核数据:
1、混杂精度浮点随机算法2、最多运转六个线程HabanaLabsGaudi<p>HabanaLabs一样建立于2016年,是一家以色列AI芯片公司。
<p>2018年11月,实现7500万美元的B轮募资,总募资约1.2亿美元。
<p>Gaudi芯片于往年6玉轮相,直接对标英伟达的V100。
<p>其团体的计划,与GPU也有类似之处,特别是更多的SIMD并行性和HBM2内存。
<p>芯片集成了10个100G以太网链路,支撑近程直接内存拜访(RDMA)。与英伟达的NVLink或OpenCAPI比拟,这类数据传输功效容许应用商用收集装备构建大型体系。其中心数据以下:
TSMC16nm制程(CoWoS工艺),芯片尺寸大概为500平方毫米异构架构:GEMM操纵引擎、8个张量处置核(TPCs)SRAM内存同享PCIe卡功耗为200W,夹层卡为300W片上内存未知<p>TPC中心数据:
VLIWSIMD并行性和一个当地SRAM内存支撑混杂精度运算:FP32、BF16,以及整数格局运算(INT32、INT16、INT8、UINT32、UINT8)随机数天生、超出函数:Sigmoid、Tanh、GeLU<p>IO数据:
4x供给32GB的HBM2-2000DRAM客栈,团体达1TBps芯片上集成10x100GbE接口,支撑融会以太网上的RDMA(RoCEv2)PCIe-4x16主机接口HuaweiAscend910<p>华为昇腾910,一样直接对标英伟达V100,于往年8月份正式商用,号称业内算力最强的AI练习芯片。主打深度进修的练习场景,重要客户面向AI数据迷信家和工程师。

<p>其中心数据为:
7nm+EUV工艺,456平方毫米集成4个96平方毫米的HBM2栈和NimbusIO处置器芯片32个达芬奇内核FP16机能峰值256TFLOPs(32x4096x2),是INT8的两倍32MB的片上SRAM(L2缓存)功耗350W<p>互联和IO数据:
内核在6x4的2d网格封包交流网路中彼此衔接,每个内核供给128GBps的双向带宽4TBps的L2缓存拜访1.2TBpsHBM2接入带宽3x30GBps芯片外部IOs2x25GBpsRoCE收集接口<p>单个达芬奇内核数据:
3D16x16x16矩阵乘法单位,供给4,096个FP16MACs和8,192个INT8MACs针对FP32(x64)、FP16(x128)和INT8(x256)的2,048位SIMD向量运算支撑标量操纵IntelNNP-T<p>这是XeonPhi以后,英特尔再次进军AI练习芯片,用时4年,壕购4家创业公司,破费超越5亿美元,在往年8月份宣布。
<p>神经收集练习处置器NNP-T中的“T”指Train,也就是说这款芯片用于AI推理,处置器代号为SpringCrest。
<p>NNP-T将由英特尔的竞争敌手台积电(TSMC)制作,采取16nmFF+工艺。
<p>NNP-T有270亿个16nm晶体管,硅片面积680平方毫米,60mmx60mm2.5D封装,包括24个张量处置器构成的网格。
<p>中心频率最高可达1.1GHz,60MB片上存储器,4个8GB的HBM2-2000内存,它应用x16PCIe4接口,TDP为150~250W。
<p>每个张量处置单位都有一个微把持器,用于指点是数学协处置器的运算,还能够通过定制的微把持器指令停止扩大。
<p>NNP-T支撑3大主流呆板进修框架:TensorFlow、PyTorch、PaddlePaddle,还支撑C++++深度进修软件库、编译器nGraph。
<p>在算力方面,芯片最高能够到达每秒119万亿次操纵(119TOPS),然而英特尔并未流露是在INT8仍是INT4上的算力。
<p>作为对照,英伟达TeslaT4在INT8上算力为130TOPS,在INT4上为260TOPS。
英伟达Volta架构芯片<p>英伟达Volta,2017年5月颁布,从Pascal架构中引入了张量核、HBM2和NVLink2.0。
英伟达V100芯片就是基于此架构的首款GPU芯片,其中心数据为:TSMC12nmFFN工艺,211亿个晶体管,面积为815平方毫米功耗为300W,6MBL2缓存84个SM,每个包括:64个FP32CUDA核,32个FP64CUDA核和8个张量核(5376个FP32核,2688个FP64核,672个TCs)。单个TensorCore每时钟履行64个FMA操纵(统共128FLOPS),每个SM存在8个如许的内核,每个SM每个时钟1024个FLOPS。比拟之下,即便采取纯FP16操纵,SM中的尺度CUDA内核只能在每个时钟发生256个FLOPS。每个SM,128KBL1数据缓存/同享内存和4个16K32位存放器。<p>IO数据:
32GBHBM2DRAM,900GBps带宽300GBps的NVLink2.0英伟达Turing架构芯片<p>Turing架构是对Volta架构的进级,于2018年9月宣布,但CUDA和张量核更少。
<p>因而,它的尺寸更小,功率也更低。除了呆板进修义务,它还被计划用来履行及时射线追踪。其中心数据为:
TSMC12nmFFN工艺,面积为754平方毫米,186亿个晶体管,功耗260W72个SM,每个包括:64个FP32核,64个INT32核,8个张量核(4608个FP32核,4608个INT32核和576个TCs)带有boost时钟的峰值机能:FP32上为16.3TFLOPs、FP16上为130.5TFLOPs、INT8上为261TFLOPs、INT4上为522TFLOPs片上内存为24.5MB,在6MB的L2缓存和256KB的SM存放器文件之间基定时钟为1455MHz<p>IO数据:
12x32位GDDR6存储器,供给672GBps聚合带宽2xNVLinkx8链接,每个链接供给多达26GBps的双向速率<p><em>本文来自转载自大众号「QbitAI」和「量子位」,本文作为转载分享。</em>
更多内容阅读推荐:足疗机怎么修
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

|计算机技术论坛 JSJBBS.CN @ 2008-2025 ( 鲁ICP备17021708号 )

技术支持 : 腾讯云计算(北京)有限责任公司

快速回复 返回顶部 返回列表