英特尔Nervana深度学习芯片能走多远?
【编译】被英特尔收购两年后,Nervana的深度学习芯片,代号“Lake Crest” 渐渐从概念阶段转化为实际产品。 在深度学习市场潜力如此巨大的情况下,英特尔很乐意通过坚实的技术和合理的价格将Nervana推向市场,积极为其规划路线图——并将其与其他产品相结合,这将是一项巨大的工程。 如今,我们对这个体系架构与GPU的区别有了一些了解——以及它可能会在哪些方面获得性能优势,更确切地说,能效优势。 英特尔Nervana芯片与第一代Nervana芯片非常类似,但由于英特尔提供了更多的专业知识和技术,使该深度学习芯片的产品计划每年都能按时进行,正如Nervana四年前第一批员工,现在的英特尔AI硬件主管Carey Kloss所说: “我们加入英特尔时没有做多少改变,但是我们确实获得了大量的一般初创企业没有的技术资源,如封装、电路板设计、功率输出和实验室技术等——很多还是一样的,但它的技术更先进。” Kloss还表示,与他供职过的其他半导体公司相比,英特尔实验室的培养速度远远快于他所见过的任何机构,这使人们更加确信,英特尔公司新产品的年度销售业绩能够保持在稳健的业绩曲线上。 现在,英特尔越来越接近于实现“Lake Crest”或称其为英特尔神经网络处理器(NNP)的商业化供应,更多关于该硬件架构的细节也正逐渐被分享出来。以下是关于NNP的一些细节,以便我们对如何改变内存带宽瓶颈以实现高效的性能有更丰富的认识。 NNP目前还没有进行基准测试,不过Kloss表示,他们预计未来几个月将有重大的性能进展。 为了回顾和强调架构是如何基本保持不变的,让我们回到2016年它未被英特尔收购之前。当时Nervana的CEO Naveen Rao表示NNP将成为NVIDIA新发布的NVlink的有力竞争者。Nervana 芯片的亮眼之处是互连,Rao 将这项互连技术描述为一种模块化架构,其芯片结构可以在编程上扩展成与其它芯片的高速串行链接,这让芯片之间的通信和单个芯片上各单元之间的通信看起来一样。Rao说,在每秒净运算次数上,第一个Nervana芯片将会超过Pascal的5-6倍。 这些都没有变化,除了FP16的增长和低精度的训练——这已成为一个更热门的话题。今年晚些时候,Nervana会有一个引人注目的产品,以供更多的用户使用——但它在性能、效率和可用性方面的优势还有待观察。 最新的是人们期待已久的关于神经芯片如何处理低精度训练的细节,以及这种内存和互连策略是什么样子的。从本质上讲,使用16位整数的乘数和adder树,与更标准的FP16方法相比,NNP可以同时节省功率和面积。这是一个有趣的参数折衷,因为FP16拥有更小的乘数,但使用adder树和所有转移所需的,就消除了FP16的假定优势。 在单个芯片上的神经网络计算在很大程度上受到功率和内存带宽的限制。为了提高神经网络工作负载的吞吐量,除了以上的内存创新之外,我们还发明了一种新的数字格式Flexpoint。Flexpoint允许将标量计算作为定点乘法和添加来实现,同时允许使用共享指数实现大动态范围。由于每一个电路都是小的,这导致了一个管芯内并行性的大幅增加,同时降低了每次计算的功率。 神经网络性能的另一方面在于内存和网络如何提高带宽。Nervana的目标是最大限度地增加矩阵乘法和卷积的面积,而不是将那些区域浪费在其他东西上。有了足够大的神经网络,可以将外部网络扩展到多个芯片,在这些芯片之间有足够的带宽,使得所有的芯片都可以作为一个巨大的计算节点运行。 矩阵乘法和卷积是深度学习的核心要素。这些计算不同于一般用途的工作负载,因为操作和数据移动在很大程度上是预先知道的。出于这个原因,英特尔Nervana NNP没有标准的缓存层次结构,而芯片内存则由软件直接管理。更好的内存管理使芯片能够在每个芯片上实现高水平的计算。这就意味着为深度学习模型带来更快的训练时间。 英特尔在深度学习方面的目标是为所有规模的应用提供一个产品。除了这篇文章中提到的Nervana芯片之外,还包括FPGA,以及大规模机器学习推理的Movidius神经计算棒等。时间会告诉我们,在最初的“火热”过后,英特尔能在多大程度上实现这一目标。 (编辑:我爱故事小小网_铜陵站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |