首页    |    体育   |    汽车   |    健康养生   |    综合   |    娱乐   |    国际   |    社会   |    教育   |    旅游   |    时事   |    财经   |    军事   |    文化   |    科技   |   


您现在的位置: 田懂资讯>教育>哪些可以用花呗充值 - 比摩尔定律快得多:为什么要将AI算力扩展至ExaFLOPs百亿亿次量级?
哪些可以用花呗充值 - 比摩尔定律快得多:为什么要将AI算力扩展至ExaFLOPs百亿亿次量级?
作者:匿名    阅读量:4011  时间:2020-01-11 15:55:14
摘要: 当通用计算逐渐在性能、能效比提升逐年放缓的情况下,摩尔定律放缓、登纳德缩放定律失效,被人们每每提及的“架构革新”成为一种必然。这其实是ai芯片诞生的重要契机。上面这张图,来自去年年中openai发布的一份名为《ai与计算》的分析报告[2]。这份报告提到,自2012年以来,ai训练任务应用的算力需求每3.5个月就会翻倍,这个数字可是超过了摩尔定律的;从2012年至今,ai算力增长超过30万倍。

哪些可以用花呗充值 - 比摩尔定律快得多:为什么要将AI算力扩展至ExaFLOPs百亿亿次量级?

哪些可以用花呗充值,当通用计算逐渐在性能、能效比提升逐年放缓的情况下,摩尔定律放缓、登纳德缩放定律失效,被人们每每提及的“架构革新”成为一种必然。graphcore的ipu可算是当代“架构革命”的先驱之一。graphcore的架构革命究竟能带来什么?

被誉为英国半导体之父,同时也是arm联合创始人的hermann hauser先前曾经这样评价过graphcore:“这在计算机历史上只发生过三次,第一次是70年代的cpu,第二次是90年代的gpu,而graphcore就是第三次革命。他们的芯片是这个世界伟大新架构的一种。”

graphcore ceo nigel toon

神经网络(nn)的一大特点,就是在逻辑层面对人脑神经元行为的模拟。更加高度抽象地说,以“推理”过程为例,我们“感知”世界的方式,总是通过非精确数据进行推理,从经验中学习,以及基于世界模型的尝试。就好比人类大脑辨认一只猫的过程,是基于经验的、常识模型的,而且是低精度的,我们不需要精确获知这只动物身上究竟有多少根毛发、眼睛尺寸的具体数值等,便可推理出这是一只猫。

今年的2019全球ceo峰会上,graphcore ceo nigel toon在题为exascale compute with ipu的主题演讲中提到,如今智能机器(intelligence machine)的常规方案,即是获取训练(training)数据/传感器数据,然后借由“概率知识模型”在本地进行推理(inference),并最终得到结果。

“什么样的数据、什么样的方法去捕捉他们要训练的这些数据,数据间的应用关系;就像孩子一样,大脑不断地吸收他们的知识,才能产生这样的模型,这些是需要长时间建立的。”toon表示。除此之外,这类型的工作极少出现分支和其他复杂行为任务(分支这类型的任务是cpu的专长),可以分解成单独、半独立的线程;而且计算精度要求并没有那么高。

这样一来gpu这种具备处理重度并行任务能力的处理器也就非常适用,不过gpu的效率仍然不够高。graphcore在前两年的一次主题演讲中特别提到了gpu的dark silicon[1],毕竟gpu有一部分是专为图形渲染做高性能计算的,这样一来就存在大量资源浪费;而且主流gpu核心区域的片上存储资源仍然是不够的,数据吞吐能力也就没有那么强。

前面提到的“知识模型”包含的特点有:自然呈现为计算图(graphs,代表的是知识模型和应用,所有机器学习模型都用graph的形式来表达)、支持高度并行计算、需要海量数据带宽、小型张量(small tensors)的低精度算法。这其实是ai芯片诞生的重要契机。

另一方面,“机器智能”的要求还在发生进化。我们现在更多的应用,并不是单纯能识别一只猫这么简单,更多的比如语言理解,以及更多的高级感知能力——如汽车辅助驾驶系统或者自动驾驶中,对司机情绪、疲劳程度的判断等。与此同时,模型尺寸正在变得越来越大。我们前两年还在说:好的卷积神经网络,通常是带有“上百万参数”和许多隐藏层的怪物。不过在这些年不同应用的发展中,“上百万”又算得上什么?

toon列举在2016年1月的残差网络resnet50参数总量25m,到2018年10月的bert-large自然语言模型发展到了330m,如今openai会讲故事的文本生成模型gpt2——这是一个大型语言模型,具有15亿个参数;未来的新模型是朝着万亿(trillion)量级去的。

上面这张图,来自去年年中openai发布的一份名为《ai与计算》的分析报告[2]。这份报告提到,自2012年以来,ai训练(training)任务应用的算力需求每3.5个月就会翻倍,这个数字可是超过了摩尔定律的;从2012年至今,ai算力增长超过30万倍。这张图纵轴的单位,每1个petaflop/s-day(pfs-day),就包含了一天每秒10^15次神经网络运行次数,或者总数大约10^20次操作(不过这个统计针对一次“操作”的定义,没有区分加法、乘法,而且不区分数据精度)。

需要注意的是,这张图的纵轴刻度并不呈线性,而是指数级增加。

当我们真正去对比当前芯片的晶体管数量,以及性能变化时,其实很容易发现,摩尔定律大趋势是持续的,但登纳德缩放比例定律(晶体管密度增加同时,每个晶体管功耗会下降)已经达到极限——我们在先前的文章中也已经不止一次地提到过这个问题。早些年,steve scott还在英伟达特斯拉业务部门担任cto(现在是cray的cto)的时候就说过这个观点:晶体管已经无法在体积缩小的情况下持续降低电压,这样一来,虽然集成的晶体管越来越多,但也意味着功耗越来越大:性能因此受到功耗限制,每一次制程迭代,都会加重该问题。

去年《连线(wired)》杂志在采访ai之父geoff hinton说:“我认为我们需要转向不同类型的计算机。幸运的是我这里有一个...”hinton从钱包里掏出一枚又大又亮的硅芯片:ipu。

这段是toon在全球ceo峰会上讲的,看起来很像是个段子。不过从连线杂志的原报道来看[3],这件事竟然是真的,当时hinton拿出来的是graphcore的原型产品。geoff hinton现如今是谷歌ai顶级研究人员,此人早在上世纪70年代就开始构建人类大脑从视觉层面理解世界的数学模型。所以这件事,又让graphcore获得了一重加持。

实际上,现如今的ai芯片已经遍地开花了,不管是训练(training)还是推理(inferencing),包括arm前不久都已经发布了针对边缘ai推理的专用ip。这其实已经足够表明,这种“架构革命”风卷残云式的来袭。

简单地说:cpu通过手机数据块来处理问题,然后针对这些信息跑算法或执行逻辑操作,其通用性很好,适用于各种计算,但可并行的核心数量经常只有个位数;gpu核心数或执行单元数量大,可同时执行更多任务,但如前所述,其效率还是不够的;而ai芯片,则能够从不同位置同时拉来大量数据,进行快速和更高并行数的处理:graphcore的ipu(intelligence processing units)是其中一种。

graphcore可以认为是这个领域最早的一批开创者。ipu的“架构变革”部分体现在,整合芯片逻辑和存储部分,在片上分布sram,让ipu达到100倍吞吐;此外,16nm "colossus" ipu包含了超过1200个低精度浮点运算核心,和所有机器学习所需的控制操作与超越函数,125 teraflops算力;每个核心能够跑至多6个线程。

另外搭配graphcore针对机器智能设计的软件工具链poplar。toon先前在接受采访时曾提到:“poplar建立在计算图形抽象(computational graph abstraction)的基础上。其graph compiler的ir(intermediate representation中间层)是个大型的定向图。”graph图像共享作为内部的representation,整个知识模型的representation最后都会分解为高度并行的工作负载,然后在ipu处理器之间进行调度和执行。一句话概括就是,poplar通过不同层级的优化,在ipu核心之间部署任务。[4]

poplar支持tensorflow、pytorch、oonx、keras等框架。“从这些高层级的框架获取输出,喂进poplar软件层,产生高层级的graph,并将这些graph映射到跑在ipu处理器上的一张完整计算graph上。”这其实也是当前ai芯片开发的常规思路。

总结一下,这些尝试解决的问题实质就是本文第一部分提出的,当代“知识模型”的那些要求,包括高吞吐、高度并行、低精度等,并在性能要求上满足模型越来越贪婪的需求。

ipu的几个特点,第一是被称作graphs型的计算(computation on graphs,包括了高度并行、稀疏化(sparse)、高维度模型、分布式片上存储);第二,低精度,宽动态范围算法(混合精度,16.32,和更低);第三,静态图形结构(编译器可分解任务、分配存储,调度messages,块同步并行、无序化、adress-less通讯);最后是entropy generative(比如产生统一分布整数、generation of vectors of approximately gaussian distributed floats等)。

nigel toon提到,ipu产品已经向戴尔出货,戴尔易安信ipu服务器即是一款比较具体的产品。如我们先前所了解的那样,这款数据中心设备,每台插8张c2 pcie加速卡(每个c2卡包含两个ipu),能够实现1.6 petaflops的算力。戴尔其实也是graphcore企业市场策略的重要组成部分。

从ipu先前的介绍来看,它具备card-to-card links的弹性扩展机制。在前不久的neurips展会上占了一个名为rackscale ipu-pod的参考设计。nigel toon这次讲ipu-pod称作“机器智能超级计算机”,“这部分去年10月,我们开始逐步付诸实施。”这可以认为是将ipu弹性应用到极致的某种示例。

一个单独的42u机架ipu-pod能够提供超过16 petaflops混合精度算力;一套32个ipu-pod(至多4096个ipu),可以将算力弹性扩展至超过0.5 exaflops的程度,这对同硬件的训练和推理,都是相当惊人的吞吐量。

显然针对toon前面提到神经网络模型在体积和算力需求方面的扩张,是越来越必要的一种应用方案。

可弹性扩展至0.5 exaflops的ipu-pod

作为英国的一家独角兽企业,graphcore是被nigel toon寄予了厚望的。他一直期望在英国建立一个具备arm同等影响力的科技企业。当前graphcore的融资总额已经达到3.25亿美元,这在我们先前的全球ceo峰会展望篇中已有所提及。不过在应对ai芯片越来越多市场参与者,包括大量初创型企业,以及intel、英伟达这些老牌企业的入场,graphcore和nigel toon的竞争压力显然也是不小的。

[1]https://cdn2.hubspot.net/hubfs/729091/nips2017/nips%2017%20-%20ipu.pdf?t=1526305355186

[2]https://openai.com/blog/ai-and-compute/

[3]https://www.wired.com/story/googles-ai-guru-computers-think-more-like-brains/

[4]https://www.eet-china.com/news/201909211859.html

 


 

       热门新闻
 

 

普通文章京剧、越剧、黄梅戏都来学的行当,川剧文生了解一下
普通文章海康威视上半年净赚42亿 陆股通二季度减持2.22%股份
普通文章全国人大代表史玉东呼吁出台政策促乳业供应链创新
普通文章渠县2019年抗洪抢险暨水上应急搜救实战演练
普通文章开封市司法局党委看望慰问“出彩河南人”首届最美退役军人张琪的家人
普通文章三部门:在加工流通环节开展非洲猪瘟病毒检测
普通文章福彩3D杨村长2019336期推荐:必杀一码7,直选看好偶奇偶
普通文章裴恩周运:明知这是一场意外,你要不要迎接?
 
       栏目热门
 
普通文章周梓凯:危机四伏 避险消退黄金好日子到头
普通文章成都糖酒会出新宠啦!尼龙大挎包,你背了没?
普通文章2019中国长春创业就业博览会开幕
普通文章专利暗示微软的新款Surface Pro采用了更薄的键盘
普通文章李国庆发布15则针对性回应:俞渝只有一件真,其他都假
普通文章“奶牛模特”惊艳戛纳红毯,励志人生,白癜风变成功秘诀
普通文章共享单车二维码被破坏怎么办?摩拜上线蓝牙免扫码解锁
普通文章新版外商投资准入负面清单来了 22个领域迎重大开放
       随机新闻
欧阳娜娜和倪妮同穿泰迪熊外套!网友:一个可爱呆萌一个帅气休闲
欧阳娜娜和倪妮同穿泰迪熊外套!网友:一个可爱呆萌一个帅气休闲
日本拟将台风“海贝思”定为“特定紧急灾害”,助力灾后恢复
日本拟将台风“海贝思”定为“特定紧急灾害”,助力灾后恢复
保护千年古城风貌 阆中出台维修规范和装修办法 12月1日正式实施
保护千年古城风貌 阆中出台维修规范和装修办法 12月1日正式实施
独特的藏式美味,第一个最受游客欢迎,最后一个难以下咽
独特的藏式美味,第一个最受游客欢迎,最后一个难以下咽
印度海军舰艇访问菲律宾 旨在加强友好关系
印度海军舰艇访问菲律宾 旨在加强友好关系
沈梦辰节目上大谈当初追求杜海涛原因,还自曝正在构想婚礼场地
沈梦辰节目上大谈当初追求杜海涛原因,还自曝正在构想婚礼场地
赛诺贝斯新三板募资1842万元 部分用于偿还公司银行贷款
赛诺贝斯新三板募资1842万元 部分用于偿还公司银行贷款
人生不会一直穷下去的4大生肖
人生不会一直穷下去的4大生肖

© Copyright 2018-2019 03160316.com 田懂资讯 Inc. All Rights Reserved.