《新华三人工智能发展报告白皮书》全文

发布时间：2020-07-16 18:29:49 所属栏目：产品来源：站长网

导读：副标题#e# 人工智能商业化加速将深刻改变人类社会 1、从学术研究走向商业应用人工智能最早可追溯到上世纪的四五十年代，被誉为“人工智能之父”的艾伦·图灵，在其论文《计算机器与智能》中，提出了非常著名的图灵测试，即被测试的机器是否能够表现出与人

　　随着市场的强劲需求和国家政策的引导，国内研发AI芯片呈“井喷”趋势，众多厂家加入到了造芯行列当中。针对不同的人工智能应用场景，各个厂家都在打造各具特色的芯片。尤其是随着物联网的普及，端侧应用场景更加繁杂，AI芯片百家争鸣的态势，有助于解决AI多样化的算力需求。

　　2、大规模AI训练场景，对网络和存储提出挑战

　　数据、算法、算力是人们常说的AI发展三要素，必然在AI中起着至关重要的作用。那么除了这些，是否还有其他因素关系其发展呢?我们试想，AI是一辆火车，数据、算法、算力、好比其燃料、发动机，有更多，更好质量的燃料，才能让火车跑的更远，更先进的发动机才能使火车跑的更快。不过，在实际火车运营中，仅仅这些是不够的。

　　火车要在铁轨上运行，也就是有了更好的路，火车才能四通八达、通畅无阻。AI面对实际应用也是如此，其爆棚的数据量和超高的算力要求都不是一台普通的服务器能够完成的，需要大规模的集群，集群中服务器、存储设备间的互联网络就是AI中的“路”，而这些当前的“路”是不能满足大规模AI训练场景需求的。

　　除了“路”之外，火车是用来运输货物或者人，那车厢本身的存储容量以及装卸车的速度也是火车运营的重要指标。对应到AI应用中就是存储容量及数据读写访问技术。

　　大规模AI训练场景对网络之“路”要求很高，有多方面原因。

　　首先，AI相关业务通常包含大量的图像、视频等非结构化数据，数据量上有一个指数级的增长，需要保证这些海量非结构化数据顺畅、快速通过才能使AI系统平稳运行。

　　其次，AI运算相比以往运算更加复杂，一次智能化业务背后要几百个模型计算，每次计算并非一台服务器能完成的，需要庞大算力和复杂的异构计算，背后实现往往是通过大规模集群并行处理的，那么集群中的服务器快速通信就成为完成一次计算任务的关键要素之一。

　　第三，AI业务很多需要实时学习，算法在框架层和应用层需要保持高精度一致。这些要求都是现存以太网所不具备的，其中千分之一的网络丢包对AI的影响都是巨大的。这个如同以前的马车走土路，压过一块小石头，或许就是有个小颠簸，不会发生什么大问题，但是如果铁轨上有一块小石头，可能就会造成火车的出轨，后果不堪设想。

　　当前铺设的这条网络“路”主要技术有TCP/IP及以太网，这是最常用的网络传输技术，其优点是应用范围广，成本低，兼容性好，缺点也很大，网络利用率低，传输速率不稳定等。InfiniBand是一个用于高性能计算的网络标准，服务器间、服务器与存储设备间、存储设备之间均可以使用其进行传输。

　　它的优点就是传输性能好，可惜在大规模应用中支持不好，而且需要特定网卡和交换机的支持，成本相对高昂。还有诸如Intel提出的Omni-Path等技术，都是为了优化网络性能，不过均存在各种兼容、成本等问题。

　　要满足AI的大规模训练需求，我们需要一种综合的网络解决方案，既能广泛大规模使用，价格低廉、成本可控，又能够完成高性能AI计算的需求。这首先要保证网络达到90%以上的带宽有效利用率的同时，网络中无丢包，并确保低时延。

　　通过RoCEv2、Lossless无损网络流控技术综合方案可以实现上述需求。RoCEv2即RoCE(RDMAover Converged Ethernet，基于以太网的远程直接内存访问)的第二个版本，较第一个版本支持跨IP子网的通信能力。该技术主要解决两大问题：

　　1、通过远程直接的内存访问绕过操作系统内的多次内存拷贝，远程节点的CPU无需介入，降低CPU负载，数据直达对端应用buffer。测试显示数据从CPU到网卡出口时间通过RoCEv2技术可以有效提升8倍，RoCEv2在提高网络吞吐量的同时极大的降低了数据包传输延时。如图5所示，传统TCP/IP与RDMA方式的数据移动对比。

　　2、 RoCEv2是RDMA在以太网上传输的实现，部署时仅两端点需要采用专用的网卡硬件，中途路径采用原有以太网线路及设备即可，相较InfiniBand等技术大大降低了成本。

《新华三人工智能发展报告白皮书》全文

▲传统TCP/IP与RDMA方式数据移动对比RoCEv2解决了成本、延时、吞吐等问题，这样还是不够的，上面提到面对大规模AI计算，网络中是不能出现丢包。这就需要Lossless无损网络流控技术来保证。如图6所示，无损网络解决方案部署参考。

▲无损网络部署参考其实现包括如下几个方面：

　　1、需要支持PFC流控能力，当某一优先级报文发送速率超过接收速率时，通过向上一跳发Pause帧通知上一跳设备暂停发送本优先级报文，实现不丢包机制;

　　2、开启快速ECN能力，向服务端快速进行通告反压，保证流量将要出现丢包时，快速通知发送端进行降速;

　　3、用户可选择开通ETS将网络中的流量优先级分成不同的优先级组，为每组分配一定带宽，如果一个组未消耗完为其分配的带宽其他组可以使用这些未使用的带宽，达到资源的合理分配及充分使用;

　　4、交换机与服务器网卡之间，通过开启LLDP协议的DCBX TLV，其报文中携带ETS/PFC配置状态，实现全网的DCBX能力通告和协商，保证网络无丢包。

　　5、通常的一个训练模型需要千万甚至上亿的文件数量，面对这样的海量数据访问，传统分布式文件存储架构(如HDFS，MooseFS等)就显得相形见绌了;

　　6、很多的训练模型都依赖于图片、音视频片段，为了进行更有效的特征分析，即便是大文件也会被切片成小文件。有些特征文件小到几十、几百字节，也有很多都在几KB到几MB之间。而传统分布式存储是针对大文件设计的，集群容量是其首要考虑的问题，面对AI训练场景，80%以上是小文件，首要解决的是文件系统支持海量小文件的问题;

（编辑：威海站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

7/15

首页

尾页

450W高功耗卡皇名不虚	只需169元！腾达U18 A
群联 PCIe 5.0 SSD一定	2499元！摩托罗拉edge

《 新华三人工智能发展报告白皮书 》全文

《新华三人工智能发展报告白皮书》全文