AI规模化落地英特尔至强的七重助力

2019-08-19 13:47:02 阅读：9035 作者：责任编辑NO。魏云龙0298

机器之心发布

机器之心编辑部

今日，各行各业正与人工智能（AI）加快交融，经过智能化立异来寻求事务转型晋级。与为数不多的尖端 AI 研制公司比较，大多数传统职业或企业有着更丰厚的 AI 运用场景，推进着规模化的 AI 运用落地，其 AI 运用更具有实践含义。但是，在智能化技能架构和渠道挑选上，它们又往往面临着「拿着钉子处处找锤子」的为难局势。

虽然有人津津有味于承载 AI 运用的一些专用架构渠道，但实践情况是：仅选用专用加快芯片或优化单一结构，现已无法满意运转不同作业负载和习惯不同运用场景所需。这是由于，AI 的运用需求是多种多样的，不同的运用也决议了从数据中心到边际再到设备所需的硬件才能都会有所不同。而且，处理企业 AI 规模化落地，需求充分运用以数据为中心的根底架构，考虑芯片处理器、中心算法和软件东西等渠道处理计划的挑选。

无论是算法工程师、AI 开发者仍是数据科学家，他们在挑选 AI 技能架构和渠道时会有多方面的考量。一个一致是，依据既有的 IT 根底设施，一致大数据和人工智能渠道，可以愈加高效开释数据价值，完成 AI 事务方针。人们正在发现，愈加通用的英特尔架构具有重要的先发优势。由英特尔核算架构和至强渠道的助力，人工智能技能可以帮忙企业从既有的渠道起步，加快「破局」AI 工业实践。

英特尔 AI 架构带来的优势可以从七个方面说起，其间包含功用、数据预处理、可扩展性、内存、模型布置、大数据剖析，以及跨渠道布置运用。

榜首重助力：功用

今日，CPU 功用优化已有数量级的进步，VNNI 和结构优化等大幅进步了 CPU 架构运转深度学习推理的速度。

许多人或许都以为 AI 这种新呈现的技能，或许说运用负载，也应该用新的架构来支撑，其实不然。实践上跟着 CPU 功用的数量级进步，以及在软硬件层面针对 AI 运用的不断优化，CPU 渠道也能很好地承载 AI 运用。现在 CPU 能兼容简直一切的 AI 干流技能，深度学习的运用使命，特别是推理，彻底可以用 CPU 来搞定。而且 CPU 还有一个特定的优势，便是当用户混合运用机器学习和深度学习办法时，CPU 更合适承载这样的使命。

不断更新换代的英特尔 CPU 渠道，现已在许多 AI 运用，特别是推理上供给了强壮的算力。以第二代英特尔至强可扩展处理器为例，它集成了加快人工智能深度学习推理的英特尔深度学习加快（英特尔 DL Boost）技能，将人工智能功用进步到一个全新的水平，可加快数据中心、企业和智能边际核算环境中的人工智能推理作业负载。以常见的 Caffe Resnet-50 模型为例来看功用改变，第二代英特尔至强铂金 8280 处理器凭借英特尔 DL Boost 技能，图画识别的速度可比上一代英特尔至强可扩展处理器进步 14 倍。

别的，英特尔 CPU 渠道还与各类干流深度学习结构（包含 TensorFlow、PyTorch、caffe 、MXNet、PaddlePaddle、BigDL 等）协作，针对 CPU 的 AI 练习和 AI 推理功用进行全面优化，Xeon 处理器练习功用因而得到不断进步，客户也可以挑选运用合适自身需求的深度学习结构做模型练习，而无需购买或许设置不同的硬件根底设施。

跟着软件东西的不断更新及面向干流结构的深度优化，CPU 渠道不论是支撑依据单一 AI 技能的运用，仍是在运转交融了多种 AI 技能的运用时，其功用体现都更为杰出。

关于全新硬件架构的每一个数量级的功用进步潜力，软件能带来超越两个数量级的功用进步。以第二代英特尔至强可扩展处理器上的 VNNI 深度学习加快指令为例，曩昔卷积神经需求三条指令，而现在的话一条指令就可以了，经过在底层的软硬件协同优化，可依据不同深度学习结构将推理功用加快 2-3 倍乃至更多。

第二重助力：数据预处理

数据的处理剖析和之后的 AI 运用假如在一个渠道上，可以给用户带来更大的便利性，也能节约本钱和下降危险。

虽然当时商场关于 AI 技能抱有很大爱好，但施行水平依然恰当低下。咱们需求依据运用需求构建起完好的数据剖析/AI 流水线，从高质量数据源收拾、数据预处理与清洗、恰当特征数据的挑选与构建等前期作业开端，这就要求数据工程师、算法工程师等协同作业。

算法工程师往往要花许多时刻，来处理用于深度学习模型练习和测验的巨大数据，数据预处理会触及许多很琐细的作业，比方校正数据的标示是否契合某种逻辑。在进行数据预处理时，所写的代码纷歧定是履行起来功率最高的，由于有或许这些琐细的校验数据功用只用一次，而不是重复运用。在这种情况下，可以运用便利快速完成功用的 Python 言语调用 CPU 来完成，而且依据 CPU 有许多现成的包和东西，具有更快数据预处理的优势。CPU 还可以经过运用更多内存、削减 I/O 操作来进步 AI 运转功率。

现在的深度学习和 AI 范畴，优异的算法和结构不计其数，但英特尔开源的 BigDL 和选用了这一技能的 Analytics Zoo 渠道挑选了一个颇具独特性的切入点，那便是专为已有大数据集群的场景规划。现在，来自零售业、金融服务职业、医疗保健业、制造业及电信业等范畴的企业客户都现已开端在英特尔至强服务器上运用 Analytics Zoo、或依据 BigDL 构建更为滑润无缝的数据剖析-AI 运用流水线。

第三重助力：可扩展性

作为遍及运用的根底设施，CPU 渠道便是为可扩展性而树立的，它们不只易于在更多节点上进行扩展，还能按核完成弹性扩展和分配。

在深度学习和机器学习范畴，不管是模型练习仍是推理，为了分配和布置核算才能，常常需求依据现有的 IT 根底设施或许云渠道进行硬件扩展。现在一些专有的 AI 架构渠道只能以卡或芯片为单位来办理和扩展，而英特尔至强渠道不只更简单在更多节点上扩展，还能按核完成弹性的扩展和分配，能真实做到精细化的资源办理和分配。这使得 AI 渠道可以尽或许经过云化来进步灵活性，进步自动化办理水平，并充分运用到每个核算中心的价值等。

比方有开发者指出，在新一代 Skylake-SP 微构架芯片规划上，英特尔初次开端选用了全新网格互连构架（Mesh Interconnect Architecture）规划办法，从传统的运用环形衔接，到了新规划则全面改选用网格互连的办法，来进行材料存取与控制指令的传送。由于最小单位可以是以每行、每列来衔接，所以每颗 Skylake-SP 中心、缓存、内存控制器及 I/O 控制器之间的途径挑选变得更多元，还可以跨不同的节点互连，以寻觅最短的数据传递捷径，即便是加大中心数量，也可以保持很快存取数据，并支撑更高内存频宽，以及更高速的 I/O 传输。

第四重助力：内存

CPU 易扩展缓存，而英特尔傲腾 DC 耐久内存 Apache Pass 更是集大容量、经济性和耐久性于一身，功用挨近 DRAM。

不论是 AI 练习仍是推理，挨近核算单元的内存或许说较高速的数据缓存都非常重要。在 AI 剖析中，它们对练习中的神经网络构建，并经过该网络进行推理比较都有着重要的影响。因而咱们期望在挨近核算单元的当地尽或许缓存更多数据。其容量的添加，会很大程度上进步 AI 的全体功用、准确性、响应速度。

练习深度学习模型时，占用 CPU 内存比较大，一般来说单台刀片可以轻松做到 256GB 以上的内存，做分布式练习时还可以把数据分配到不同机器上进行核算，而且可以尽量把数据预存到 CPU。此外，CPU 大内存的优势不只体现在练习上，更首要的是推理，比方对尺度很大的医疗印象模型进行推理处理。

即便没有英特尔傲腾数据中心级耐久内存的呈现，英特尔至强处理器渠道也很简单扩展内存的容量。但有了这种全新类型的产品后，内存的存储密度/价格比或许会更抱负，其功用也挨近 DRAM，让更很多的数据可以更挨近 CPU 进行移动和处理，极大地下降从体系存储获取数据的推迟。比较之下，专有架构渠道要扩展缓存，仍是很不便利的。

第五重助力：模型布置

英特尔技能产品从端到端是有一致的运用兼容性的，这样可以确保咱们在后端练习迭代算法，前端布置推理。

在深度学习实践中，是否应该去树立一套新的专用渠道？持否定定见的开发者以为，现在首要用于 AI 模型推理的渠道都是依据 CPU 架构的，应该运用现有的数据中心根底设施，运用现有的、了解的处理器渠道，以最低的本钱布置人工智能，这比较重整旗鼓、寻觅其他核算渠道的办法，用时更短、危险更低、性价比更高。

有开发者据此总结了三条理由：首要，现现在规范 CPU 渠道彻底可以担任 AI 一切运用；其次，现在 AI 归于「试错阶段「，一起技能也在快速演化和迭代，运用现有的 CPU 渠道，可以最小本钱做最大的事，无需很多额定出资，但假如重整旗鼓或许因小失大；最终，用多年了解且信赖的 CPU 渠道，构建「急进」的 AI 项目，自身便是一个绝好的平衡，让技能危险变得可控。

在现有英特尔架构支撑的数据运用根底上构建 AI 运用，出产环境非常老练，易于布置，运维人员学习难度低。英特尔从云到端都有硬件渠道安排妥当，不论是通用核算仍是专用芯片（如 Movidius），而且还有相关的软件支撑，如许多优化库、结构和东西。别的，英特尔为 AI 运用的开发者们供给了 OpenVINO 等东西包，可以便利完成模型布置，优势明显。

第六重助力：大数据剖析

英特尔至强处理器和 BigDL 软硬调配，在 Hadoop 和 Spark 等干流大数据结构上，可以简化练习（数据获取+处理）进程。

Hadoop 和 Spark 是现在非常盛行的大数据办理和处理结构，想运用它们承载的数据进行深度学习练习，一般需求把这些数据导出，然后进行处理，这个进程不只耗时而且出资较大，所以在这些大数据渠道上进行深度学习练习显得尤为重要。

有开发者以为，可以针对各种不同来历的数据，首要依据方针算法需求的数据格式，进行数据整合。得到方针数据之后，再依据事务需求，依照对应的份额，将最原始的数据分红练习数据和测验数据，经过算法对数据不断进行练习，后期进行相应的测验。

其实更好的办法是打通数据流水线。英特尔的 Analytics Zoo（内含 BigDL）打通端到端数据流水线，在 Hadoop 和 Spark 等干流的大数据结构上，把数据的搜集、存储、传输、预处理、后期处理等环节，与 AI 的练习和猜测等部分有机结合起来，就可以让企业的数据剖析流水线变得高效而一致。例如，英特尔帮忙美的公司依据 Analytics Zoo 构建了一套端到端的产品缺点检测计划，准确率优于人工查看办法，并避免了查看作业给出产线带来侵入性影响。

Analytics Zoo 将 Spark、TensorFlow 以及 BigDL 程序整合至同一流水线傍边，整个流水线可以在 Spark 集群之上以通明办法完成扩展，然后进行分布式练习与推理。最终使美的的图画预处理时长由 200 毫秒下降至 50 毫秒，并将推迟影响由 2,000 毫秒缩短至 124 毫秒。

第七重助力：跨渠道布置运用

英特尔至强处理器、Analytics Zoo 以及 OpenVINO 东西包，可以简化深度学习流水线，完成一站式端到端的 AI 运用布置。

深度学习运用的开发周期很长，而且往往会触及多个东西和渠道，如何将新技能、新立异运用到非常大规模、大数据的出产体系中，现在在软硬件架构上有非常大的断层。这进步了技能开发门槛，开发者非常等待从云端到终端能跨渠道布置深度学习运用。

2018 年，英特尔开源了 Analytics Zoo，构建了端到端的大数据剖析+AI 渠道，无论是用 TensorFlow 仍是 Keras，都能将这些不同模块的程序无缝运转在端到端流水线上，大大进步了开发功率。

而且，Analytics Zoo 也兼容 OpenVINO在 AI 运用上的加快特性。依据英特尔硬件渠道、专心于加快深度学习的 OpenVINO东西套件，是一个快速开发高功用核算机视觉和深度学习视觉运用的东西包。

英特尔 OpenVINO 东西套件不只适用于开发可模仿人类视觉的运用和处理计划，它还可以经过英特尔 FPGA 深度学习加快套件支撑 FPGA，旨在经过优化广泛运用的 Caffe 和 TensorFlow 结构来简化选用英特尔 FPGA 的推理作业负载，并用于包含图画分类、机器视觉、自动驾驶、军事以及医疗确诊等运用。

OpenVINO东西包依据卷积神经网络（CNN），可扩展英特尔硬件（包含加快器）的作业负载，并最大极限地进步功用。

具体来说，OpenVINO 具有面向 OpenCV 和 OpenVx 的优化核算机视觉库，并支撑跨核算机视觉加快器的异构履行，可经过依据英特尔架构的处理器（CPU）及核显（Integrated GPU）和深度学习加快器（FPGA、Movidius VPU）的深度学习加快芯片，增强视觉体系功用和功用。它支撑在边际端进行深度学习推理，并加快高功用核算机视觉运用，帮忙开发人员和数据科学家进步核算机视觉运用功用，简化深度学习布置进程。

AI 运用落地的实践挑选

经过上述剖析咱们可以发现，在七个方面中，每个维度都支撑 CPU 架构和渠道的优势。一方面，CPU 的核算才能经过软硬件协同优化不断进步，可以更好地习惯 AI 场景需求，企业逐渐意识到用 CPU 做 AI 现已「足够好」；另一方面，经过收买和探究不同芯片架构，英特尔的 AI 软硬件产品组合正在不断完善，这使得英特尔可以树立一个完好的 AI 根底架构，非常丰厚的产品组合是英特尔与其他公司完成差异化的最大亮点。

本文为机器之心发布，转载请联络本大众号取得授权。

------------------------------------------------

上一篇：这边39℃高温那边强降

下一篇：狼狗年老没了用主人竟

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

AI规模化落地英特尔至强的七重助力

编辑推荐