重塑AI PC生态骁龙NPU和异构计算为终端侧生成式AI打开视野

2024-3-12 17:53

【天极网笔记本频道】继《混合AI是AI的未来》白皮书之后，高通近日再度发布了一部有关AI的白皮书——《通过NPU和异构计算开启终端侧生成式AI》。前者详细阐述了高通对于未来AI发展的预测——终端侧AI和混合AI开启生成式AI的未来，并展示了高通在推动混合AI规模化方面的优势;后者则为我们进一步打开了视野——高通敏锐地判断生成式AI变革已经到来，研发专为生成式AI定制的计算架构是必然。基于异构计算理念，高通Hexagon NPU与高通AI引擎的价值更加显现。

此前，高通在二月举行的巴塞罗那世界移动通信大会(MWC)上发布了公司AI领域的最新进展。包括但不限于全新高通AI Hub、AI前沿研究突破以及AI赋能的商用终端展示。从MWC 2024全新AI白皮书的发布我们不难看出，身处行业上游的高通不仅仅在为开发者赋能，同时也在推动技术落地、向下游渗透，并且变革由骁龙和高通平台支持的广泛终端品类上的用户体验。

我们为什么需要NPU和异构计算

生成式AI进入端侧已经是大势所趋，而我们首先需要明确的一点是，生成式AI多样化的计算需求需要不同的处理器来满足。在端侧的具体使用场景中，CPU和GPU都会负担一部分AI运算。其中CPU主要应对顺序控制和即时性运算，适用于需要低时延的应用场景;GPU擅长面向高精度格式的并行数据流处理，比如对画质要求非常高的图像以及视频处理;而NPU则更擅长与AI运算直接关联的标量、向量和张量数学运算，可用于核心AI工作负载。正所谓“专业的人做专业的事”，不同的AI运算运行在适合的芯片上时才能够最大化效率。优秀的NPU设计能够为处理这些AI工作负载做出正确的设计选择，这与AI行业方向保持高度一致。

当下，要满足生成式AI的多样化要求和计算需求，整合不同的处理器的算力是必然。高通的NPU并非是独立存在的，而是与CPU、GPU共同构成了异构计算体系。高通AI引擎包括高通Hexagon NPU，它是高通AI引擎中的关键处理器，通过定制设计NPU以及控制指令集架构(ISA)，高通能够快速进行设计演进和扩展，解决瓶颈问题并优化性能。

此外，高通AI引擎还包括高通Adreno GPU、高通 Kryo或高通 Oryon CPU、高通传感器中枢和内存子系统。这些处理器为实现协同工作而设计，能够在终端侧快速且高效地运行AI应用。在四大核心模块的通力协作下，高通异构计算能够实现最佳应用性能、能效和电池续航，实现生成式AI终端性能的最大化。

优势明显高通NPU以质取胜

从2007年起，高通就开始在NPU方面进行研发尝试并持续投入。2015年，骁龙820集成了首个高通AI引擎;2018年，高通在骁龙855中为Hexagon NPU增加了Hexagon张量加速器。2020年，高通对Hexagon NPU进行了架构变革融合，AI加速器架构为高通未来的NPU架构打下了坚实的基础。2023年，第三代骁龙8的微切片推理进一步升级，在降低内存带宽占用;Hexagon 张量加速器增加了独立的电源传输轨道，大共享内存的带宽也增加了一倍。基于以上提升和INT4硬件加速，Hexagon NPU成为了面向终端侧生成式AI大模型推理的领先处理器。

目前，Hexagon NPU可以实现在终端侧运行高达100亿参数的模型，在首个token的生成速度和每秒生成token速率方面业界领先。MWC 2024期间，高通展示了在第三代骁龙8移动平台上运行的首个大语言和视觉助理大模型(LLaVA)，能够基于图像输入解答用户的相关问题。

除了手机端，高通在AI PC方面的建树同样瞩目。高通在去年底发布了专为AI PC打造的骁龙X Elite平台，它能支持在终端侧运行超过130亿参数的生成式AI模型，AI处理速度是竞品的4.5倍。基于骁龙X Elite，高通也展示了全球首个在终端侧运行的超过70亿参数的大型多模态语言模型(LMM)，可接受文本和音频输入(如音乐、交通环境音频等)，并基于音频内容生成多轮对话。该模型经过优化，能够实现出色的性能和能效，并完全在终端侧运行，充分发挥骁龙X Elite的强大能力。

从专业技术的角度来看，我们可以通过TOPS、也就是Tera Operations Per Second进行算力表示，1TOPS代表处理器每秒钟可进行一万亿次(1012)操作。但是具体到实际使用的场景中，NPU性能比较“难以感知”，AI性能也是一个比较不太好量化的数据，消费者很难对不同设备的AI性能进行同等条件下的测试。

我们现在能够见到的对AI算力进行量化的软件以鲁大师AIMark和AITuTu测试为代表。首先来看第三代骁龙8和三款Android以及iOS平台竞品的对比。在安兔兔AITuTu基准测试中，第三代骁龙8能够达到竞品B的6.3倍。而在鲁大师AIMark V4.3基准测试中，第三代骁龙8能够领先竞品6-8倍。在MLCommon MLPerf推理的不同子项中，例如图像分类、语言理解以及超级分辨率等项目中，第三代骁龙8都保持领先。

在PC端AI性能方面，骁龙X Elite与其他X86架构竞品同样优势明显，在面向Windows的UL Procyon AI推理基准测试中，骁龙X Elite在ResNet-50、DeeplabV3等测试中都保持着大幅领先，基准测试总分相较于X86架构竞品最大领先可达8.6倍。可以说，无论是在手机端还是PC端，骁龙平台在AI方面都具备突出的领先优势。在被称作“AI PC”元年的2024年，搭载骁龙X Elite的产品值得期待。

开发者获益高通打造专业工具库

“工欲善其事，必先利其器。”身处行业上游的高通非常清楚，AI行业的发展离不了开发者的支持。开发者是行业生态的根基，如果没有针对开发者的相关工具应用，想要激发开发者的创作兴趣、快速完善行业生态只是空想。

全新的高通AI Hub正是高通为开发者准备的“利器”。刚刚于MWC 2024上推出的高通AI Hub包含预优化AI模型库，支持在搭载骁龙和高通平台的终端上进行无缝部署。

该模型库为开发者提供了超过75个主流的AI和生成式AI模型，比如Whisper、ControlNet、Stable Diffusion和Baichuan-7B，可在不同执行环境(runtime)中打包，在不同形态终端中实现出色的终端侧AI性能、降低内存占用并提升能效。高通针对所有模型进行了优化，使它们可以充分利用高通AI引擎内所有核心(NPU、CPU和GPU)的硬件加速能力，大幅提升推理速度。

值得一提的是AI模型库能够自动处理从源框架到主流执行环境的模型转换，直接与高通AI引擎Direct SDK协同工作，并且应用硬件感知优化。开发者可将这些模型无缝集成进应用程序，缩短产品上市时间，发挥终端侧AI部署的即时性、可靠性、隐私、个性化和成本优势。

此前高通也已经推出了高通AI软件栈(AI Stack)。从智能手机到PC、物联网终端、汽车，这一软件栈横跨高通所有不同产品线，对于开发者来说，只需开发一次就能将应用规模化扩展到不同类型的终端。高通AI软件栈不仅支持主流AI框架(如TensorFlow、PyTorch、ONNX和Keras)和runtime(如TensorFlow Lite、TensorFlow Lite Micro、ExecuTorch和 ONNXruntime)，还集成了面向Android、Linux和Windows不同系统的用于推理的高通神经网络处理SDK。此外，对于采用不同操作系统的跨平台产品，高通AI软件栈也都进行了支持，甚至连部署和监控的基础设施也没有落下。

写在最后

终端侧AI是大势所趋。很显而易见的是，终端侧AI在成本和能效方面具备突出优势。生成式AI应用的扩展下，AI模型的规模也会越来越大，用户规模同样会不断增加，云端处理的成本问题会限制生成式AI的发展，而用户在终端侧获取这些模型几乎不需要费用。在可持续性方面，大规模用户访问云端模型将产生大量的能耗。运行GPU、散热所消耗的能源将是天文数字。而在终端侧运行大模型的能效优势就很明显了，高通的Hexagon NPU以及异构计算体系能够支持在终端侧以最高效的方式运行AI模型，让消费者在端侧感受到AI带来的便利。

AI生态的构建并非朝夕所能成。通过多年布局，高通从底层到生态一砖一瓦构建了异构计算架构，它不仅带来了Hexagon NPU，为智能手机、PC等众多平台推出了第三代骁龙8、骁龙X Elite等顶尖算力支持，同时为开发者设计了包括高通AI软件栈(Qualcomm AI Stack)和AI Hub在内的众多开发套件和工具库，助力开发者的同时也是在加速生态完善，最终使最广大消费者获益。

现阶段，虽然AI终端市场的发展还处在初期阶段，但高通已经通过AI为不同产品和解决方案带来了显著的改进，AI对消费者的重要性也在不断增加，未来无论教育、医学还是养老等各个领域，AI的作用将愈发凸显。高通势必将继续完善AI计算架构，推出更强大的计算平台，并且加速端侧生成式AI渗透并变革全球用户工作生活的方式，让所有人都能享受到生成式AI带来的便利。

重塑AI PC生态 骁龙NPU和异构计算为终端侧生成式AI打开视野

重塑AI PC生态骁龙NPU和异构计算为终端侧生成式AI打开视野