AI时代终端大变局大家谈丨NPU是本地模型保障吗？

AI时代终端大变局大家谈丨NPU是本地模型保障吗？

发布时间：2025-09-28 12:30:35 　发布者：本站编辑

【导语】从智能终端到人工智能终端的跃升正引发终端产业“二次革命”，消费电子产品处理器领域迎来新变化，NPU 成为“新宠”。但NPU 真是消费电子终端本地 AI 能力的关键吗？为此，《中国电子报》邀请荣耀、英特尔、星环科技、小米、后摩智能、上海六联智能等企业相关负责人，从芯片与模型调教、不同场景应用、生态建设、负载调度等多角度探讨，共话产业发展。

编者按：从智能(néng)终(zhōng)端(duān)到(dào)人(rén)工(gōng)智(zhì)能(néng)终(zhōng)端(duān)的(de)跃(yuè)升(shēng)可(kě)谓(wèi)是(shì)智(zhì)能(néng)化(huà)终(zhōng)端(duān)的(de)“二(èr)次(cì)革(gé)命(mìng)”，从(cóng)底(dǐ)层(céng)硬(yìng)件(jiàn)到(dào)操(cāo)作(zuò)系(xì)统(tǒng)，从(cóng)应(yīng)用(yòng)框(kuāng)架(jià)到交互方式，都将发生天翻(fān)地(de)覆(fù)的(de)变(biàn)化(huà)，整(zhěng)个终端及上下游产业也随时巨变。为推动人工智能终端产品普及，促进产业健康有序发展，《中国电子报》联手人工智能终端工作组推出“AI时代终端大变局”系列报(bào)道(dào)，将(jiāng)从(cóng)产(chǎn)品(pǐn)之(zhī)变(biàn)、场(chǎng)景(jǐng)之(zhī)变(biàn)、技(jì)术(shù)之(zhī)变(biàn)、生(shēng)态(tài)之(zhī)变(biàn)等(děng)角(jiǎo)度(dù)探(tàn)讨(tǎo)产(chǎn)业(yè)变(biàn)化(huà)，并(bìng)开(kāi)设(shè)“大(dà)家(jiā)谈(tán)”纸(zhǐ)面(miàn)圆(yuán)桌(zhuō)论(lùn)坛(tán)，凝(níng)聚业界智慧、共商产业大计。

CPU（中央处理器，Central Processing Unit）、GPU（图形处理器，Graphics Processing Unit）虽然是专业术语，却被很多消费者所熟知，因为电脑、笔记本等企业愿意“推销”其实用的CPU、GPU。但是，你有没有发现，现在不论是买手机、电脑等移动终端，还是音响、扫地机器人等智能家居产品，越来越多的消费电子产品在强调“NPU”了？

NPU（神经网络处理器，Neural network Processing Unit）算是处理器领域的后来者。该类处理器于2017年被华为集成到手机SoC中，因针对人工智能算法定制设计，相较于CPU和GPU实现了巨大的功耗节约。

正因为具备这样的特性，在消费终端经历AI变革的当下，NPU成为诸多消费电子产品选择的处理器“新宠”。NPU，果真是消费电子终端拥有本地AI能力的“尚方宝剑”吗？听听业内人士的观点。

朱臣才 荣耀终端股份有限公司PC产品总经理

关于要不要用NPU、要让什么任务运行在NPU上，涉及的其实是芯片与模型技术调教的问题。

经过研发团队在手机芯片与模型调教技术上的积累，我们提出了端侧模型异构计算架构。其核心思想是，对于多模型同时运行场景构建推理决策模块。该模块会根据当前PC后台运行状态和用户场景，决策推理调度策略，合理分配不同的模型运行在不同的硬件上。

具体来看：在视频电话、会议等场景中，用户对整机性能、温度比较敏感，这种情况下参数量较小的模型优先调用NPU进行推理；在常规办公、待机等场景中，用户对整机的性能和温度不敏感，这种情况下参数量较小的模型优先调用GPU进行推理；当模型参数量较大、要求算力较多的情况，该模块会将模型进行拆分，同时调用GPU及NPU进行推理。

在此基础上，我们也对模型进行了拆解，把同一个模型的不同算子分解到不同的硬件上运行，进一步实现了性能与功耗的平衡。下面举个我们优化模型的案例：

在最初的版本中，我们没有进行任何调优，大模型整体运行在GPU上，虽然性能达标，但整机功耗非常高，与玩一个大型游戏的功耗相当，显然这是商用场景无法接受的。而经过不断对架构深度优化，使AIPC同时调用GPU与NPU进行AI模型的运算，最终，商用版本端侧大模型的推理速提升了60% ，同时内存占用降低了69%。

高宇 英特尔中国区技术部总经理

英特尔一直在强调的XPU来运行AI，包含CPU、GPU、IGPU（集成显卡）、NPU等不同的处理单元。为什么呢？

AI应用在本地运行，并不能简单地理解为AI在NPU上运行，这是两个概念。很多AI应用也会运行在CPU、GPU、IGPU上。

我们以AI会议的场景来举例子。在这个场景中，将语音转化成文字的模型，会运行在CPU上的，因为这款模型在CPU上运行时的延时最短、吐字速度最快；而不同语种之间的翻译功能，会运行在IGPU上，因为IGPU适配的大模型种类更多、其支持模型的尺寸也更大，效果更好；以摄像头捕捉客户面部特征、并进行眼神校正的功能，是一个典型的应用计算机视觉应用，就特别适合运行在NPU上。

从这个案例中，就可以很明显地看出，即便是在一个垂直领域中，AI应用也需要充分利用不同架构处理器的结构，实现能效最优化。

龚(gōng)存(cún)阳(yáng) 星(xīng)环(huán)科(kē)技(jì)无(wú)涯(yá)大(dà)模(mó)型(xíng)产品研发经理

NPU目前发挥的是锦上添花的作用。一些小模型，例如语音转写模型或者OCR模型会优先跑在NPU上。NPU和GPU之间形成异构负载的关系，即GPU负载的时候，NPU也可以同时运行，和在GPU上运行的大模型不产生资源冲突。

如果要打造一台性能比较好的个人智能体电脑的话，其实目前处理器的性能已经能够应对大多数场景了。处理器已经不构成影响AIPC处理器性能的最主要因素，且价格也已达到消费者能够接受的(de)水(shuǐ)平(píng)。而(ér)至(zhì)于(yú)电(diàn)脑(nǎo)的(de)智(zhì)能(néng)化(huà)水(shuǐ)平(píng)，其(qí)实(shí)很(hěn)大(dà)程(chéng)度(dù)上(shàng)取(qǔ)决(jué)于(yú)生(shēng)态(tài)链(liàn)路建(jiàn)设(shè)的(de)健(jiàn)全程(chéng)度(dù)。

刘(liú)靖(jìng)超(chāo) 小(xiǎo)米(mǐ)笔(bǐ)记(jì)本(běn)软(ruǎn)件(jiàn)产(chǎn)品(pǐn)负(fù)责(zé)人(rén)

我(wǒ)认(rèn)为(wèi)，应(yīng)该(gāi)从(cóng)用(yòng)户(hù)场(chǎng)景(jǐng)看(kàn)待(dài)这(zhè)个(gè)问(wèn)题(tí)，分(fēn)场(chǎng)景(jǐng)选(xuǎn)择(zé)恰(qià)当(dāng)计(jì)算(suàn)单(dān)元(yuán)。NPU算(suàn)力(lì)强(qiáng)功(gōng)耗(hào)低(dī)，在(zài)需(xū)要(yào)持(chí)续(xù)推(tuī)理(lǐ)、长(zhǎng)期(qī)运(yùn)行(xíng)的(de)场(chǎng)景(jǐng)是(shì)个(gè)不(bù)错(cuò)选(xuǎn)择(zé)，例(lì)如(rú)整(zhěng)机(jī)性(xìng)能(néng)调(diào)度(dù)。同(tóng)时(shí)，笔(bǐ)记(jì)本(běn)SoC的(de)XPU架(jià)构(gòu)包(bāo)含(hán)CPU、GPU、NPU、ISP等(děng)多(duō)个(gè)算(suàn)力(lì)单(dān)元(yuán)：CPU响(xiǎng)应(yīng)快(kuài)，适(shì)合(hé)强(qiáng)交(jiāo)互(hù)的(de)应(yīng)用(yòng)场(chǎng)景(jǐng)；GPU算(suàn)力(lì)高(gāo)，在(zài)使(shǐ)用(yòng)生(shēng)成(chéng)式(shì)模(mó)型(xíng)的(de)应(yīng)用(yòng)场(chǎng)景(jǐng)独(dú)具(jù)优(yōu)势(shì)。综(zōng)合(hé)来(lái)看(kàn)，NPU是(shì)个(gè)非(fēi)常(cháng)好(hǎo)的(de)本(běn)地(de)模(mó)型(xíng)算(suàn)力(lì)单(dān)元(yuán)，但(dàn)是(shì)需(xū)持(chí)续(xù)提(tí)升(shēng)NPU对(duì)模(mó)型(xíng)的(de)兼(jiān)容(róng)性(xìng)，降(jiàng)低(dī)模(mó)型(xíng)适(shì)配(pèi)投(tóu)入(rù)成(chéng)本(běn)，丰(fēng)富(fù)开(kāi)发(fā)者(zhě)生(shēng)态(tài)。

张伟超 后摩智能产品市场负责人

大语言模型普遍采用Transformer架构，该架构的计算特性与存算一体的芯片结构高度契合。在后摩智能的NPU中，其核心矩阵计算单元便做了深度优化，能高效支撑边端大语言模型的运行。

不过消费者或许已留意到一种现象：不少配备iNPU的电脑，即便将应用下载至本地，也难以调用iNPU进行AI本地计算。而这一问题的根源，往往在于终端设备、主控芯片设计企业的资源编排能力，涉及到本地算力、显存容量和带宽，以及具体的工作负载如何在不同XPU之间进行分配、各种应用及功能该调用哪些硬件/软件资源，均需芯片设计者进行提前规划与调度，而这背后离不开芯片开发者对系统软件，推理框架和算法精度/算子的深度优化。

事实上，针对不同应用的负载调度是项极为复杂的系统工程，需要终端开发者、芯片开发者与应用开发者三方协同调优。这种负载分担绝非简单地将任务“拆分”给不同处理器，部分场景下，一项任务需要CPU、GPU、NPU协同参与，例如同一组数据可能需依次经过不同处理器的运算，这就涉及数据处理的“先后逻辑”问题。对此，部分芯片会通过PCIE总线构建调度机制：数据先传入CPU，由CPU判断任务归属后，再分发至对应处理器执行。这个过程会产生延迟，浪费计算资源和通信带宽。

所以，我们认为，独立NPU具有独立的显存和足够大的带宽，可以将专用的LLM/VLM负载从主处理CPU或图形渲染GPU上进行卸载，从而在游戏AIPC、会议终端OPS等智能终端市场中具有重要地位。

邵世佳上海六联智能科技有限公司副总经理

NPU是端侧大模型本地运行的关键保障。它能更高效、持续地运行AI任务，既不至于像GPU那样高功耗，也不会占用CPU的(de)通(tōng)用(yòng)算(suàn)力(lì)。与(yǔ)此(cǐ)同(tóng)时(shí)，消(xiāo)费(fèi)终(zhōng)端(duān)运(yùn)行(xíng)时(shí)，不(bù)同(tóng)类(lèi)型(xíng)的(de)处(chù)理(lǐ)器(qì)分(fēn)别(bié)发(fā)挥(huī)不(bù)同(tóng)的(de)作(zuò)用(yòng)。以(yǐ)电(diàn)脑(nǎo)产(chǎn)品(pǐn)为(wèi)例(lì)，CPU主要(yào)负(fù)责(zé)统(tǒng)筹(chóu)和(hé)任(rèn)务(wu)调(diào)度(dù)，保(bǎo)证(zhèng)系(xì)统(tǒng)整(zhěng)体(tǐ)流(liú)畅(chàng)；GPU负责处理高并发、复杂的推理和生成任务；NPU则常驻运行轻量化大模型，以实现高效、低功耗的智能服务。三者协同，才能使AIPC具备性能和能效优势，为用户提供长时间的智能体验。

- 国内领先的先进封装制程解决方案提供商

最新消息

关于我们

制程解方案

人才招聘

社会责任

最新消息

联系我们

关于我们

解决方案

联系我们