logo - 半导体科技有限公司
 400-88786655
最新消息
首页 - 最新消息 - 详细内容
AI时代终端大变局大家谈丨NPU是本地模型保障吗?
发布时间:2025-09-28 12:30:35  发布者:本站编辑

【导语】从智能终端到人工智能终端的跃升正引发终端产业“二次革命”,消费电子产品处理器领域迎来新变化,NPU 成为“新宠”。但NPU 真是消费电子终端本地 AI 能力的关键吗?为此,《中国电子报》邀请荣耀、英特尔、星环科技、小米、后摩智能、上海六联智能等企业相关负责人,从芯片与模型调教、不同场景应用、生态建设、负载调度等多角度探讨,共话产业发展。

编者按:从智能(néng)终(zhōng)端(duān)到(dào)人(rén)工(gōng)智(zhì)能(néng)终(zhōng)端(duān)的(de)跃(yuè)升(shēng)可(kě)谓(wèi)是(shì)智(zhì)能(néng)化(huà)终(zhōng)端(duān)的(de)“二(èr)次(cì)革(gé)命(mìng)”,从(cóng)底(dǐ)层(céng)硬(yìng)件(jiàn)到(dào)操(cāo)作(zuò)系(xì)统(tǒng),从(cóng)应(yīng)用(yòng)框(kuāng)架(jià)到交互方式,都将发生天翻(fān)地(de)覆(fù)的(de)变(biàn)化(huà),整(zhěng)个终端及上下游产业也随时巨变。为推动人工智能终端产品普及,促进产业健康有序发展,《中国电子报》联手人工智能终端工作组推出“AI时代终端大变局”系列报(bào)道(dào),将(jiāng)从(cóng)产(chǎn)品(pǐn)之(zhī)变(biàn)、场(chǎng)景(jǐng)之(zhī)变(biàn)、技(jì)术(shù)之(zhī)变(biàn)、生(shēng)态(tài)之(zhī)变(biàn)等(děng)角(jiǎo)度(dù)探(tàn)讨(tǎo)产(chǎn)业(yè)变(biàn)化(huà),并(bìng)开(kāi)设(shè)“大(dà)家(jiā)谈(tán)”纸(zhǐ)面(miàn)圆(yuán)桌(zhuō)论(lùn)坛(tán),凝(níng)聚业界智慧、共商产业大计。

CPU(中央处理器,Central Processing Unit)、GPU(图形处理器,Graphics Processing Unit)虽然是专业术语,却被很多消费者所熟知,因为电脑、笔记本等企业愿意“推销”其实用的CPU、GPU。但是,你有没有发现,现在不论是买手机、电脑等移动终端,还是音响、扫地机器人等智能家居产品,越来越多的消费电子产品在强调“NPU”了?

NPU(神经网络处理器,Neural network Processing Unit)算是处理器领域的后来者。该类处理器于2017年被华为集成到手机SoC中,因针对人工智能算法定制设计,相较于CPU和GPU实现了巨大的功耗节约。

正因为具备这样的特性,在消费终端经历AI变革的当下,NPU成为诸多消费电子产品选择的处理器“新宠”。NPU,果真是消费电子终端拥有本地AI能力的“尚方宝剑”吗?听听业内人士的观点。

朱臣才 荣耀终端股份有限公司PC产品总经理

关于要不要用NPU、要让什么任务运行在NPU上,涉及的其实是芯片与模型技术调教的问题。

经过研发团队在手机芯片与模型调教技术上的积累,我们提出了端侧模型异构计算架构。其核心思想是,对于多模型同时运行场景构建推理决策模块。该模块会根据当前PC后台运行状态和用户场景,决策推理调度策略,合理分配不同的模型运行在不同的硬件上。

具体来看:在视频电话、会议等场景中,用户对整机性能、温度比较敏感,这种情况下参数量较小的模型优先调用NPU进行推理;在常规办公、待机等场景中,用户对整机的性能和温度不敏感,这种情况下参数量较小的模型优先调用GPU进行推理;当模型参数量较大、要求算力较多的情况,该模块会将模型进行拆分,同时调用GPU及NPU进行推理。

在此基础上,我们也对模型进行了拆解,把同一个模型的不同算子分解到不同的硬件上运行,进一步实现了性能与功耗的平衡。下面举个我们优化模型的案例:

在最初的版本中,我们没有进行任何调优,大模型整体运行在GPU上,虽然性能达标,但整机功耗非常高,与玩一个大型游戏的功耗相当,显然这是商用场景无法接受的。而经过不断对架构深度优化,使AIPC同时调用GPU与NPU进行AI模型的运算,最终,商用版本端侧大模型的推理速提升了60% ,同时内存占用降低了69%。

高宇 英特尔中国区技术部总经理

英特尔一直在强调的XPU来运行AI,包含CPU、GPU、IGPU(集成显卡)、NPU等不同的处理单元。为什么呢?

AI应用在本地运行,并不能简单地理解为AI在NPU上运行,这是两个概念。很多AI应用也会运行在CPU、GPU、IGPU上。

我们以AI会议的场景来举例子。在这个场景中,将语音转化成文字的模型,会运行在CPU上的,因为这款模型在CPU上运行时的延时最短、吐字速度最快;而不同语种之间的翻译功能,会运行在IGPU上,因为IGPU适配的大模型种类更多、其支持模型的尺寸也更大,效果更好;以摄像头捕捉客户面部特征、并进行眼神校正的功能,是一个典型的应用计算机视觉应用,就特别适合运行在NPU上。

从这个案例中,就可以很明显地看出,即便是在一个垂直领域中,AI应用也需要充分利用不同架构处理器的结构,实现能效最优化。


龚(gōng)存(cún)阳(yáng) 星(xīng)环(huán)科(kē)技(jì)无(wú)涯(yá)大(dà)模(mó)型(xíng)产品研发经理

NPU目前发挥的是锦上添花的作用。一些小模型,例如语音转写模型或者OCR模型会优先跑在NPU上。NPU和GPU之间形成异构负载的关系,即GPU负载的时候,NPU也可以同时运行,和在GPU上运行的大模型不产生资源冲突。

如果要打造一台性能比较好的个人智能体电脑的话,其实目前处理器的性能已经能够应对大多数场景了。处理器已经不构成影响AIPC处理器性能的最主要因素,且价格也已达到消费者能够接受的(de)水(shuǐ)平(píng)。而(ér)至(zhì)于(yú)电(diàn)脑(nǎo)的(de)智(zhì)能(néng)化(huà)水(shuǐ)平(píng),其(qí)实(shí)很(hěn)大(dà)程(chéng)度(dù)上(shàng)取(qǔ)决(jué)于(yú)生(shēng)态(tài)链(liàn)路建(jiàn)设(shè)的(de)健(jiàn)全程(chéng)度(dù)。


刘(liú)靖(jìng)超(chāo) 小(xiǎo)米(mǐ)笔(bǐ)记(jì)本(běn)软(ruǎn)件(jiàn)产(chǎn)品(pǐn)负(fù)责(zé)人(rén)

我(wǒ)认(rèn)为(wèi),应(yīng)该(gāi)从(cóng)用(yòng)户(hù)场(chǎng)景(jǐng)看(kàn)待(dài)这(zhè)个(gè)问(wèn)题(tí),分(fēn)场(chǎng)景(jǐng)选(xuǎn)择(zé)恰(qià)当(dāng)计(jì)算(suàn)单(dān)元(yuán)。NPU算(suàn)力(lì)强(qiáng)功(gōng)耗(hào)低(dī),在(zài)需(xū)要(yào)持(chí)续(xù)推(tuī)理(lǐ)、长(zhǎng)期(qī)运(yùn)行(xíng)的(de)场(chǎng)景(jǐng)是(shì)个(gè)不(bù)错(cuò)选(xuǎn)择(zé),例(lì)如(rú)整(zhěng)机(jī)性(xìng)能(néng)调(diào)度(dù)。同(tóng)时(shí),笔(bǐ)记(jì)本(běn)SoC的(de)XPU架(jià)构(gòu)包(bāo)含(hán)CPU、GPU、NPU、ISP等(děng)多(duō)个(gè)算(suàn)力(lì)单(dān)元(yuán):CPU响(xiǎng)应(yīng)快(kuài),适(shì)合(hé)强(qiáng)交(jiāo)互(hù)的(de)应(yīng)用(yòng)场(chǎng)景(jǐng);GPU算(suàn)力(lì)高(gāo),在(zài)使(shǐ)用(yòng)生(shēng)成(chéng)式(shì)模(mó)型(xíng)的(de)应(yīng)用(yòng)场(chǎng)景(jǐng)独(dú)具(jù)优(yōu)势(shì)。综(zōng)合(hé)来(lái)看(kàn),NPU是(shì)个(gè)非(fēi)常(cháng)好(hǎo)的(de)本(běn)地(de)模(mó)型(xíng)算(suàn)力(lì)单(dān)元(yuán),但(dàn)是(shì)需(xū)持(chí)续(xù)提(tí)升(shēng)NPU对(duì)模(mó)型(xíng)的(de)兼(jiān)容(róng)性(xìng),降(jiàng)低(dī)模(mó)型(xíng)适(shì)配(pèi)投(tóu)入(rù)成(chéng)本(běn),丰(fēng)富(fù)开(kāi)发(fā)者(zhě)生(shēng)态(tài)。


张伟超  后摩智能产品市场负责人

大语言模型普遍采用Transformer架构,该架构的计算特性与存算一体的芯片结构高度契合。在后摩智能的NPU中,其核心矩阵计算单元便做了深度优化,能高效支撑边端大语言模型的运行。

不过消费者或许已留意到一种现象:不少配备iNPU的电脑,即便将应用下载至本地,也难以调用iNPU进行AI本地计算。而这一问题的根源,往往在于终端设备、主控芯片设计企业的资源编排能力,涉及到本地算力、显存容量和带宽,以及具体的工作负载如何在不同XPU之间进行分配、各种应用及功能该调用哪些硬件/软件资源,均需芯片设计者进行提前规划与调度,而这背后离不开芯片开发者对系统软件,推理框架和算法精度/算子的深度优化。

事实上,针对不同应用的负载调度是项极为复杂的系统工程,需要终端开发者、芯片开发者与应用开发者三方协同调优。这种负载分担绝非简单地将任务“拆分”给不同处理器,部分场景下,一项任务需要CPU、GPU、NPU协同参与,例如同一组数据可能需依次经过不同处理器的运算,这就涉及数据处理的“先后逻辑”问题。对此,部分芯片会通过PCIE总线构建调度机制:数据先传入CPU,由CPU判断任务归属后,再分发至对应处理器执行。这个过程会产生延迟,浪费计算资源和通信带宽。

所以,我们认为,独立NPU具有独立的显存和足够大的带宽,可以将专用的LLM/VLM负载从主处理CPU或图形渲染GPU上进行卸载,从而在游戏AIPC、会议终端OPS等智能终端市场中具有重要地位。

邵世佳  上海六联智能科技有限公司副总经理

NPU是端侧大模型本地运行的关键保障。它能更高效、持续地运行AI任务,既不至于像GPU那样高功耗,也不会占用CPU的(de)通(tōng)用(yòng)算(suàn)力(lì)。与(yǔ)此(cǐ)同(tóng)时(shí),消(xiāo)费(fèi)终(zhōng)端(duān)运(yùn)行(xíng)时(shí),不(bù)同(tóng)类(lèi)型(xíng)的(de)处(chù)理(lǐ)器(qì)分(fēn)别(bié)发(fā)挥(huī)不(bù)同(tóng)的(de)作(zuò)用(yòng)。以(yǐ)电(diàn)脑(nǎo)产(chǎn)品(pǐn)为(wèi)例(lì),CPU主要(yào)负(fù)责(zé)统(tǒng)筹(chóu)和(hé)任(rèn)务(wu)调(diào)度(dù),保(bǎo)证(zhèng)系(xì)统(tǒng)整(zhěng)体(tǐ)流(liú)畅(chàng);GPU负责处理高并发、复杂的推理和生成任务;NPU则常驻运行轻量化大模型,以实现高效、低功耗的智能服务。三者协同,才能使AIPC具备性能和能效优势,为用户提供长时间的智能体验。


[相关消息]
Copyright@ 2025 半导体科技(上海)有限公司 【平台官方网站】 版权所有  黑ICP备20001429号 RSS 用户登录入口
地址:上海市浦东新区申迪南路88号8楼
邮箱:pocketGamesSoft@hljjljx.com
电话:400-88786655
手机:158 8536 2750 张先生
版权所有(2025):半导体科技(上海)有限公司