【导语】12月18日光合组织2025人工智能创新大会上,中科曙光全球首发真机亮相的国产万卡级AI集群系统——scaleX万卡超集群,凭借单节点高算力集成、原生RDMA高速网络、存算传深度优化、数字孪生智能调度四大核心技术优势,为大模型训练、金融风控等多元场景提供强大算力支撑,成为“AI计算开放架构”最新重磅成果。
12月18日,在昆山举行的光合组织2025人工智能创新大会(HAIC2025)上,中科曙光发布并展出了全球(qiú)领(lǐng)先(xiān)的(de)大(dà)规(guī)模(mó)智(zhì)能(néng)计(jì)算(suàn)系(xì)统(tǒng)——scaleX万(wàn)卡(kǎ)超(chāo)集群(qún),这(zhè)也(yě)是(shì)国(guó)产(chǎn)万(wàn)卡(kǎ)级(jí)AI集群(qún)系(xì)统(tǒng)首(shǒu)次(cì)以(yǐ)真(zhēn)机(jī)形(xíng)式(shì)亮(liàng)相(xiāng)。


据(jù)了(le)解(jiě),此(cǐ)次(cì)发(fā)布(bù)的(de)万(wàn)卡(kǎ)超(chāo)集群(qún)具(jù)有(yǒu)四(sì)大(dà)核(hé)心(xīn)技(jì)术(shù)优(yōu)势(shì):
优(yōu)势(shì)一(yī),单(dān)节(jié)点(diǎn)实(shí)现(xiàn)640张(zhāng)算(suàn)力(lì)卡(kǎ)集成(chéng),算(suàn)力(lì)密(mì)度(dù)高(gāo)。scaleX万(wàn)卡(kǎ)超(chāo)集群(qún)由(yóu)16个(gè)曙(shǔ)光(guāng)scaleX640超节点通过scaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超过5EFlops。曙光scaleX640超节点采用超高密度刀片模块分区设计,使单机柜算力密度相较于国内领先产品的常规部署方式提升20倍,采用浸没相变液冷散热技术, 使集群PUE值(电源使用效率,数据中心总能耗与IT设备能耗的比值)降低至1.04。
优势二,自主研发原生RDMA高速网络,通信效率高。集群超节点间通信采用(yòng)曙(shǔ)光(guāng)scaleFabric网(wǎng)络(luò),基(jī)于(yú)国(guó)内(nèi)首(shǒu)款(kuǎn)400G 类(lèi)InfiniBand原(yuán)生(shēng)RDMA网(wǎng)卡(kǎ)与(yǔ)交(jiāo)换(huàn)芯(xīn)片(piàn),可实现400Gb/s超高带宽、同时端侧通信延迟低于1微秒,超节点间的通信性能达到业内领先水平,充分释放万卡超集群算力,并可将超集群规模扩展至10 万卡以上,传输速率相比传统InfiniBand网络提升2.33倍,同时网络总体成本降低30%。
优势三,存、算、传紧耦合深度优化,计算响应速度高。万卡超级群通过“超级隧道”、AI数据加速等设计,实现从芯片级、系统级到应用级的三级数据传输协同优化,使存力平台能够高效应对大模型训练时万卡并发读写带来的带宽极致需求挑战,高通量AI推理时的响应速度与结果精准度实现提升, AI加速卡资源利用率相较传统架构方案提高55%。
优势四,采用超集群数字孪生与智能调度技术,实现集群智能运营。集群通过物理集群数字孪生,实现故障定位、修复等全流程可视化智能管理;智能化运维平台可支撑集群长期可用性达99.99%;智能调度引擎可管理万级节点、服务十万级用户,支持每秒万级作(zuò)业(yè)调(diào)度(dù)。
9月(yuè)5日(rì),中(zhōng)科(kē)曙(shǔ)光(guāng)协(xié)同(tóng)20余(yú)家(jiā)产(chǎn)业(yè)链(liàn)伙(huǒ)伴(bàn),共(gòng)同(tóng)推(tuī)出(chū)了(le)“AI计(jì)算(suàn)开(kāi)放(fàng)架(jià)构(gòu)”。scaleX万(wàn)卡(kǎ)超(chāo)集群是 “AI计算开放架构”最新重磅成果,可支持多品牌加速卡以及主流计算生态,实现400多款主流大模型、世界(jiè)模(mó)型(xíng)等(děng)的(de)适(shì)配(pèi)优(yōu)化(huà)。在(zài)实(shí)际(jì)应用中,该超集群可服务于大模型训练、金融风控、地质能源勘探及科学智能等多元场景。




