破解大模子算力困局？国产GPU用“AI工场”给出谜底

发布日期：2025-07-28 17:11 点击次数：187

（原标题：破解大模子算力困局？国产GPU用“AI工场”给出谜底）

公众号难忘加星标，第一时辰看推送不会错过。

东谈主工智能繁荣发展，AI芯片成为全球询查热门。凭借GPU先发上风，英伟达在当先算力和友好生态的支捏下近乎把持市集，公司功绩和市值屡创新高。AMD CEO Lisa Su在日前的采访中也预测谈：“仅用于AI和大型诡计系统的加快器市集限制在几年内就会杰出 5000 亿好意思元。”恰是在这么的市集近况下，不管是作念芯片的，照旧使用芯片的，都对加快诡计倍加暖和，进而催生了倚恃不同架构、不同本领的算力演进之路。

活着界东谈主工智能大会WAIC前夜，国内全功能GPU厂商摩尔线程带来了他们的共享与最新现实。摩尔线程创举东谈主兼CEO张建中默示，在面向翌日的AI基础顺次设立中，具备诡计功能完备性与精度完好性的全功能GPU，将是撑捏多元场景的中枢基石。基于此，摩尔线程正试图打造分娩智能的“AI工场”，以系统级的本领创新和工程化的才智，栽植AGI时间先进模子的分娩恶果。

全功能GPU，捏续加快诡计

在摩尔线程看来，算力更正的进化史，等于一部全功能GPU的发展史。

上世纪末面世的第一张游戏卡只干一件事——加快3D图形诡计，其他任务都是CPU来完成。这种居品有点访佛当下的ASIC：任务单一，不活泼，很难编程。对顺次员、开发者来讲不太友好；到了本世纪初，咱们才确凿迎来了图形处理器，因为它确凿通达了编程接口，每个东谈主都不错在上头开发，发扬各自的创意。

参预21世纪第二个十年，DirectX 12的推出给GPU带来了更多的可能。而跟着多伦多大学联系生Alex Krizhevsky和Ilya Sutskever偏执导师Geoffrey Hinton开发的AlexNet在ImageNet比赛上大杀四方之后，GPU加快了东谈主工智能时间的到来。

盘货全球排行TOP 100的HPC，当中80%都是被GPU厂商占据，这意味着GPU的通用性，加快了图形图像、超等诡计、东谈主工智能等一系列诡计平台的更正。换而言之，现时险些所相关键算力，都已由全功能GPU承载。

所谓全功能GPU有四大中枢引擎：一是AI诡计加快；二是当代3D图形渲染；三是物理仿真和科学诡计；四是超高清视频编解码。与此同期，全功能GPU具备全精度诡计，支捏从FP64至INT8的完好精度谱系。

恰是基于全功能GPU的本领积存，成立于2020年的摩尔线程已构建起完好的诡计加快体系：告捷推出四代GPU架构和智能SoC居品，拓展出袒护AI智算、专科图形加快、桌面级图形加快等范围丰富完好的诡计加快居品矩阵，全面支捏云诡计、边际诡计及末端开垦市集，餍足从政务、企业智能诡计到个东谈主耗尽场景的多端倪需求。

围绕GPU的加快本领更正，还在捏续进化。这场更正的来源，以OpenAI发布ChatGPT开动，一场扬铃打饱读的生成式AI竞赛席卷全球。当先的开发者也正在当年所未有的速率更新大模子。行动这场“战争”的要道，聚焦“算力”的AI基础顺次正在以空前的速率扩建。

OpenAI CEO Sam Altman日前曾默示，将在本年年底前推出杰出 100 万个 GPU，翌日，他的见识是将GPU领稀有量提高100倍。xAI的创举东谈主Elon Musk随后也默示，“xAI 的见识是在 5 年内终结 5000 万个与 H100 相称的 AI 诡计才智（但能效更高）。”

在单卡算力有限的前提下。如何打造有用算力更雄壮的基础顺次，依然成为全球争夺的重心。

基于此，摩尔线程将打造分娩先进模子的“AI工场”，以系统级本领创新和工程才智，致力于处理大模子历练恶果瓶颈，为AGI时间提供可靠的底层算力撑捏。

在摩尔线程看来， “AI工场”是一个系统性、全处所的变革，需要终结从底层芯片架构创新、到集群全体架构优化，再到软件算法调优和资源转变系统的全面升级。这种全处所的基础顺次变革，将鼓励AI历练从千卡级向万卡级乃至十万卡级限制演进，以系统级工程终结分娩力和创新恶果的飞跃。

五大本领构建“AI工场”

如图所示，这座“AI工场”的智能“产能”，由五大中枢身分共同决定，其恶果公式可概述为：AI工场分娩恶果 = 加快诡计通用性 × 单芯片有用算力 × 单节点恶果 × 集群恶果 × 集群领路性。

起先看加快通用性方面，如前文所说，这是摩尔线程从成立着手就坚捏全功能GPU的发展标的。在领有了全功能GPU之后，还需要有“全精度”。行动国内一丝数具备FP8大模子历练平台，能把历练和推理集成到一谈的企业，是摩尔线程的另一个上风。

其次看单芯片有用算力，而架构作是芯片瞎想的中枢基础，决定了芯片的功能、性能和功耗等要道策画。这时候，公司自研架构的上风就有余线路出来。

据先容，摩尔线程自研的MUSA架构不仅摧毁了传统GPU功能单一的终结，还在保险通用性的同期显赫栽植资源应用率。其参数化设置可伸缩架构，允许面向见识市集快速编著出优化的芯片设置，大幅数落了新品芯片的开发资本。行动国内首批终结FP8算力量产的GPU厂商，其FP8本领通过快速方法转变、动态范围智能适配和高精度累加器等创新瞎想，在保证诡计精度的同期，将Transformer诡计性能栽植约30%。

恰是基于这个先进架构，让摩尔线程在单芯片GPU上即可集成AI诡计加快、图形渲染、物理仿真及超高清视频编解码才智，充分适配AI训推、具身智能、AIGC等各样化应用场景。在诡计精度方面，摩尔线程支捏从FP64至INT8的完好精度谱系，并通过FP8夹杂精度本领，在主流前沿大模子历练中终结20%~30%的性能跃升，为国产GPU的算力恶果成立行业标杆。

这还远远不够，内存系统方面，摩尔线程通过多精度近存规约引擎、低延伸Scale-Up、通算并行资源终止等本领，终结了50%的带宽从简和60%的延伸数落。在通讯和互联范围，开创的ACE异步通讯引擎减少了15%的诡计资源损耗。通过上述诡计、内存、通讯三重摧毁，显赫栽植单芯片有用算力。

来到“单节点诡计恶果”方面，要在这方面终结栽植，珺牛优配则需要全栈的系统软件。

据先容，在软件栈方面，摩尔线程起先通过提供高效的GPU驱动栽植了工监犯果（核函数启动时辰镌汰50%）；在算子方面，摩尔线程的muDNN算子也赢得了极致的性能优化（GEMM算子算力应用率达98%，Flash Attention 算子算力应用率摧毁95%）；至于通讯方面，摩尔线程让MCCL通讯库终结RDMA网罗97%带宽应用率；基于异步通讯引擎优化诡计通讯并行，集群性能栽植10%。

此外，摩尔线程在细粒度方面不错重诡计，这亦然一个相称热切的点，让历练精度能保捏更高，累计误差更小。摩尔线程的FP8优化与重诡计本领显赫数落了历练支出。

要赢得一个高恶果的节点，除了软件栈以外，生态系统的支捏和匡助也相称热切。

于是，为了让路发者更好地将算力强盛的芯片用起来，摩尔线程打造了包括Torch Profiler，监控、不断，performance tuning等在内的一套完好的软件开发器用。在这些器用和生态的支捏下，开发者能让摩尔线程的软硬件的衔尾使命，栽植全体的恶果和性能。如图所示，摩尔线程基于Triton-MUSA编译器 + MUSA Graph 终结DeepSeek R1推理加快1.5倍，全面兼容Triton等主流框架。

为了栽植“AI工场”的分娩恶果，还需要暖和“集群恶果”和“集群领路性”。

所谓的AI算力集群，是指通过高速网罗，将多数高性能诡计节点互联，从而酿成的一种踱步式诡计系统。在单卡或单节点，甚而超节点算力受限确当下，这是发展AGI的必经之路。因此，如何将恶果和领路性提高，就成为评价一个集群是否好用的要道。这亦然摩尔线程“夸娥”集群致力于终结的见识。

而已娇傲，“夸娥”是摩尔线程推出的，以全功能GPU为硬件中枢，软硬一体化、完好的系统级算力处理有策画，旨在为大限制GPU算力的设立和运营不断提供系统级支捏。KUAE为智算中心提供端到端处理有策画，支捏万卡级限制彭胀才智，单集群可部署超1，000个诡计节点，每节点集成8颗自研OAM模组化GPU，通过3D全互联拓扑终结亚微秒级通讯延伸，为大模子预历练提供领路高效的算力撑捏。其中，KUAE1是支捏千卡互联的第一代智算交融中心居品；KUAE2是2024年底推出的第二代大限制智算交融中心居品，支捏万卡互联。

据先容，借助整合数据、模子、张量、活水线和大众并行本领创新5D并行历练，夸娥全面支捏Transformer等主流架构，显赫栽植大限制集群历练恶果；基于自主研发的Simumax器用，夸娥能面向超大限制集群自动搜索最优并行计策，精确模拟FP8夹杂精度历练与算子交融，为DeepSeek等模子镌汰历练周期提供科学依据；针对大模子领路性用功，夸娥还创新CheckPoint加快有策画应用RDMA本领，将百GB级备份收复时辰从数分钟压缩至1秒，栽植GPU有用算力应用率。

为了保证夸娥领路运行，摩尔线程创新推出零中断容错本领，故障发生时仅终止受影响节点组，其余节点陆续历练，备机无缝接入，全程无中断。这一有策画使KUAE集群有用历练时辰占比超99%，大幅数落收复支出。此外，KUAE集群还通过多维度历练知悉体系缚果动态监测与智能会诊，特别处理恶果栽植50%；结书籍群巡检与腾飞检查，历练告捷率提高10%，为大限制AI历练提供领路保险。

赋能开发者，奇迹千行百业

从图形渲染基石到AI算力引擎，摩尔线程全功能GPU捏续加快诡计纠正。以“KUAE+MUSA”为智算业务中枢，摩尔线程将加快赋能千行百业，鼓励全功能GPU驱动的AI本领在物理仿真、AIGC、科学诡计、具身智能、智能体、医疗影像分析、工业大模子等要道范围的应用与部署。

量度翌日，摩尔线程但愿能通过全功能的GPU和“AI工场”，用好的推理引擎，赋能更多开发者，让他们奇迹千行百业。

在WAIC 2025现场，摩尔线程还展示了相连国内科研机构，基于国产SPONGE和DSDP软件，打造的软硬件协同的人命科学处理有策画；在物理仿真方面，摩尔线程联袂硒钼科技，开启AI for Science科研新范式；此外，摩尔线程还带来了相连超图共同构建的、袒护历练、推理到可视化的完好国产化链条的遥感大模子处理有策画，补皆了遥感智能解译有策画宇宙产要道一环。

不仅如斯，全功能GPU赋能的创娱判辨、智能制造、聪慧医疗和智能驾驶，亦然摩尔线程WAIC 2025展位上其他不得不提的亮点。

正如大众所见，东谈主工智能正在改变每一个行业，但要终结确凿的东谈主工智能，需要濒临的挑战无须置疑。因此，笔者以为。领有夯实本领底座的摩尔线程，势必能在“AI+时间”演出热切变装。

*免责声明：本文由作家原创。著述本色系作家个东谈主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或支捏，淌若有任何异议，迎接相关半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第4108期本色，迎接暖和。

加星标第一时辰看推送，小号防走丢

求保举

下一篇：净利增超10%！4家银行，功绩预喜！

热点资讯

相关资讯

让建站和SEO变得简单

破解大模子算力困局？国产GPU用“AI工场”给出谜底