珺牛优配

让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

破解大模子算力困局?国产GPU用“AI工场”给出谜底

发布日期:2025-07-28 17:11    点击次数:186

(原标题:破解大模子算力困局?国产GPU用“AI工场”给出谜底)

公众号难忘加星标,第一时辰看推送不会错过。

东谈主工智能繁荣发展,AI芯片成为全球询查热门。凭借GPU先发上风,英伟达在当先算力和友好生态的支捏下近乎把持市集,公司功绩和市值屡创新高。AMD CEO Lisa Su在日前的采访中也预测谈:“仅用于AI和大型诡计系统的加快器市集限制在几年内就会杰出 5000 亿好意思元。”恰是在这么的市集近况下,不管是作念芯片的,照旧使用芯片的,都对加快诡计倍加暖和,进而催生了倚恃不同架构、不同本领的算力演进之路。

活着界东谈主工智能大会WAIC前夜,国内全功能GPU厂商摩尔线程带来了他们的共享与最新现实。摩尔线程创举东谈主兼CEO张建中默示,在面向翌日的AI基础顺次设立中,具备诡计功能完备性与精度完好性的全功能GPU,将是撑捏多元场景的中枢基石。基于此,摩尔线程正试图打造分娩智能的“AI工场”,以系统级的本领创新和工程化的才智,栽植AGI时间先进模子的分娩恶果。

全功能GPU,捏续加快诡计

在摩尔线程看来,算力更正的进化史,等于一部全功能GPU的发展史。

上世纪末面世的第一张游戏卡只干一件事——加快3D图形诡计,其他任务都是CPU来完成。这种居品有点访佛当下的ASIC:任务单一,不活泼,很难编程。对顺次员、开发者来讲不太友好;到了本世纪初,咱们才确凿迎来了图形处理器,因为它确凿通达了编程接口,每个东谈主都不错在上头开发,发扬各自的创意。

参预21世纪第二个十年,DirectX 12的推出给GPU带来了更多的可能。而跟着多伦多大学联系生Alex Krizhevsky和Ilya Sutskever偏执导师Geoffrey Hinton开发的AlexNet在ImageNet比赛上大杀四方之后,GPU加快了东谈主工智能时间的到来。

盘货全球排行TOP 100的HPC,当中80%都是被GPU厂商占据,这意味着GPU的通用性,加快了图形图像、超等诡计、东谈主工智能等一系列诡计平台的更正。换而言之,现时险些所相关键算力,都已由全功能GPU承载。

所谓全功能GPU有四大中枢引擎:一是AI诡计加快;二是当代3D图形渲染;三是物理仿真和科学诡计;四是超高清视频编解码。与此同期,全功能GPU具备全精度诡计,支捏从FP64至INT8的完好精度谱系。

恰是基于全功能GPU的本领积存,成立于2020年的摩尔线程已构建起完好的诡计加快体系:告捷推出四代GPU架构和智能SoC居品,拓展出袒护AI智算、专科图形加快、桌面级图形加快等范围丰富完好的诡计加快居品矩阵,全面支捏云诡计、边际诡计及末端开垦市集,餍足从政务、企业智能诡计到个东谈主耗尽场景的多端倪需求。

围绕GPU的加快本领更正,还在捏续进化。这场更正的来源,以OpenAI发布ChatGPT开动,一场扬铃打饱读的生成式AI竞赛席卷全球。当先的开发者也正在当年所未有的速率更新大模子。行动这场“战争”的要道,聚焦“算力”的AI基础顺次正在以空前的速率扩建。

OpenAI CEO Sam Altman日前曾默示,将在本年年底前推出杰出 100 万个 GPU,翌日,他的见识是将GPU领稀有量提高100倍。xAI的创举东谈主Elon Musk随后也默示,“xAI 的见识是在 5 年内终结 5000 万个与 H100 相称的 AI 诡计才智(但能效更高)。”

在单卡算力有限的前提下。如何打造有用算力更雄壮的基础顺次,依然成为全球争夺的重心。

基于此,摩尔线程将打造分娩先进模子的“AI工场”,以系统级本领创新和工程才智,致力于处理大模子历练恶果瓶颈,为AGI时间提供可靠的底层算力撑捏。

在摩尔线程看来, “AI工场”是一个系统性、全处所的变革,需要终结从底层芯片架构创新、到集群全体架构优化,再到软件算法调优和资源转变系统的全面升级。这种全处所的基础顺次变革,将鼓励AI历练从千卡级向万卡级乃至十万卡级限制演进,以系统级工程终结分娩力和创新恶果的飞跃。

五大本领构建“AI工场”

如图所示,这座“AI工场”的智能“产能”,由五大中枢身分共同决定,其恶果公式可概述为:AI工场分娩恶果 = 加快诡计通用性 × 单芯片有用算力 × 单节点恶果 × 集群恶果 × 集群领路性。

起先看加快通用性方面,如前文所说,这是摩尔线程从成立着手就坚捏全功能GPU的发展标的。在领有了全功能GPU之后,还需要有“全精度”。行动国内一丝数具备FP8大模子历练平台,能把历练和推理集成到一谈的企业,是摩尔线程的另一个上风。

其次看单芯片有用算力,而架构作是芯片瞎想的中枢基础,决定了芯片的功能、性能和功耗等要道策画。这时候,公司自研架构的上风就有余线路出来。

据先容,摩尔线程自研的MUSA架构不仅摧毁了传统GPU功能单一的终结,还在保险通用性的同期显赫栽植资源应用率。其参数化设置可伸缩架构,允许面向见识市集快速编著出优化的芯片设置,大幅数落了新品芯片的开发资本。行动国内首批终结FP8算力量产的GPU厂商,其FP8本领通过快速方法转变、动态范围智能适配和高精度累加器等创新瞎想,在保证诡计精度的同期,将Transformer诡计性能栽植约30%。

恰是基于这个先进架构,让摩尔线程在单芯片GPU上即可集成AI诡计加快、图形渲染、物理仿真及超高清视频编解码才智,充分适配AI训推、具身智能、AIGC等各样化应用场景。在诡计精度方面,摩尔线程支捏从FP64至INT8的完好精度谱系,并通过FP8夹杂精度本领,在主流前沿大模子历练中终结20%~30%的性能跃升,为国产GPU的算力恶果成立行业标杆。

这还远远不够,内存系统方面,摩尔线程通过多精度近存规约引擎、低延伸Scale-Up、通算并行资源终止等本领,终结了50%的带宽从简和60%的延伸数落。在通讯和互联范围,开创的ACE异步通讯引擎减少了15%的诡计资源损耗。通过上述诡计、内存、通讯三重摧毁,显赫栽植单芯片有用算力。

来到“单节点诡计恶果”方面,要在这方面终结栽植,珺牛优配则需要全栈的系统软件。

据先容,在软件栈方面,摩尔线程起先通过提供高效的GPU驱动栽植了工监犯果(核函数启动时辰镌汰50%);在算子方面,摩尔线程的muDNN算子也赢得了极致的性能优化(GEMM算子算力应用率达98%,Flash Attention 算子算力应用率摧毁95%);至于通讯方面,摩尔线程让MCCL通讯库终结RDMA网罗97%带宽应用率;基于异步通讯引擎优化诡计通讯并行,集群性能栽植10%。

此外,摩尔线程在细粒度方面不错重诡计,这亦然一个相称热切的点,让历练精度能保捏更高,累计误差更小。摩尔线程的FP8优化与重诡计本领显赫数落了历练支出。

要赢得一个高恶果的节点,除了软件栈以外,生态系统的支捏和匡助也相称热切。

于是,为了让路发者更好地将算力强盛的芯片用起来,摩尔线程打造了包括Torch Profiler,监控、不断,performance tuning等在内的一套完好的软件开发器用。在这些器用和生态的支捏下,开发者能让摩尔线程的软硬件的衔尾使命,栽植全体的恶果和性能。如图所示,摩尔线程基于Triton-MUSA编译器 + MUSA Graph 终结DeepSeek R1推理加快1.5倍,全面兼容Triton等主流框架。

为了栽植“AI工场”的分娩恶果,还需要暖和“集群恶果”和“集群领路性”。

所谓的AI算力集群,是指通过高速网罗,将多数高性能诡计节点互联,从而酿成的一种踱步式诡计系统。在单卡或单节点,甚而超节点算力受限确当下,这是发展AGI的必经之路。因此,如何将恶果和领路性提高,就成为评价一个集群是否好用的要道。这亦然摩尔线程“夸娥”集群致力于终结的见识。

而已娇傲,“夸娥”是摩尔线程推出的,以全功能GPU为硬件中枢,软硬一体化、完好的系统级算力处理有策画,旨在为大限制GPU算力的设立和运营不断提供系统级支捏。KUAE为智算中心提供端到端处理有策画,支捏万卡级限制彭胀才智,单集群可部署超1,000个诡计节点,每节点集成8颗自研OAM模组化GPU,通过3D全互联拓扑终结亚微秒级通讯延伸,为大模子预历练提供领路高效的算力撑捏。其中,KUAE1是支捏千卡互联的第一代智算交融中心居品;KUAE2是2024年底推出的第二代大限制智算交融中心居品,支捏万卡互联。

据先容,借助整合数据、模子、张量、活水线和大众并行本领创新5D并行历练,夸娥全面支捏Transformer等主流架构,显赫栽植大限制集群历练恶果;基于自主研发的Simumax器用,夸娥能面向超大限制集群自动搜索最优并行计策,精确模拟FP8夹杂精度历练与算子交融,为DeepSeek等模子镌汰历练周期提供科学依据;针对大模子领路性用功,夸娥还创新CheckPoint加快有策画应用RDMA本领,将百GB级备份收复时辰从数分钟压缩至1秒,栽植GPU有用算力应用率。

为了保证夸娥领路运行,摩尔线程创新推出零中断容错本领,故障发生时仅终止受影响节点组,其余节点陆续历练,备机无缝接入,全程无中断。这一有策画使KUAE集群有用历练时辰占比超99%,大幅数落收复支出。此外,KUAE集群还通过多维度历练知悉体系缚果动态监测与智能会诊,特别处理恶果栽植50%;结书籍群巡检与腾飞检查,历练告捷率提高10%,为大限制AI历练提供领路保险。

赋能开发者,奇迹千行百业

从图形渲染基石到AI算力引擎,摩尔线程全功能GPU捏续加快诡计纠正。以“KUAE+MUSA”为智算业务中枢,摩尔线程将加快赋能千行百业,鼓励全功能GPU驱动的AI本领在物理仿真、AIGC、科学诡计、具身智能、智能体、医疗影像分析、工业大模子等要道范围的应用与部署。

量度翌日,摩尔线程但愿能通过全功能的GPU和“AI工场”,用好的推理引擎,赋能更多开发者,让他们奇迹千行百业。

在WAIC 2025现场,摩尔线程还展示了相连国内科研机构,基于国产SPONGE和DSDP软件,打造的软硬件协同的人命科学处理有策画;在物理仿真方面,摩尔线程联袂硒钼科技,开启AI for Science科研新范式;此外,摩尔线程还带来了相连超图共同构建的、袒护历练、推理到可视化的完好国产化链条的遥感大模子处理有策画,补皆了遥感智能解译有策画宇宙产要道一环。

不仅如斯,全功能GPU赋能的创娱判辨、智能制造、聪慧医疗和智能驾驶,亦然摩尔线程WAIC 2025展位上其他不得不提的亮点。

正如大众所见,东谈主工智能正在改变每一个行业,但要终结确凿的东谈主工智能,需要濒临的挑战无须置疑。因此,笔者以为。领有夯实本领底座的摩尔线程,势必能在“AI+时间”演出热切变装。

*免责声明:本文由作家原创。著述本色系作家个东谈主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或支捏,淌若有任何异议,迎接相关半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第4108期本色,迎接暖和。

加星标第一时辰看推送,小号防走丢

求保举



热点资讯
相关资讯


Powered by 珺牛优配 @2013-2022 RSS地图 HTML地图

建站@kebiseo; 2013-2024 万生优配app下载官网 版权所有