一位很久未联系的朋友,突然问了我们一个问题:最近总是刷到超节点的帖子,这到底是个什么技术?

一个星期前的华为HC 2025上,正式抛出了“超节点”的概念,朋友圈、行业群乃至资本市场,几乎都在一夜之间都被“超节点”刷屏。原本只在算力行业讨论的话题,迅速走进了大众视野。

进一步翻看过去两个月的新闻,和“超节点”概念有关联的不只是华为,百度、浪潮、腾讯、字节跳动等都官宣了超节点服务器的布局,已然成了算力产业的新风向,演变为一种新的产业叙事。

问题来了:为什么“超节点”能一夜走红?到底是什么样的创新?又将怎么改变AI产业的格局?

让我们来一一回答。

01 一场应用驱动的架构革命

回答超节点概念走红的原因前,先来梳理下大模型的现状:

在大模型训练层面,正沿着“规模定律”不断演进,参数与集群规模实现了“双万”跨越,即大模型参数从亿级跃迁至万亿级,训练集群从“万卡”走向“十万卡”,呈现出了惊人的倍数级增长趋势。

在大模型推理层面,当前中国的日均Token消耗量已经超过30万亿,考虑到Agentic AI、Physical AI的演变趋势,推理需求还将指数级增长,要求计算集群同时满足低时延、高吞吐的需求。

这些变化和“超节点”有什么关系呢?

9月18日举办的昇腾AI人工智能产业峰会上,中国信息通信研究院、中国电子技术标准化研究院、全球计算联盟GCC、国家信息中心携手产业界正式发布了《超节点发展报告》,给出了专业的解释。

传统的服务器集群主要采用“横向扩展”的架构,能够很好地适配松耦合的计算负载,但不同机柜间由于线性度的影响会有算力性能损失,导致1+1<2。确切地说,面临着三重系统性挑战:

首先是通信墙,千亿级模型一次梯度同步就有TB级的数据,传统以太网难以承受;其次是功耗与散热墙,为破通信墙而提升密度,促使液冷、48V供电成标配;以及复杂度墙,万卡集群进一步抬升了运维复杂度。

时间回到2025年4月,“超节点”成了技术圈的热门话题,原因是华为实现了业界最大规模的384卡高速总线互联。

和传统集群的最大区别,昇腾采用了“以网联算”的技术路径,基于高速互联总线突破了算力协同瓶颈,让计算集群像一台计算机一样高效工作,并可实现“一卡一专家”并行推理。

昇腾验证了超节点技术的可行性,这场架构革命激起的涟漪,迅速在产业中扩散,算力厂商纷纷拥抱“超节点”。

02 “超节点”的三个技术特征

怎么判断什么是真正的“超节点“呢?最直观的指标无疑是性能。《超节点发展报告》归纳了三个技术特征:

一是超大带宽。

传统计算集的卡间互联依赖PCIe或以太网,目前跨服务器互联带宽多为50Gb/s上下。在千亿级模型训练的并行计算场景中,频繁的GB级数据传输造成的通信阻塞,会导致计算等待通信,浪费算力资源。

“超节点”的高速互联协议打破了传统的架构限制,可实现更大范围、更高流量的数据传输。以昇腾384超节点为例,通信带宽提升了15倍,即使是千卡集群也能像“单机多卡”一样高效协同,告别“等数传”的现象。

二是超低时延。

跨服务器互联带宽的时延普遍高达数十微秒,同样是制约算力利用率的诱因。特别是MoE模型,要求在不同专家间频繁调度数据,如果互联带宽和时延跟不上,模型规模越大就越难跑起来。

还是以昇腾384超节点为例,单跳通信时延从2微秒做到了200纳秒,降低了整整10倍。比性能指标更有说服力的,是实战中的表现,比如在DeepSeek、Qwen等多模态、MoE模型的并行计算中,昇腾384超节点的通信效率实现了3倍以上的提升。

三是内存统一编址。

传统集群的每个节点有独立的内存池,而“超节点”实现了跨设备的统一寻址与灵活访问,大模型训练中频繁的参数同步操作,不再需要“序列化—网络传输—反序列化”流程,直接通过内存语义通信完成,大幅提升了小包传输与离散随机访存的效率。

在访问模式上,超节点还应支持异步与同步两种机制,满足客户在不同场景下的需求:批量数据的快速传输与处理,采用能够高效进行大块数据搬移的异步模式;对小块数据的精细化处理,则采用同步模式。

不难发现,“超节点”最大的技术挑战在于互联技术,如何做到长距离且高可靠、如何做到大带宽且低时延,都不是一朝一夕可以解决的。相对乐观的是,走开源开放模式的昇腾,在互联技术上没有“藏私”。

在HC 2025上,华为正式发布了灵衢——一个面向超节点的互联协议,并宣布将开放灵衢2.0技术规范。

“灵衢”的命名,可以追溯到“九省通衢”,寄托了大规模算力联通的愿景,也是华为从2019年就开始研究的技术。无论是前面提到的昇腾384超节点,还是支持8192张卡的Atlas 950超节点,都是基于“灵衢”开创的。在业内人士看来,灵衢的革命意义不亚于AI基础设施的再造。

不只是互联协议的开放,华为还将全面开放超节点技术,包括开放超节点参考架构、开放超节点基础硬件、开源操作系统灵衢组件等,允许产业界基于技术规范自研相关产品或部件,自主设计基于灵衢的各种产品。

同时也意味着,坚持硬件开放、软件开源的华为,希望和伙伴打造面向行业的超节点场景化解决方案,让超大带宽、超低时延、内存统一编址成为一种算力新范式。

03 来自产业侧的认可与回应

最能回答“超节点”价值的,无疑是需求最强烈、嗅觉最敏锐、行动最迅捷的大中型企业,他们处在AI落地的第一线,既是大模型应用的生力军和探路者,也是检验创新成败和成效的风向标。

比如昇腾AI人工智能产业峰会和《超节点发展报告》提及的几个行业案例。

第一个是制造业。

家电作为典型的高频使用场景,早在2015年前后就开始探索AI语音交互、智能感知等功能的应用。到了大模型时代,涵盖研发、制造、渠道、服务全链条的家电厂商,为AI的全面落地提供了天然土壤。

其中昇腾超节点为某家电巨头开展模型训练提供了坚实支撑,双方联合优化算力利用率,加速了AIGC战略落地。目前AI已经在158个核心场景中落地应用,包括企业经营提效、业务模式创新和商业模式升级。

第二个是金融行业。

如果说家电是“场景驱动+终端规模”的AI应用先锋,金融就是“数据驱动+风险导向”的AI应用深水区,对提升金融安全性、提升效率、提升决策力,有着毋庸置疑的刚需,也是最早试水AI的行业。

某银行携手昇腾构建了高性能千卡训推算力集群,并部署了大规模专家并行推理方案,相比传统方案实现了3倍吞吐性能提升,加速了大模型的规模化应用,深度赋能智能客服、审贷助手、后训练数据合成等业务场景。

以及更普适的落地案例。

对于业务多元的行业大型集团来说,智能化转型的最大痛点不是怎么转,而是业务场景需求激增、低资源算力重复建设等问题,需要构建集中化、平台化的基础设施,避免因算力困局拖了业务的“后腿”。

某集团型企业的做法是引入昇腾384超节点,通过超节点的大规模、高带宽、低时延、算力切分、虚拟化、训推一体等能力,面向企业内部提供统一的大模型API服务,满足不同业务场景对训、推算力的需求,目前已经服务智慧运营、智慧管理、智慧运维等核心场景。

按照昇腾官方公布的数据:昇腾384超节点自发布以来,累计部署量已经超过300套,服务了20多家客户。

比数字更有价值的,或许是这些案例所揭示的一个事实:一旦产业一线的“头雁们”打破了算力瓶颈,爆发往往是指数级的。在海量场景和需求的牵引下,中大型企业AI落地的深度和广度,已然超出了许多人的想象。在“群起效应”的作用下,这些“头雁”将带动成千上万家企业迈向智能化。

04 写在最后

当我们谈论超节点时,不仅是在讨论一组组冷冰冰的性能指标,同时在展望一条通向未来的道路。

灵衢互联协议的开放、软硬件生态的共建,如同曾经的电力和互联网一样,将算力从“头部企业专属”带向了“全产业可用”。属于“超节点”的故事才刚刚开始,点亮的不只是算力的跃迁,还有智能化时代的序章。

特此声明
本文为正观号作者或机构在正观新闻上传并发布,仅代表该作者或机构观点,不代表正观新闻的观点和立场,正观新闻仅提供信息发布平台。
分享至

Alter聊科技

科技自媒体

+ 关注
查看更多文章

还没有评论,快来抢沙发吧!