【对话/ 观察者网 心智观察所】,AI大模型对于超大规模算力集群的依赖,已然成为当代通识,尽管其中的GPU这一组成要素已被近乎奉上神坛,但算力集群的表现,依然极大程度上取决于其他软硬件要素的综合集成与优化,这一基本特点,正是中国产业界面对外部遏制的破局关键。,从大模型算法结构创新,到通信协议等软件层面打通异构混训,再到超大规模集群网络互联架构的软硬件创新,大量原始创新成果正在中国产业界涌现。,日前,心智观察所与奇异摩尔联合创始人、产品及解决方案副总裁祝俊东进行了一次深入交流。,

,这家定位于以互联为中心,为超大规模AI计算平台提供高性能互联解决方案的厂商,依托Chiplet和高性能RDMA技术,在这一领域走出了一条新路:,
心智观察所:很高兴能有机会和您交流。说起AI大模型训推,我们知道在硬件上除了加速卡,网络互联架构也至关重要,能否请您先谈谈对目前技术趋势的观察?,
奇异摩尔祝俊东:最近这几年,AI大模型确实发展很快,我们可以看到整个网络训练规模其实在不断增长。海外大模型训练集群规模已经从万卡级增长到10万卡乃至20万卡了,从国内来看,训练规模其实也比较大了,尽管没有那么高的单卡算力,但我们也看到了一个很好的发展趋势,包括现在涌现出非常火的DeepSeek。所以不管是国内还是国外,其实对于大模型的训练现在都是在快速发展的一个阶段。,在谈AI大模型算力集群前,我们先来看传统数据中心是怎么样的,它的网络架构相对比较简单,通用计算网络的话更多是一个多租户体系,服务上千万甚至更多的用户,共用一个云端数据中心。现在AI大模型的特点则是把一个非常大的集群用来服务于数量有限的大模型训练任务,这就对于算力硬件之间的互联提出了非常高的要求。比如传输带宽上,从以往100G/200G,现在在向400G/800G乃至1.6T演进,整个数据交换的规模如果是一个10万卡集群,那不管是我们讲北向Scale Out(网间互联)的网络,还是说南向Scale Up(GPU互联)的网络,都要做大量的数据交互,因此AI算力集群网络的性能、规模以及它的复杂性都是指数级上升。,从推理的需求来看,也在发生变化。过去单卡单用户或者单卡多用户的方案很流行,但最近一段时间我们看到推理系统的规模也在变得更大,像DeepSeek的云端推理集群已经到了几百卡的规模甚至上千卡。多机之间组成超节点(HBD)的方案正在快速增加,它对于scale up网络的要求非常高,这就是我们看到特别是在云端AI互联架构的一些发展。,
心智观察所:我知道奇异摩尔是一家Chiplet和互联技术见长的企业,对于当前大模型训推的技术趋势,你们有什么样的回应?,
奇异摩尔祝俊东:现在大家更多会讲集群算力,从集群算力来讲的话,我们可以把它分为几个层面。最微观的层面当然还是计算芯片本身,从芯片本身来说算力当然是越高越好,但你应该知道随着摩尔定律放缓,芯片本身的算力密度增长趋势也在放缓,所以各家大公司类似AMD、Intel不约而同采用Chiplet技术来把芯片做得性能更高、更复杂,在这个层面也就是片内互联,奇异摩尔会提供比方说Chiplet互联芯粒2.5D/3D IO Die、Die2Die IP,把芯片内部更多计算单元连接起来。这是第一个层面,通过这种方式让单芯片算力保持持续增长。,第二个层面就是刚刚说到的超节点,你可以理解成数据中心里面一个小的机柜集群,它通常由几台不同的服务器来组成一个小规模但是超高带宽的集群。这里面就会涉及到Scale Up的网络,英伟达这样的厂商可以自己做,但是对于其他厂商来说,这一块是一个相对比较大的短板,奇异摩尔可以提供一种GPU片间互联的Die(又名NDSA-G2G),通过这种方式帮助其他厂商用我们的技术把片内互联转成超节点之间的互联,这是第二个层面。,再往上第三个层面,就是大模型的训练和推理,特别是训练层面,你还是要构建更大规模的集群对吧?这就需要我们所说的智能网卡。AI训推集群比方说10万张卡,中间有大量的跨节点数据交互,它对网络数据交换性能要求非常高,所以我们另外一个产品就是基于AI原生的智能网卡,可以提供非常高的带宽,作为国产网卡替代主流国外厂商的高性能网卡。我们通过这三个层面的技术能力,可以为国内算力集群用户提供端到端互联架构解决方案,从片内到片间到网间。,

,
心智观察所:RDMA(远程直接内存访问)技术也是当下算力集群网络的热门概念,能否再展开分享一些这方面的信息?,
奇异摩尔祝俊东:这里面有几个方面,首先是性能,比如带宽、延时以及数据传输效率,我们通过高性能RDMA引擎能够达到800G传输速率、几百纳秒的延时,从性能来说是非常好的;第二呢是因为只有点对点的性能是不够的,因为特别是大规模训练的时候,其实有非常高的复杂网络需求,比如容易产生拥塞,而在我们的产品里引入了新的拥塞监测以及处理算法,能够极大提高拥塞处理效率;第三个是所谓的多路径传输,因为在复杂网络环境需要从多条路径传输,我们对于多径传输引入了优化算法,可以自动选择最适合的路径进行传输,对于常见的乱序问题,我们的产品引入了乱序重排的算法,可以满足网络对于乱序恢复的需求。通过这些技术就可以在有损大规模网络里有效部署RDMA方案,让十万卡甚至以上规模集群达到95%甚至更高传输效率。
推荐阅读:
人保车险|细数车险缴费的几种方式
人保车险|异地买车险可行吗?有哪些优缺点?
人保车险|车过户保险怎么办 需要注意哪些事项
人保车险|车险怎么搭配更划算?
人保车险|驾驶证信息知多少,快来看看吧!
人保车险|新能源汽车保险注意点,请看这!
中国移动董事长杨杰:算启新程 智享未来
资本市场多措并举服务民营企业直接融资 为民营经济健康发展提供有力支持
银行跟着新市民走 服务送到打工地
农业工业化:农业现代化的另一种解释