新闻动态 你的位置:蝴蝶兰 贴吧 > 新闻动态 > 字节跳动:2025年GPU Scale-up 互联技术白皮书_网络_语义_支持

字节跳动:2025年GPU Scale-up 互联技术白皮书_网络_语义_支持

发布日期:2025-05-26 00:06    点击次数:95

今天分享的是:字节跳动:2025年GPU Scale-up 互联技术白皮书

报告共计:24页

《字节跳动:2025年GPU Scale-up互联技术白皮书》聚焦AI发展下GPU集群互联技术,详细阐述了GPU架构、互联方案及字节跳动的创新成果。

1. AI发展推动GPU集群网络升级:机器学习和人工智能的发展,使AI模型对GPU集群数据处理能力需求攀升,需要扩大Scale-up网络规模。以太网技术在GPU集群互联中有优势,多个行业组织基于此开发相关网络技术,字节跳动也推出了满足AI应用需求的网络方案。

2. GPU架构与互联方案剖析:主流GPU架构支持Load-Store语义,计算引擎处理数据,LSU负责传输。新型GPU增加如TMA的传输模块优化数据传输。GPU互联有Scale-up和Scale Out网络,前者带宽高、时延小,基于Load/Store语义;后者带宽低、时延高,基于RDMA语义。

3. 下一代Scale-up互联方案需求与架构:下一代Scale-up网络需承接Load/Store和RDMA语义,满足不同数据传输需求,同时要实现远端Global Memory与本地Shared Memory的数据传输,简化RDMA接口等。其系统架构支持GPU通过两种语义执行不同操作,分别适用于时延敏感和带宽大、时延不敏感的场景。

展开剩余79%

4. EthLink网络方案优势与特性:EthLink是字节跳动自研的Scale-up网络协议,基于以太网构建,能承载Load/Store和RDMA语义。其协议栈分为Scale-Up语义层和Scale-up网络层,支持多种GPU操作,并通过优化链路层报文头降低开销。EthLink采用特定网络拓扑,支持端口负载均衡。在网络接口方面,设计了优化的报文头部提升负载率,选择低延迟FEC,支持链路层可靠传输,还建立了交换机与GPU间的状态反馈机制。

字节跳动的研究成果为GPU集群互联提供了创新思路和可行方案,有助于推动AI领域的进一步发展。

以下为报告节选内容

发布于:广东省

Powered by 蝴蝶兰 贴吧 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 2013-2026