5月21日|近日,智譜聯合馭馴網絡、清華大學在GLM-5.1的線上生產推理集羣中,成功規模化落地了新一代網絡架構ZCube。
隨着大模型推理需求爆發,特別是Prefill與Decode階段分離部署後,集羣內的數據傳輸呈現出高度的動態不對稱性。傳統網絡拓撲會因結構性問題產生難以調優的鏈路擁塞與熱點堆積等問題,成為制約萬卡級集羣性能釋放的瓶頸。
智譜ZCube架構以完全扁平化的GPU互聯方式,通過“單軌+多軌”混合接入的扁平化拓撲設計,確保全網任意兩張GPU有且僅有一條存在唯一最優路徑,從而在架構層面實現了網絡流量的理想負載均衡。這一創新被網絡領域頂會ACM SIGCOMM 2025評價為“顯著改變整個行業對網絡的認知方式”。
該架構在不新增或更換任何GPU、服務器,且軟件棧與業務代碼零改動的前提下,成功將集羣推理吞吐提升了15%以上,並將TTFT P99尾時延降低了40.6%。其所需的交換機與光模塊硬件成本較傳統方案節省了33%。在萬卡規模下,僅網絡硬件一項即可節省投資約2.1億至6.4億元。
幾乎在同一時期,OpenAI聯合NVIDIA、AMD、Intel、Microsoft、Broadcom等五大巨頭發布了MRC協議,並已部署於其最大規模超算集羣。兩大領先模型廠商同時動作,共同印證了網絡已成為超大規模AI基礎設施競爭的新戰場。
新聞來源 (不包括新聞圖片): 格隆匯