5月22日|智譜近日推出GLM-5.1高速版API“GLM-5.1-highspeed”,其模型輸出速度達到400 tokens/s,刷新了當前全球大模型廠商API的速度上限。
長期以來,高速模型幾乎總是輕量級模型,但GLM-5.1高速版打破了這一行業慣例。它首次在國產大模型中,將旗艦級能力與極致低延遲同時帶入生產環境,用户無需再為響應速度犧牲模型質量。
實測顯示,在AI編程場景中,寫代碼彷彿開啟了10倍速,模型能夠一邊理解工程上下文,一邊持續生成代碼與修改方案;在3D遊戲中,玩家控制一個角色在3D地圖裏移動並輸入文字,模型會根據輸入的文字瞬時建模,場景實時改變,此前因延遲而無法實現的全新產品形態,開始真正具備落地可能;在交互界面上,在用户提出需求的那一刻,模型可以即時生成恰好匹配該需求的工具與交互,甚至可以做出意圖判斷。
實現這一速度的核心是TileRT高性能推理引擎。該引擎由智譜GLM團隊與TileRT團隊聯合打造,在推理引擎、調度系統與底層基礎設施三個層面進行了系統級優化。其設計思路是徹底拋棄Runtime層的動態調度,在編譯期(AOT)將整個計算圖靜態編排為一個常駐GPU的persistent Engine Kernel。
目前,GLM-5.1高速版適用於AI編程、實時交互、商業決策、實時語音等速度敏感場景,並通過智譜MaaS平台向部分企業客户開放。
新聞來源 (不包括新聞圖片): 格隆匯