隨著AI算力集群規模指數級增長,網絡架構復雜度陡增。傳統網絡規劃依賴人工計算與經驗判斷,存在效率低、易出錯、可視化弱三大痛點。尤其在RoCE(RDMA over Converged Ethernet)網絡場景中,需協同計算、存儲、管理等多類網絡,并確保無損傳輸特性——EasyRoCE-AID 正是為解決這一挑戰而生。
EasyRoCE-AID:AI基礎設施智能網絡規劃引擎
通過系統化建模與自動化工具鏈,將抽象的AI網絡架構(計算/存儲/管理/帶外網絡)轉化為可視化藍圖,輸出精準部署指南,降低80%規劃耗時,規避人工配置風險。

作為 EasyRoCE Toolkit 的核心組件,AID 與以下免費工具深度協同:
? 一鍵配置RoCE網絡(ORD)
? GPU節點路由規劃(IRM)
? 主動路徑優化(PPD)
? 多租戶網絡部署(MVD)
? 高精度流量監控(RTR)
AI智算中心從網絡規劃到部署落地5大步驟
步驟1:硬件資源數字化
輸入關鍵參數:GPU/存儲/管理服務器的名稱、型號、功耗、U高度、網口數量及帶寬(決定網絡拓撲的關鍵因子)。建立設備數據庫,為后續模塊提供引用依據。
步驟2:智能組網設計
自動化選型:基于集群規模選擇二層/三層模板,輸入服務器與交換機規格后:
1. 自動計算:每層交換機數量與堆疊關系

2. 生成方案:設備互聯邏輯圖與端口映射

根據生成的組網方案,補充信息,完善交換機型號、序列號、功耗等參數(影響機柜布局)。
步驟3:機柜空間優化
該步驟依據設備性能特點、散熱需求及數據交互邏輯,為實施規劃人員制定機柜內部的最優空間分布方案提供參考。機柜的布局信息包括機柜所在的園區、樓棟、樓層、房間、排/列、機柜編碼、U#、設備名稱。點擊左側按鈕展開,可以看到這排機柜的情況,其中機柜中每臺設備的名稱都引用于已填寫的表格信息。

步驟4:一鍵生成網絡配置
全自動配置輸出:
- 互聯IP地址分配
- 服務器Bond口配置
- 帶外管理網絡規劃

步驟5:生態工具無縫對接
由AID規劃配置的模塊主要有,GPU Node內部路由規劃器(IRM)、端到端路徑規劃(EPS)、主動路徑規劃(PPD)、多租戶網絡部署(MVD)等。
以主動路徑規劃工具(PPD)為例,我們使用 AID 工具規劃交換機的設備名稱、設備型號、設備角色、上行端口序號、下行端口序號、實例 ID、實例描述信息、下行 IP 列表、管理口地址、管理地址掩碼、交換機的帳號密碼.
其中除了實例 ID 和實例描述信息需要人為規劃,其他字段都可以點擊“填充設備信息”按鈕完成自動填充。

AID還可以聯動基于 Prometheus+Grafana 的監控面板,輔助實現 RDMA 網絡在大屏的可視化呈現功能。
- 拓撲自動呈現(TG):

- 光模塊地圖(TM):

- 鏈路分布地圖(LM)

-
AI
+關注
關注
88文章
34868瀏覽量
277600 -
網絡規劃
+關注
關注
0文章
13瀏覽量
10947
發布評論請先 登錄
人工巡檢漏檢率高?這套系統讓設備隱患無處遁形,運維效率飆升!

儲能運維平臺在換電站的應用 有效提高運維效率
光伏電站的智能運維管理管家來了

愛立信如何讓網絡運維更簡單
信而泰CCL仿真:解鎖AI算力極限,智算中心網絡性能躍升之道

數據驅動的光伏運維:平臺如何提升發電效率?

RoCE與IB對比分析(一):協議棧層級篇

OCTC發布"算力工廠"!力促智算中心高效規劃建設投運

桌面運維工具之打印機驅動安裝

評論