AI流量往往具有突發(fā)性、大象流(大規(guī)模數(shù)據(jù)流)占比高的特點(diǎn),極易造成網(wǎng)絡(luò)擁塞熱點(diǎn)。一條質(zhì)量不佳(如高延遲、高丟包、帶寬受限)的路徑,不僅自身無法有效傳輸數(shù)據(jù),如果ECMP繼續(xù)向其分發(fā)流量,還可能導(dǎo)致該路徑上的擁塞加劇,形成惡性循環(huán),進(jìn)而“污染”整條路徑上的流量,波及更多正常應(yīng)用。因此,構(gòu)建一個能夠?qū)崟r感知路徑質(zhì)量、動態(tài)規(guī)避異常路徑的智能負(fù)載均衡機(jī)制,成為支撐高性能AI計算的關(guān)鍵基礎(chǔ)設(shè)施之一。
為了解決上述挑戰(zhàn),我們引入了基于路徑綜合質(zhì)量的動態(tài)權(quán)重成本多路徑(Weighted Cost Multipath, WCMP)機(jī)制。該機(jī)制的核心在于持續(xù)評估并利用路徑的綜合質(zhì)量作為流量調(diào)度的核心依據(jù)。
路徑綜合質(zhì)量評估
系統(tǒng)持續(xù)監(jiān)控每條可用路徑的關(guān)鍵性能指標(biāo),這些指標(biāo)通常包括但不限于:
- 延遲 (Latency): 數(shù)據(jù)包端到端傳輸耗時。
- 丟包率 (Packet Loss Rate): 傳輸過程中丟失的數(shù)據(jù)包比例。
- 帶寬利用率 (Bandwidth Utilization): 路徑當(dāng)前占用帶寬與其理論容量的比值。
- 錯誤率 (Error Rate): 如鏈路層錯誤等。
- 通過預(yù)設(shè)的算法(如加權(quán)計算、機(jī)器學(xué)習(xí)模型評分等),將這些原始指標(biāo)融合計算為一個綜合質(zhì)量得分(通常是一個數(shù)值)。這個得分量化地反映了該路徑在當(dāng)前時刻傳輸流量的“健康度”或“優(yōu)良程度”。得分越高,代表路徑質(zhì)量越好;得分越低,代表路徑質(zhì)量越差,越接近異常狀態(tài)。
異常路徑判定與剔除
系統(tǒng)設(shè)定一個約定的質(zhì)量閾值系數(shù)。該閾值代表了我們認(rèn)為一條路徑可以承載正常AI流量的最低可接受質(zhì)量水平。
- 判定邏輯: 當(dāng)系統(tǒng)計算出的某條路徑的綜合質(zhì)量得分低于此約定閾值時,即認(rèn)為該條路徑在當(dāng)前AI場景下不再可用,判定為異常路徑。
- 處理動作: 立即將這條異常路徑從當(dāng)前有效的負(fù)載均衡路徑池中剔除(Prune)。這意味著后續(xù)的流量調(diào)度將暫時不再考慮此路徑。

如圖所示,當(dāng)Leaf1與Leaf2通信存在四條路徑時,假設(shè)根據(jù)seo7 中的算法邏輯在Leaf1中計算出四條路徑綜合質(zhì)量分別為4.5、55、65和75,此時紅色路徑會被剔除,剩下的三條路徑根據(jù)各自路徑質(zhì)量形成WCMP。待紅色路徑質(zhì)量恢復(fù)達(dá)標(biāo)后,它將重新加入路徑池并參與負(fù)載均衡。
路徑的動態(tài)WCMP調(diào)度
剔除異常路徑后,系統(tǒng)使用剩余的健康路徑來承載流量。根據(jù)剩余每條健康路徑的綜合質(zhì)量得分,動態(tài)計算并分配其流量轉(zhuǎn)發(fā)權(quán)重。質(zhì)量越高的路徑,獲得越高的權(quán)重,意味著它能承載更大比例的流量;質(zhì)量相對較低(但仍高于閾值)的路徑,則獲得較低權(quán)重。這種基于實(shí)時質(zhì)量動態(tài)調(diào)整權(quán)重的WCMP策略,確保了流量能夠最大程度地流向當(dāng)前最優(yōu)的路徑,優(yōu)化整體傳輸效率和性能。
路徑恢復(fù)與重新引入
被剔除的路徑并非永久廢棄。系統(tǒng)會持續(xù)監(jiān)控其綜合質(zhì)量。一旦該路徑的質(zhì)量得分恢復(fù)到約定閾值之上并保持穩(wěn)定一段時間(避免抖動),系統(tǒng)會將其重新引入有效路徑池。重新引入后,該路徑將根據(jù)其最新的綜合質(zhì)量得分,參與后續(xù)的動態(tài)WCMP權(quán)重計算,重新分擔(dān)流量。
在AI驅(qū)動的數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境中,傳統(tǒng)的“盡力而為”和“無差別均分”負(fù)載均衡策略已力不從心。基于路徑綜合質(zhì)量的動態(tài)WCMP機(jī)制,通過實(shí)時感知路徑狀態(tài)、果斷剔除異常、智能調(diào)度“健康”資源,有效解決了AI流量對網(wǎng)絡(luò)高可靠、高性能的核心訴求。雖然存在少量的短期資源閑置作為代價,但相較于避免路徑擁塞乃至業(yè)務(wù)中斷所帶來的巨大損失,這一機(jī)制是支撐AI計算基礎(chǔ)設(shè)施穩(wěn)定高效運(yùn)行的關(guān)鍵優(yōu)化手段。
-
數(shù)據(jù)流
+關(guān)注
關(guān)注
0文章
125瀏覽量
14793 -
負(fù)載均衡
+關(guān)注
關(guān)注
0文章
122瀏覽量
12582 -
AI驅(qū)動
+關(guān)注
關(guān)注
0文章
66瀏覽量
4303
發(fā)布評論請先 登錄
嵌入式實(shí)時系統(tǒng)多核負(fù)載均衡調(diào)度架構(gòu)的相關(guān)資料推薦
基于路徑識別的智能車系統(tǒng)設(shè)計
基于覆蓋網(wǎng)絡(luò)的多路徑流量均衡研究

基于蟻群優(yōu)化的任務(wù)負(fù)載均衡調(diào)度算法

面向SDN數(shù)據(jù)中心網(wǎng)絡(luò)最大概率路徑流量調(diào)度算法

人工智能武器化不可避免 尋找合適的AI治理路徑
面向SRIO網(wǎng)絡(luò)的負(fù)載均衡最短路徑路由算法
基于約束關(guān)鍵路徑的代價優(yōu)化調(diào)度算法
多智能體路徑規(guī)劃研究綜述
智能AGV調(diào)度系統(tǒng)智能規(guī)劃路線
浮動靜態(tài)路由及負(fù)載均衡

智能AGV調(diào)度系統(tǒng)

如何利用traceroute命令發(fā)現(xiàn)網(wǎng)絡(luò)中的負(fù)載均衡

評論