眾所周知,人工智能正在改變世界。對于網(wǎng)絡(luò)管理員而言,人工智能可以以一些令人驚嘆的方式改善日常運營:
-
重復性任務的自動化:這包括監(jiān)控、故障排除和升級,可以節(jié)省時間,同時降低人為錯誤的風險。
-
網(wǎng)絡(luò)安全:人工智能可以幫助實時檢測和應對安全威脅。例如,NVIDIA Morpheus 使網(wǎng)絡(luò)安全開發(fā)者能夠創(chuàng)建經(jīng)過優(yōu)化的實時數(shù)據(jù) AI 流水線。
-
拓撲優(yōu)化:借助合適的遙測技術(shù),人工智能可以分析流量模式并提出更改建議,從而優(yōu)化網(wǎng)絡(luò)性能。
-
主動式網(wǎng)絡(luò)規(guī)劃:人工智能可以使用同樣的高級網(wǎng)絡(luò)遙測技術(shù)來評估趨勢,以預測潛在問題,并在問題發(fā)生之前提出更改建議,從而避免問題的發(fā)生。
然而,人工智能無法取代經(jīng)驗豐富的網(wǎng)絡(luò)管理員的專業(yè)知識。人工智能旨在增強您的能力,就像一個虛擬助理一樣。因此,人工智能可能會成為您最好的朋友,但生成式 AI 是一種新的數(shù)據(jù)中心工作負載,它帶來了新的范式轉(zhuǎn)變:NVIDIA 集合通信庫(NCCL)。
數(shù)據(jù)中心的演變
網(wǎng)絡(luò)管理員不得不處理許多其他近期更改:
-
如何配置網(wǎng)絡(luò)
-
如何監(jiān)控和管理網(wǎng)絡(luò)
-
如何設(shè)計網(wǎng)絡(luò)
-
網(wǎng)絡(luò)上的協(xié)議和工作負載
不久前,我們可能已經(jīng)通過特定網(wǎng)絡(luò)命令行界面(CLI)的專業(yè)水平來衡量新網(wǎng)絡(luò)管理員的價值。隨著混合云計算和 DevOps 的出現(xiàn),從 CLI 到 API 的轉(zhuǎn)變也在不斷發(fā)展。
甚至您監(jiān)控和管理網(wǎng)絡(luò)的方式也發(fā)生了變化。您已經(jīng)從使用 SNMP 和 NetFlow 在數(shù)據(jù)中心輪詢設(shè)備的工具轉(zhuǎn)向了新的基于交換機的遙測模型,在該模型中,交換機會主動以流式傳輸提供基于流的診斷詳細信息。
您可以實操將新的工作負載引入數(shù)據(jù)中心,其中許多數(shù)據(jù)中心都有獨特的網(wǎng)絡(luò)需求。您已經(jīng)看到傳統(tǒng)數(shù)據(jù)庫被數(shù)據(jù)分析和大數(shù)據(jù)集群所取代。
現(xiàn)在,當被要求構(gòu)建人工智能集群時,人們很容易認為人工智能只是一個規(guī)模更大、速度更快的大數(shù)據(jù)應用程序。但人工智能是不同的,如果沒有合適的工具,人工智能可能會很難實現(xiàn)。
生成式 AI 和 NCCL 的影響
您是一家大型企業(yè)的網(wǎng)絡(luò)管理員。您的 CTO 參加了 GTC 2023,并了解了生成式 AI 他們希望通過構(gòu)建像 ChatGPT 這樣的大型語言模型來響應最終用戶,并與最終用戶進行交互,從而改變業(yè)務運營方式。該模型必須經(jīng)過訓練。這需要一個大型人工智能訓練集群,許多 GPU 加速的服務器通過高速網(wǎng)絡(luò)連接。
這個人工智能訓練集群帶來了許多新的挑戰(zhàn):
-
網(wǎng)絡(luò)流量模式和流量特性發(fā)生了顯著變化,而傳統(tǒng) ECMP 表現(xiàn)不佳。
-
AI 集群參考設(shè)計需要用于計算/ GPU 、存儲甚至帶內(nèi)管理的專用網(wǎng)絡(luò)。
-
網(wǎng)絡(luò)流量是異構(gòu)的,生成由 CPU 到 CPU 和 GPU 到 GPU 通信。
-
人工智能集群必須能夠適應在一臺服務器上、多臺服務器上運行作業(yè),甚至是在一臺計算機上同時運行多個作業(yè)。
-
網(wǎng)絡(luò)配置發(fā)生變化,參數(shù)可優(yōu)化 RoCE 和 GPU 直接通信。
-
人工智能作業(yè)必須在多次迭代中具有一致且可預測的作業(yè)完成時間。
-
具有更高帶寬交換機的新型扁平化拓撲。
-
需要學習的新縮寫詞:CUDA、NVIDIA DOCA、BERT、LLM、DLRM 和 NCCL。
-
新的監(jiān)控工具:他們?nèi)绾沃?AI 和 NCCL 是否表現(xiàn)良好?
那么,什么是 NCCL?以下是教科書般的答案:
NVIDIA Collective Communication Library(NCCL)實現(xiàn)了針對 NVIDIA GPU 和網(wǎng)絡(luò)優(yōu)化的多 GPU 和多節(jié)點通信原語。NCCL 提供了諸如 all-gather、all-reduce、broadcast、reduce 和 reduce-scatter 以及點對點發(fā)送和接收之類的例程,這些例程經(jīng)過優(yōu)化,可通過節(jié)點內(nèi)的 PCIe 和 NVLink 高速互連以及節(jié)點間的 NVIDIA 網(wǎng)絡(luò)實現(xiàn)高帶寬和低延遲。
資料來源:
NVIDIA Collective Communication Library (NCCL)
對于網(wǎng)絡(luò)管理員,NCCL 負責控制全新 AI 集群的流量模式。這意味著您需要針對 NCCL 進行優(yōu)化的網(wǎng)絡(luò)設(shè)計、針對 NCCL 優(yōu)化的網(wǎng)絡(luò)監(jiān)控工具以及針對 NCCL 優(yōu)化的以太網(wǎng)交換機。
NCCL 是實現(xiàn) AI 集群上運行的工作負載的高性能、一致性和可預測性的關(guān)鍵。NCCL 也是一個交匯點:網(wǎng)絡(luò)管理員和數(shù)據(jù)科學家都必須講出并理解它。當他們都能流利地講出它時,NCCL 可以成為這些具有不同所需技能的專業(yè)人士之間的共同語言。
鑒于 NCCL 的重要性,合適的網(wǎng)絡(luò)可以決定和突破 AI 集群的性能。人工智能集群有一些獨特的要求:
-
抗噪能力強
-
對故障具有彈性
-
導軌優(yōu)化拓撲
-
無損網(wǎng)絡(luò)轉(zhuǎn)發(fā)
-
性能隔離
-
無阻塞網(wǎng)絡(luò)架構(gòu)
那么,接下來是什么呢?
您的工作是防止網(wǎng)絡(luò)減緩人工智能集群的速度,但人工智能網(wǎng)絡(luò)需要什么?高帶寬、低延遲和高彈性是必要的,但還不夠。您將如何選擇合適的基礎(chǔ)設(shè)施?
-
基于產(chǎn)品手冊?并不完全。
-
根據(jù)供應商告訴您的?有點冒險,因為他們想賣給您一些東西。
-
基于數(shù)據(jù)科學家們所要求的?他們不是網(wǎng)絡(luò)專家,所以大多數(shù)人都不知道。
-
基于經(jīng)驗豐富的網(wǎng)絡(luò)管理員的建議?很有可能他們認為是 CPU,而不是 GPU,并且需求已經(jīng)發(fā)生了變化。
人工智能的網(wǎng)絡(luò)可能很難。“沒有人會因為購買 X 而被解雇”這句格言與摩爾定律一樣過時,因為人工智能的 X 因素與通用計算不同。即使是擁有專門的人工智能工程團隊來預先測試集群性能的大型 IT 供應商,當性能隨著更多用戶的添加和多個作業(yè)的同時運行而急劇下降時,也會經(jīng)常感到驚訝。
保證人工智能集群性能的最佳方法是遵循 NVIDIA 發(fā)布的人工智能參考架構(gòu)之一,并使用具有人工智能可見性功能的基礎(chǔ)設(shè)施來驗證您的人工智能集群的健康狀況和供給情況。
無論您的人工智能集群使用以太網(wǎng)還是 InfiniBand,NVIDIA 都會為您提供所需的工具、支持和培訓,以使您成功并成為人工智能網(wǎng)絡(luò)專家。
掃描下方二維碼,查看更多有關(guān) NVIDIA 集合通信庫(NCCL)的信息。

更多精彩內(nèi)容 使用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺加速生成式 AI 工作負載
使用 NVIDIA Cumulus Linux 實現(xiàn)數(shù)據(jù)中心網(wǎng)絡(luò)自動化
借助 NVIDIA WJH 更快地診斷網(wǎng)絡(luò)問題
COMPUTEX2023 | NVIDIA 推出面向超大規(guī)模生成式 AI 的加速以太網(wǎng)平臺
原文標題:為網(wǎng)絡(luò)管理員導航生成式 AI
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
-
英偉達
+關(guān)注
關(guān)注
22文章
3935瀏覽量
93431
原文標題:為網(wǎng)絡(luò)管理員導航生成式 AI
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
2025設(shè)備管理新范式:生成式AI在故障知識庫中的創(chuàng)新應用

《AI Agent 應用與項目實戰(zhàn)》閱讀心得2——客服機器人、AutoGen框架 、生成式代理
聚云科技獲亞馬遜云科技生成式AI能力認證
聚云科技榮獲亞馬遜云科技生成式AI能力認證
聚云科技榮獲亞馬遜云科技生成式AI能力認證 助力企業(yè)加速生成式AI應用落地
時域網(wǎng)絡(luò)分析儀的原理和應用場景
網(wǎng)絡(luò)管理中的VLAN隔離:不同VLAN設(shè)備無法直接通信的原因與解決方案

固定帶寬與動態(tài)帶寬的區(qū)別
生成式AI工具作用
網(wǎng)管的五大功能是什么
RMON的最大作用是什么?

三行代碼完成生成式AI部署

評論