NVIDIA DOCA 框架已發展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的NVIDIA DOCA 3.0發布,每個版本都擴展了NVIDIA BlueField DPU和ConnectX SuperNIC的功能,從而實現了前所未有的 AI 平臺可擴展性和性能。
通過豐富的庫和服務生態系統,DOCA 充分利用 BlueField DPU 和 SuperNIC,實現了在超過 10 萬個 GPU 上的超大規模部署,同時保持嚴格的租戶隔離并優化資源利用率。DOCA 的安全功能可為容器化 AI 工作負載提供硬件級威脅檢測,而不會對性能造成影響。DOCA 的智能數據加速功能解決了 AI 數據流水線中的關鍵瓶頸,而其編排功能則簡化了復雜的 DPU 加速服務部署。
本文將介紹 DOCA 3.0,它代表了這些進步的最終成果。DOCA 3.0 為 AI 工廠提供全新升級的基礎設施服務,并為 AI 數據中心基礎設施提供優化的框架,為開發者提供構建安全、高效的 AI 基礎設施所需的必要工具,其規模之大前所未有。如今,一個廣泛且蓬勃發展的開發者社區正在使用 DOCA,這項技術將繼續改變企業部署、管理和編排基礎設施的方式,為未來的 AI 創新提供支持。
DOCA 3.0 簡介
在當今快速發展的 AI 領域中,支持大規模 AI 部署的基礎設施與模型本身同樣重要。隨著企業從實驗性 AI 項目擴展到生產就緒型部署,底層計算、網絡和存儲基礎設施必須不斷發展,以滿足前所未有的需求。DOCA 正是這一發展的核心,它正在徹底改變開發者構建、部署和管理下一代 AI 平臺的方式。
最新版本的 DOCA 3.0 為開發者提供了豐富的庫、驅動和 API,幫助他們為 NVIDIA BlueField DPU 和 Connect-X SuperNIC 創建高性能應用程序和服務。這一創新框架可將資源密集型任務從 CPU 卸載到專用硬件加速器,從而顯著提高 AI 工作負載的性能、安全性和效率。
DOCA 3.0 的亮點包括:
DOCA 支持 InfiniBand Quantum-X800 和 ConnectX-8 SuperNIC (GA)
用于 NIM 容器威脅檢測的全新 DOCA Argus 服務
DOCA 平臺框架(DPF)可信主機用例(GA)
使用 BlueField-3 的 DOCA SNAP Virtio-fs(測試版)文件系統仿真
適用于 AI 計算集群的 DOCA Perftest(GA)RDMA 基準工具
圖 1:NVIDIA DOCA 3.0 堆棧
超大規模 GPU 計算:擴展多租戶 AI 工廠
構建具有更多參數和訓練數據的更大規模 AI 模型的競賽,將計算需求推向了前所未有的高度。現代 AI 工廠必須支持涵蓋數萬個 GPU 的大規模部署,同時保持租戶之間嚴格的性能隔離。
DOCA 通過其網絡庫解決這一挑戰,這些庫在多租戶環境中實現高效的資源利用和工作負載隔離。具體而言,DOCA RDMA 庫提供了對大規模分布式 AI 訓練至關重要的高性能、低延遲通信功能。該庫支持節點之間的直接內存訪問,無需 CPU 參與,從而顯著降低多 GPU 系統中的通信開銷。
DOCA GPUNetIO 庫通過 GPUDirect Async Kernal-initiated 通信(GDAKI),在網絡中提供 GPU 之間的直接數據路徑,進一步增強 GPU 之間的通信,從而實現對分布式訓練算法至關重要的高效集合操作。這些庫與 DOCA 以太網、DOCA RDMA 或 DOCA DMA 協同工作,構建了一個高性能網絡基礎,可以擴展到支持超過 10 萬個 GPU 的部署。
傳統的軟件定義數據中心方法可能會消耗 30% 甚至更多的服務器 CPU 核心。通過DOCA Flow等庫將這些功能卸載到 BlueField DPU,DOCA 可以釋放寶貴的 CPU 資源用于 AI 計算,這相當于 30 多個 CPU 核心的性能。DOCA Flow 庫支持復雜的數據包處理和流管理,支持大規模 AI 工廠中復雜的流量模式。
適用于 AI 工作負載的多租戶隔離
DOCA 架構通過其基于主機的網絡服務提供強大的隔離機制,確保來自不同租戶的工作負載保持安全隔離。該服務在租戶環境之間實施硬件強制隔離,防止未經授權的訪問,同時實現 AI 的無縫執行。對于將敏感 AI 工作負載與其他應用程序一同運行的云服務提供商和企業而言,此功能至關重要。
強大的威脅檢測:實時保護 AI 工作負載
隨著 AI 系統對業務運營的重要性與日俱增,保護其免受威脅也變得至關重要。DOCA 釋放了 BlueField DPU 和 SuperNIC 的網絡安全潛力,支持快速創建和集成應用程序,從而卸載和加速加密、分布式防火墻、入侵檢測和網絡微分段等安全任務。
通過結合使用 DOCA 庫,NVIDIA 網絡安全 AI 平臺利用硬件級檢測提供對網絡流量和系統行為的深度可視性。與依賴軟件代理的傳統安全解決方案不同,BlueField DPU 充當嵌入式安全處理器,可將關鍵的網絡安全任務從傳統 CPU 上卸載。這種方法可以在不影響系統性能的情況下實現實時監測和保護。
DOCA 支持的安全應用程序可以:
持續分析遙測數據,識別潛在威脅的模式和異常
通過 AI 驅動的異常檢測提供實時威脅檢測
在風險升級為重大安全事件之前主動降低風險
在 AI 組件之間實施強大的加密和安全通信通道
對于 AI 工作負載,這種安全架構具有顯著優勢。AI 模型和訓練數據通常代表著寶貴的知識產權,因此成為攻擊的主要目標。DOCA 支持機密計算功能,可保護部署在 NVIDIA Blackwell 和 NVIDIA Hopper GPU 上的 AI 模型、算法和數據的機密性和完整性。
此外,DOCA 的安全功能能夠應對 AI 驅動環境中 IT 和 OT 系統融合所帶來的復雜威脅形勢。通過提供硬件加速的安全功能,DOCA 可確保安全措施不會成為 AI 應用的性能瓶頸。
加速下一代 AI 的數據處理
數據處理是現代 AI 工作流中最重大的挑戰之一。最新一代的 AI 模型需要前所未有的海量訓練數據,這給存儲和網絡基礎設施帶來了巨大壓力。
DOCA 通過其全面的數據加速功能來解決這一挑戰。該框架的數據路徑加速器利用 BlueField-3 DPA 編程子系統提供一種編程模型,可將以通信為中心的用戶代碼卸載到專用的 DPA 處理器上運行。這種卸載功能可顯著降低 CPU 開銷,同時通過 DPU 加速來提高性能。
此外,為了優化 AI 流水線中的數據壓縮,DOCA 壓縮庫提供了硬件加速的壓縮和解壓縮功能。此功能可在不增加 CPU 或 GPU 計算負載的情況下減少數據傳輸時間和存儲需求。同樣,DOCA Erasure Coding 庫提供了彈性數據存儲功能,這對于保護寶貴的 AI 數據集至關重要。
為了應對現代 AI 工作流帶來的挑戰,DOCA Flow 庫實現了 AI 數據流水線的高性能網絡,它提供了先進的數據包處理功能,可優化整個網絡中的數據移動。DOCA Rivermax 庫通過提供高級功能來簡化存儲系統和計算節點之間的數據傳輸,從而進一步提高網絡性能。
優化 AI 數據流水線的網絡性能
DOCA 基于主機的網絡(HBN)3.0 為無控制器 VPC 網絡提供了顯著的可擴展性改進,支持高達八千個 VTEP 和八萬個 Type-5 路由,并計劃增加對一萬六千甚至更多個 VTEP 的支持。此外,DOCA 3.0 還為 HBN 引入了兩項附加功能:雙向轉發檢測(BFD)支持[GA],通過主動鏈路監測實現快速路由收斂,以及 ECMP 故障轉移增強功能,通過更快的故障轉移確保最大限度的減少停機時間。
總的來說,這些功能使 HBN 成為裸金屬部署的理想選擇,并使 AI 平臺能夠處理存儲系統、計算節點和外部數據源之間的海量數據流。
對于 AI 開發者來說,DOCA 智能數據平臺功能可轉化為:
降低訓練和推理流水線的數據處理延遲
提高數據密集型 AI 操作的吞吐量
提高計算和存儲基礎設施的資源利用效率
支持 IPMX 等新興視聽 AI 應用標準
增強的 DOCA FireFly 服務通過硬件加速帶來了先進的時間同步功能,提供分布式 AI 訓練工作負載所必需的高精度同步能力。此功能可實現跨 GPU 集群的更高效協調,這對于大規模訓練和模型并行等技術尤為重要。
DPU 驅動的基礎設施服務無縫管理
現代 AI 基礎設施的復雜性要求具備先進的編排能力。DOCA 3.0 針對可信主機的 DOCA 平臺框架(DPF)已正式發布,它將 Kubernetes 控制平面功能擴展到 DPU,使管理員能夠部署和編排 NVIDIA DOCA 服務和第三方應用程序。
DOCA 服務是基于 DOCA 的容器化產品,采用容器封裝,可在 BlueField DPU 上便捷部署。這些服務利用 DPU 功能來提供遙測、時間同步、網絡解決方案等功能,所有這些功能都可以通過 NGC 目錄獲取。
圖 2:DOCA 平臺框架堆棧(GA)
通過引入專用的輔助 Kubernetes 控制平面,DPF 使管理員能夠高效管理部署在 BlueField DPU 上的 DOCA 服務。該框架簡化了 DPU 管理的復雜性,使管理員能夠與熟悉的 Kubernetes 結構進行交互。這種方法顯著簡化了 AI 基礎設施服務的部署和運維。
DPF 服務的功能鏈功能可在單個 DPU 上集成加速網絡、高性能數據服務、安全功能等多種服務。這種編排功能創建了一個靈活的多供應商生態系統,從而為 AI 應用提供加速網絡服務。
實際部署展示了這種方法的切實優勢。NVIDIA DOCA 平臺框架與 Red Hat OpenShift 的集成已顯示出顯著的性能提升,RDMA 測試的平均帶寬達到 383.72Gb/s。這種網絡性能水平對于 LLM 等數據密集型 AI 工作負載至關重要。
對于 AI 平臺運營商,DOCA 基礎設施服務編排功能提供:
簡化復雜 AI 優化基礎設施的部署和管理
強大的生命周期管理,實現無縫的服務更新、擴展和回滾
部署前驗證,確保兼容性和需求得到滿足
實時監測和可調試性,確保高可靠性
加速并保護 NVIDIA NIM 微服務和 AI 工作負載
利用 DOCA 平臺框架的先進編排功能、DOCA HBN、OVS-DOCA、DOCA SNAP Virtio-fs 以及最新服務NVIDIA DOCA Argus相結合,加速和保護 NVIDIA NIM 微服務和 AI 工作負載。這凸顯了 DOCA 不斷發展的價值,并讓我們一窺未來解決方案將如何從框架中不斷涌現。
DOCA Argus 是一個網絡安全框架,旨在通過在 BlueField DPU 上提供無代理實時威脅檢測來保護 AI 工廠。Argus 獨立于主機系統運行,其攻擊檢測和響應速度比傳統解決方案快 1000 倍,且不會影響性能。
它與企業安全系統無縫集成,提供持續監測和自動威脅緩解。Augus 利用先進的內存取證和可操作情報,經過優化,可大規模保護容器化和多租戶 AI 工作負載。
DOCA Argus 與 OVS-DOCA 和 DOCA SNAP Virtio-fs 相結合,為 NVIDIA BlueField DPU 上的 AI 工作負載形成了創新的安全解決方案,解決了不同的基礎設施層問題,同時實現了跨組件威脅緩解。
圖 3:使用 DOCA 3.0 加速并保護
NIM 微服務和 AI 工作負載
DOCA Argus(計算層)通過 DPU 級內存和進程分析監測 AI 工作負載,并依賴 OVS-DOCA 卸載和隔離網絡流量(網絡層)。同時,DOCA SNAP Virtio-fs(存儲層)通過 DPU 模擬的 Virtio 設備虛擬化文件系統訪問,將存儲 IO 與主機內核隔離開來,并為 Argus 提供異常訪問模式的審計日志。
該集成框架將安全性嵌入到計算層、網絡層和存儲層中,為 NIM 微服務實現亞毫秒級威脅響應,同時保持容器化 AI 流水線的可擴展性。
開始使用 DOCA 3.0
隨著 AI 持續變革各行各業,支撐其發展的基礎設施必須隨之發展。NVIDIA DOCA 框架代表著開發者構建和部署 AI 平臺方式的根本性轉變,并通過其全面的庫和服務提供前所未有的性能、安全性和效率。
DOCA SDK 圍繞不同的 DOCA 庫構建,旨在充分利用 BlueField DPU 的功能。借助 20 多個專用庫,開發者可以通過強大的工具包來構建優化的 AI 基礎設施。
DOCA 服務通過為特定用例提供容器化解決方案來補充這些庫。您可以通過NGC 目錄(例如 DOCA 和 DPU)來找到它們。這種容器化方法可以快速部署并簡化對 AI 運營至關重要的基礎設施組件的管理。
DOCA 還在持續演進,定期更新框架并推出新功能,確保開發者能夠始終處于 AI 基礎設施創新的前沿。目前已有成千上萬的開發者在使用 DOCA,其生態系統繼續發展壯大,為 AI 應用開發帶來了新的可能。
對于希望構建下一代 AI 平臺的開發者,NVIDIA DOCA 提供了全面的工具包,幫助他們充分發揮 BlueField DPU 和 Connect-X SuperNIC 的潛力,以創建可以擴展的基礎設施來滿足未來 AI 工作負載需求。通過采用 DOCA,企業站在 AI 基礎設施創新的前沿,為 AI 發展的新紀元做好準備。
NVIDIA DOCA 3.0 標志著 AI 計算網絡架構和云計算基礎設施的重大進步。
開啟您的開發之旅,享受 DOCA 提供的一切優勢。
-
NVIDIA
+關注
關注
14文章
5292瀏覽量
106154 -
gpu
+關注
關注
28文章
4934瀏覽量
131042 -
網絡
+關注
關注
14文章
7804瀏覽量
90715 -
AI
+關注
關注
88文章
34914瀏覽量
277933
原文標題:NVIDIA DOCA 3.0 助力 AI 平臺開啟網絡新紀元
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
transcosmos在中國發布全渠道智能客服平臺"transCxLink"3.0版本

NVIDIA虛擬GPU 18.0版本的亮點
NVIDIA Blackwell數據手冊與NVIDIA Blackwell架構技術解析
英偉達GTC25亮點:NVIDIA Blackwell Ultra 開啟 AI 推理新時代
豆神AI Windows PC端1.0版本登陸微軟商城
NVIDIA DOCA 2.9版本的亮點解析

NVIDIA DOCA-OFED的主要特性
NVIDIA Parabricks v4.3.1版本的新功能

NVIDIA JetPack 6.0版本的關鍵功能

IB Verbs和NVIDIA DOCA GPUNetIO性能測試

OpenVINO 2024.2版本亮點解析
機器視覺 歡創播報 華為高階智能駕駛3.0版本8月上市

RaftKeeper v2.1.0版本發布,性能大幅提升!

評論