在人工智能飛速發(fā)展的今天,大語(yǔ)言模型(LLM)為各個(gè)行業(yè)帶來(lái)了全新的場(chǎng)景和機(jī)遇。諸如客戶服務(wù)數(shù)字人,計(jì)算機(jī)輔助藥物研發(fā)的生成式虛擬篩選,基于檢索增強(qiáng)生成(RAG)的企業(yè)多模態(tài) PDF 數(shù)據(jù)提取,網(wǎng)絡(luò)安全流數(shù)據(jù)過(guò)濾、處理和分類優(yōu)化等工作流,正在無(wú)縫集成和運(yùn)行在定制化的企業(yè) AI 應(yīng)用,企業(yè)還能夠基于專有業(yè)務(wù)數(shù)據(jù)和用戶反饋數(shù)據(jù),不斷優(yōu)化 AI 應(yīng)用。
同時(shí),企業(yè)也面臨著如何高效、安全地部署 LLM 的挑戰(zhàn)。阿里云計(jì)算巢基于 NVIDIA 加速計(jì)算技術(shù),通過(guò)阿里云云市場(chǎng)為企業(yè)和開(kāi)發(fā)者提供NVIDIA AI Enterprise軟件套件,其包含了NVIDIA NIM Agent Blueprint、NVIDIA NIM和NVIDIA NeMo等企業(yè)級(jí) AI 開(kāi)發(fā)工作流和 AI 開(kāi)發(fā)工具鏈。其中,NVIDIA NIM 提供可靠、高性能的 LLM 推理服務(wù),結(jié)合阿里云計(jì)算巢實(shí)現(xiàn)一站式云上部署,助力企業(yè)加速實(shí)現(xiàn) LLM 的 SaaS 化。
本文以 Llama3 為例,介紹該方案的整體架構(gòu)和部署方式。
NVIDIA NIM:
易于使用的預(yù)構(gòu)建容器工具
NVIDIA NIM 微服務(wù)是一套易于使用的預(yù)構(gòu)建容器工具,目的是幫助企業(yè)客戶在云、數(shù)據(jù)中心和工作站上安全、可靠地部署高性能 AI 模型。作為 NVIDIA AI Enterprise 的一部分,NIM 具備以下核心優(yōu)勢(shì):
安全、靈活的部署:NIM 在不同環(huán)境的 CUDA GPU 加速基礎(chǔ)設(shè)施和 Kubernetes 發(fā)行版中經(jīng)過(guò)嚴(yán)格驗(yàn)證和基準(zhǔn)測(cè)試,它支持企業(yè)在云、數(shù)據(jù)中心、工作站上安全可靠地部署高性能的 AI 推理,只需 5 分鐘即可完成部署。
加速產(chǎn)品上市:企業(yè)通過(guò)預(yù)構(gòu)建、持續(xù)維護(hù)的微服務(wù),能夠快速將產(chǎn)品推向市場(chǎng),縮短開(kāi)發(fā)周期。
開(kāi)發(fā)者友好:開(kāi)發(fā)者使用標(biāo)準(zhǔn) API 和幾行代碼即可輕松將 NIM 集成到企業(yè)級(jí) AI 應(yīng)用程序中。
優(yōu)化的推理引擎:NIM 基于Triton 推理服務(wù)器、TensorRT、TensorRT-LLM和 PyTorch 等強(qiáng)大的推理引擎構(gòu)建, 提供行業(yè)領(lǐng)先的吞吐率、延遲和 token 生成速度,確保服務(wù)響應(yīng)更快。
企業(yè)級(jí)支持:NIM 采用企業(yè)級(jí)基礎(chǔ)容器構(gòu)建,提供嚴(yán)格的驗(yàn)證、定期安全更新,適合企業(yè)生產(chǎn)環(huán)境部署。
阿里云計(jì)算巢:專為服務(wù)商
及其客戶打造的云集成 PaaS 平臺(tái)
阿里云計(jì)算巢服務(wù)是一個(gè)開(kāi)放給企業(yè)應(yīng)用服務(wù)商(包括:企業(yè)應(yīng)用服務(wù)商、IT 集成服務(wù)商、交付服務(wù)商和管理服務(wù)提供商等)及其用戶的服務(wù)管理 PaaS 平臺(tái),提供軟件上云的“一站式”解決方案。
阿里云計(jì)算巢能提供軟件的交付、部署、運(yùn)維流程標(biāo)準(zhǔn)化的服務(wù),支持軟件和資源的一體化交付,真正實(shí)現(xiàn)了軟件的開(kāi)箱即用。
阿里云計(jì)算巢服務(wù)集成了阿里云一系列底層產(chǎn)品能力,通過(guò)通用的應(yīng)用管控框架、租戶管理框架,幫助服務(wù)商提升服務(wù)的交付效率、管理效率和服務(wù)能力,在提升用戶滿意度的同時(shí)降低運(yùn)營(yíng)成本;并為用戶提供了統(tǒng)一管理多種應(yīng)用服務(wù)的平臺(tái),提升用戶使用服務(wù)的效率和安全性,降低用戶獲取服務(wù)和管理服務(wù)的成本。
方案介紹
下圖展示了通過(guò)阿里云計(jì)算巢快速部署 NVIDIA NIM 的整體架構(gòu)。以 Llama3 為例,我們通過(guò)計(jì)算巢來(lái)創(chuàng)建、管理 LLM 推理服務(wù):在阿里云容器服務(wù) ACK (容器服務(wù) Kubernetes 版)集群上,我們使用阿里云 ACK 的云原生 AI 套件,集成開(kāi)源推理服務(wù)框架 KServe,來(lái)部署 NVIDIA NIM。
同時(shí),結(jié)合 ACK 的 Prometheus 和 Grafana 監(jiān)控服務(wù),快速搭建監(jiān)控大盤,實(shí)時(shí)觀測(cè)推理服務(wù)狀態(tài);利用 NVIDIA NIM 提供豐富的監(jiān)控指標(biāo),如 num_requests_waiting,配置推理服務(wù)彈性擴(kuò)縮容策略。
這里列出的云上資源,以及阿里云彈性計(jì)算服務(wù)(ECS)、專有網(wǎng)絡(luò)(VPC) 等基礎(chǔ)資源,都可以通過(guò)計(jì)算巢來(lái)輕松配置,一鍵拉起,最終實(shí)現(xiàn)一個(gè)云上高性能、可實(shí)時(shí)觀測(cè)、極致彈性的大語(yǔ)言模型推理服務(wù)。用戶只需要根據(jù)該服務(wù)創(chuàng)建實(shí)例,便可部署該服務(wù)。
圖 1. 通過(guò)阿里云計(jì)算巢快速部署
NVIDIA NIM 架構(gòu)圖
(圖片來(lái)源于阿里云,如您有任何疑問(wèn)或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
部署流程
1. 參考 NVIDIA NIM 文檔,生成NVIDIA NGC API Key,用于訪問(wèn)需要部署的模型鏡像。以本文用到的 Llama-3-8B-Instruct 為例,可以通過(guò)NVIDIA NGC 目錄來(lái)獲取。
同時(shí),請(qǐng)閱讀并承諾遵守 Llama 模型的自定義可商用開(kāi)源協(xié)議。
2. 在阿里云計(jì)算巢服務(wù)目錄中找到“基于 NVIDIA NIM 快速部署 LLM 模型推理服務(wù)”,并進(jìn)入實(shí)例部署頁(yè)面。
如下圖所示,主要配置服務(wù)的基本信息和云上資源,以及第一步中獲取的 NVIDIA NGC API Key,需要填寫在下圖相應(yīng)位置。
圖 2. 在阿里云計(jì)算巢創(chuàng)建服務(wù)實(shí)例
(圖片來(lái)源于阿里云,如您有任何疑問(wèn)或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
因?yàn)榉?wù)部署在阿里云 ACK 集群之上,這里也包含了 Kubernetes 配置:
圖 3. 阿里云 ACK 集群上 Kubernetes
選項(xiàng)頁(yè)面
(圖片來(lái)源于阿里云,如您有任何疑問(wèn)或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
3. 按照頁(yè)面提示完成所有配置之后,點(diǎn)擊下一步:確認(rèn)訂單,在這里確認(rèn)第 2 步配置的服務(wù)實(shí)例信息和價(jià)格預(yù)覽。
圖 4. 確認(rèn)服務(wù)實(shí)例信息和價(jià)格預(yù)覽
(圖片來(lái)源于阿里云,如您有任何疑問(wèn)或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
部署過(guò)程中,用戶需要?jiǎng)?chuàng)建和訪問(wèn)阿里云資源,當(dāng)阿里云賬號(hào)屬于 RAM 賬號(hào)時(shí),需要開(kāi)通以下權(quán)限,頁(yè)面上也有開(kāi)通這些權(quán)限的入口。
4. 點(diǎn)擊立即創(chuàng)建,開(kāi)始部署。過(guò)程中會(huì)涉及阿里云資源的創(chuàng)建、NIM 模型鏡像的拉取等。拉取過(guò)程的日志,可通過(guò)”點(diǎn)擊資源 tab-> 找到 ACK 集群->頁(yè)面左側(cè)的工作負(fù)載->無(wú)狀態(tài)”來(lái)查看。部署完成后,進(jìn)入服務(wù)實(shí)例詳情查看使用說(shuō)明。通過(guò) curl 發(fā)送 HTTP 請(qǐng)求訪問(wèn)推理服務(wù),修改 content 字段,便可自定義和推理服務(wù)交互的內(nèi)容。
圖 5. 服務(wù)實(shí)例詳情頁(yè)面截圖
(圖片來(lái)源于阿里云,如您有任何疑問(wèn)或需要使用本圖片,請(qǐng)聯(lián)系阿里云)
通過(guò)阿里云的云市場(chǎng)獲取
NVIDIA AI Enterprise 使用該方案
NVIDIA NIM 是 NVIDIA AI Enterprise 的一部分,正式使用時(shí)須獲得 NVIDIA AI Enterprise 的許可證授權(quán)。現(xiàn)在,企業(yè)用戶可以通過(guò)阿里云云市場(chǎng)獲取 NVIDIA AI Enterprise 來(lái)使用該方案。阿里云市場(chǎng)提供了概念驗(yàn)證(PoC)測(cè)試服務(wù)和購(gòu)買 NVIDIA AI Enterprise 許可證,共兩個(gè)下單頁(yè)面。
PoC 測(cè)試服務(wù)
提供 90 天 NVIDIA AI Enterprise PoC License,暨 90 天免費(fèi)試用,而使用時(shí)須支付阿里云計(jì)算資源的費(fèi)用。
通過(guò)阿里云的云市場(chǎng)購(gòu)買 NVIDIA AI Enterprise 許可證
該頁(yè)面提供的信息僅供參考,用戶需要通過(guò)該頁(yè)面的“NVIDIA 服務(wù)咨詢”釘釘來(lái)溝通采購(gòu),最終通過(guò)云市場(chǎng)官網(wǎng)推送下單鏈接獲取 NVIDIA AI Enterprise 許可證。
總結(jié)
本文介紹了通過(guò)阿里云計(jì)算巢快速部署 NVIDIA NIM 的方案收益和部署方式,該方案充分利用了 NIM 的安全與高性能的無(wú)縫 AI 推理功能,以及計(jì)算巢的軟件一站式上云和交付能力,從而打造極致彈性、高性能、可實(shí)時(shí)觀測(cè)的云上 LLM 推理服務(wù)。
作者信息
毛亦姝
NVIDIA 解決方案架構(gòu)師,主要負(fù)責(zé)生成式 AI 模型的訓(xùn)練、推理在云上的落地,多年互聯(lián)網(wǎng)算法工作經(jīng)驗(yàn)。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5282瀏覽量
106060 -
AI
+關(guān)注
關(guān)注
88文章
34780瀏覽量
277088 -
人工智能
+關(guān)注
關(guān)注
1805文章
48899瀏覽量
247953 -
阿里云
+關(guān)注
關(guān)注
3文章
1007瀏覽量
44005
原文標(biāo)題:通過(guò)阿里云計(jì)算巢部署 NVIDIA NIM,加速企業(yè)大語(yǔ)言模型 SaaS 化
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
【產(chǎn)品活動(dòng)】阿里云GPU云服務(wù)器年付5折!阿里云異構(gòu)計(jì)算助推行業(yè)發(fā)展!
一張圖看懂阿里云新發(fā)布的物聯(lián)網(wǎng)設(shè)備上云神器——HiTSDB + IoT套件
阿里云彈性高性能計(jì)算產(chǎn)品商業(yè)化正式發(fā)布
【深圳云棲大會(huì)】阿里云彈性計(jì)算ESSD云盤產(chǎn)品全面解析
AI開(kāi)發(fā)者福音!阿里云推出國(guó)內(nèi)首個(gè)基于英偉達(dá)NGC的GPU優(yōu)化容器
阿里云免費(fèi)使用及手冊(cè)
阿里云專有宿主機(jī)(公測(cè))發(fā)布
阿里云HPC助力新制造 | 上汽仿真計(jì)算云SSCC
Bazaar:阿里云Serverless計(jì)算服務(wù)探秘
阿里云企業(yè)IPv6部署方案
阿里云應(yīng)用上邊緣云解決方案助力互聯(lián)網(wǎng)All in Cloud
阿里展示“云到端”整體方案
NVIDIA NIM 革命性地改變模型部署,將全球數(shù)百萬(wàn)開(kāi)發(fā)者轉(zhuǎn)變?yōu)樯墒?AI 開(kāi)發(fā)者

借助NVIDIA NIM加速AI應(yīng)用部署

評(píng)論