近日,NVIDIA 開源其物理 AI 平臺NVIDIA Cosmos中的關(guān)鍵模型——NVIDIA Cosmos Reason-1-7B。這款先進的多模態(tài)大模型能夠理解視頻、進行物理推理,并規(guī)劃下一步行動。本文將一步步帶你在本地服務(wù)器上完成該模型的部署,并搭建一個直觀的 Web 交互界面,親身體驗前沿 AI 的“思考”過程。
1NVIDIA Cosmos 平臺
所謂物理 AI,即賦予機器人、無人機、輔助駕駛汽車等自主機器感知、推理并與物理世界交互的能力。開發(fā)物理 AI 始終面臨兩大核心挑戰(zhàn):
數(shù)據(jù)瓶頸:獲取訓(xùn)練復(fù)雜模型所需的海量、高質(zhì)量真實世界數(shù)據(jù),成本高昂且難以規(guī)模化。
測試困境:在安全可控的環(huán)境中驗證模型的有效性與安全性,較為困難。
NVIDIA Cosmos 專為構(gòu)建物理 AI 而生。作為一個整合前沿生成式世界基礎(chǔ)模型(WFM)先進分詞器、護欄以及用于加速數(shù)據(jù)處理和管理的高效工作流的集成平臺。該技術(shù)為世界模型訓(xùn)練提供支持,并加速智能汽車(AV)和機器人的物理 AI 開發(fā)。
為攻克物理 AI 開發(fā)難題,NVIDIA Cosmos 引入了核心策略——合成數(shù)據(jù)(Synthetic Data)。通過在NVIDIAOmniverse及其Isaac Sim模擬平臺中創(chuàng)建高度逼真的數(shù)字孿生世界,Cosmos 能夠大規(guī)模、低成本地生成用于訓(xùn)練和測試的結(jié)構(gòu)化數(shù)據(jù)。其目標是實現(xiàn)“模擬到現(xiàn)實的零樣本部署”(Sim-to-Real Zero-Shot Deployment),在模擬環(huán)境中充分訓(xùn)練和驗證的模型,無縫、高效且安全地應(yīng)用于現(xiàn)實世界。
NVIDIA Cosmos 并非單一模型,而是一個由多個世界基礎(chǔ)模型(World Foundation Models)和配套工具組成的綜合性平臺,其三大支柱各司其職:
Cosmos Predict:根據(jù)文本、圖像或視頻輸入,生成符合物理規(guī)律且視覺逼真的未來場景。這允許開發(fā)者在安全的虛擬環(huán)境中,無限次地測試 AI 代理的反應(yīng),避免昂貴且危險的實體實驗。
Cosmos Transfer:能將低保真或非視覺輸入(如分割圖、CAD 模型、激光雷達點云)轉(zhuǎn)換為照片般逼真的高保真視頻,加速了高質(zhì)量合成數(shù)據(jù)的生產(chǎn)效率。
Cosmos Reason:作為多模態(tài)推理模型,能夠理解復(fù)雜場景,進行基于物理和因果關(guān)系的推理,并以自然語言形式輸出下一步的行動建議,可稱作自主系統(tǒng)的“大腦”。
2NVIDIA Cosmos Reason-1-7B
本文的主角Cosmos Reason-1-7B(70 億參數(shù)),正是 Cosmos Reason 家族目前發(fā)布的兩款先進多模態(tài)大語言模型之一,另一版本為 Cosmos Reason-1-56B(560 億參數(shù))。
Cosmos Reason-1-7B 基于“思維鏈”(Chain of Thoughts)推理模式,能將復(fù)雜問題層層分解,賦予 AI 系統(tǒng)在復(fù)雜的物理世界中進行時空感知和推理的能力。
簡而言之,它能“看懂”攝像頭捕捉到的視頻流,結(jié)合人類的文本指令,進行深入的邏輯思考,最終生成最佳的決策或行動方案。
3實戰(zhàn)教程:部署 Cosmos Reason-1-7B
接下來將帶你完成 Cosmos Reason-1-7B 模型的本地化部署,并為其創(chuàng)建一個簡潔的前端交互界面。整個過程分為三大核心步驟:
模型準備:從 Hugging Face Hub 下載 Cosmos-Reason1-7B 的模型權(quán)重。
后端部署:使用 vLLM 框架加載模型,以提供高性能的推理服務(wù)。
前端開發(fā):集成 Gradio 庫,創(chuàng)建一個用戶友好的 Web 界面,便于模型交互。
注意:
你需要一塊或多塊性能強勁的 NVIDIA GPU 來運行此模型(部署演示中使用了 4 張NVIDIA RTX 5880 Ada);
請確保已安裝 vllm、gradio、transformers、torch 等必要的 Python 庫。
下面的 Python 腳本整合了上述所有步驟,可供直接參考使用。
importgradioasgr fromtransformersimportAutoProcessor fromvllmimportLLM, SamplingParams fromqwen_vl_utilsimportprocess_vision_info # --- 1. 配置模型路徑 --- # 請將此路徑修改為您在本地服務(wù)器上下載的模型權(quán)重文件夾路徑 MODEL_PATH ="/data/Cosmos-Reason1-7B" # --- 2. 初始化vLLM引擎 --- # tensor_parallel_size 可根據(jù)您的GPU數(shù)量進行調(diào)整 llm = LLM( model=MODEL_PATH, tensor_parallel_size=4, pipeline_parallel_size=1, limit_mm_per_prompt={"image":10,"video":10}, ) # --- 3. 設(shè)置采樣參數(shù) --- sampling_params = SamplingParams( temperature=0.6, top_p=0.95, repetition_penalty=1.05, max_tokens=4096, ) # --- 4. 加載處理器 --- processor = AutoProcessor.from_pretrained(MODEL_PATH) # --- 5. 定義核心處理函數(shù) --- defparse_model_output(generated_text): """解析模型的輸出,分離思考過程和最終答案。""" think, answer ="","" # 分離標簽 if" "ingenerated_text: think_split = generated_text.split("") think = think_split[0].replace("","").strip() answer_part =" ".join(think_split[1:]).strip() else: answer_part = generated_text # 分離標簽 if" "inanswer_partand" "inanswer_part: answer = answer_part.split("")[1].split(" ")[0].strip() else: answer = answer_part.strip() returnthink, answer defvideo_chat(video_path, user_prompt): """處理視頻和文本輸入,并返回模型的推理結(jié)果。""" ifnot video_path ornot user_prompt: return"請輸入視頻和問題!","請輸入視頻和問題!" messages = [ {"role":"system","content":"You are a helpful assistant. Answer the question in the following format:your thought process your answer ."}, { "role":"user", "content": [ {"type":"text","text": user_prompt}, {"type":"video","video": video_path,"fps":4} ] }, ] # 構(gòu)建Prompt prompt = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) # 處理視覺信息 image_inputs, video_inputs, video_kwargs = process_vision_info(messages, return_video_kwargs=True) mm_data = {} ifimage_inputs isnotNone: mm_data["image"] = image_inputs ifvideo_inputs isnotNone: mm_data["video"] = video_inputs llm_inputs = { "prompt": prompt, "multi_modal_data": mm_data, "mm_processor_kwargs": video_kwargs, } # 生成結(jié)果 outputs = llm.generate([llm_inputs], sampling_params=sampling_params) generated_text = outputs[0].outputs[0].text # 解析并返回結(jié)果 think, answer = parse_model_output(generated_text) returnthink, answer # --- 6. 構(gòu)建Gradio Web界面 --- withgr.Blocks(theme=gr.themes.Soft())asdemo: gr.Markdown("# Cosmos-Reason1-7B 視頻理解Demo") gr.Markdown("上傳一段視頻,提出你的問題,看看AI如何“思考”和回答。") withgr.Row(): withgr.Column(scale=1): video_input = gr.Video(label="上傳視頻 (MP4)") prompt_input = gr.Textbox(label="請輸入你的問題", lines=2, placeholder="例如:視頻里的人正在干什么?他接下來最可能做什么?") submit_btn = gr.Button(" 提交", variant="primary") withgr.Column(scale=1): withgr.Accordion(" AI的思考過程(點擊展開/收起)",open=False): think_output = gr.Textbox(label="Thinking Process", lines=10, interactive=False) answer_output = gr.Textbox(label=" 最終答案", lines=6, interactive=False) submit_btn.click( video_chat, inputs=[video_input, prompt_input], outputs=[think_output, answer_output] ) if__name__ =="__main__": demo.launch(server_name="0.0.0.0", server_port=7860)
4模型實測:是否能理解真實意圖?
實測中拍攝了一段 MP4 格式視頻作為輸入:視頻中,一只手正準備啟動電風(fēng)扇。
我們向模型提出一個微妙的問題:
Question:what is the most plausible next immediate subtask?(最可能的下一個直接子任務(wù)是什么?)
模型的回答堪稱驚艷。為了更清晰地了解其思考方式,輸出結(jié)果整理如下:
AI 的思考過程(摘要)
好的,我們來分析一下。用戶詢問手啟動風(fēng)扇后的下一個直接子任務(wù)。視頻顯示,手觸摸風(fēng)扇后,扇葉開始旋轉(zhuǎn),說明風(fēng)扇被打開了。
既然已經(jīng)打開,下一步是什么?通常,人們會檢查風(fēng)扇是否正常工作,比如調(diào)節(jié)風(fēng)速或方向。考慮到這是一個“子任務(wù)”,下一個動作應(yīng)該與風(fēng)扇直接相關(guān)。
視頻中的風(fēng)扇底座上有指示燈,這很可能對應(yīng)著不同的設(shè)置。因此,在“打開”這個宏觀動作完成后,一個非常合理的、更精細化的交互就是去調(diào)整這些設(shè)置。所以,最可能的下一個子任務(wù)是調(diào)節(jié)風(fēng)扇的速度。
最終答案
Adjust the fan's speed using the indicators on its base.(根據(jù)風(fēng)扇底座上的指示燈調(diào)節(jié)風(fēng)扇轉(zhuǎn)速。)
從這個簡單的例子可以看出,模型的回答已經(jīng)超越了“打開風(fēng)扇”這一基本預(yù)判,直接推斷出更具體、更符合真實使用場景的交互動作——“調(diào)節(jié)風(fēng)速”。
這表明模型不僅識別了視頻中的物體(手和風(fēng)扇),還深刻理解了該電器的功能屬性(可調(diào)節(jié)的風(fēng)速)以及精細化的操作邏輯。這種基于對物體功能的認知,準確“理解”視頻中人的意圖并給出高度合理預(yù)測的能力,充分展現(xiàn)了其在運動、人機交互以及功能邏輯關(guān)系上的強大理解與預(yù)測能力。
-
機器人
+關(guān)注
關(guān)注
213文章
29697瀏覽量
212594 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5299瀏覽量
106260 -
AI
+關(guān)注
關(guān)注
88文章
35008瀏覽量
278722
原文標題:本地部署物理 AI!一文玩轉(zhuǎn) NVIDIA Cosmos Reason-1-7B
文章出處:【微信號:Leadtek,微信公眾號:麗臺科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
英偉達Cosmos-Reason1 模型深度解讀
基于NVIDIA Triton的AI模型高效部署實踐
如何本地部署大模型

NVIDIA Cosmos世界基礎(chǔ)模型平臺發(fā)布
NVIDIA發(fā)布Cosmos?平臺,助力物理AI系統(tǒng)發(fā)展
NVIDIA發(fā)布Cosmos平臺,加速物理AI開發(fā)
英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓(xùn)練數(shù)據(jù)問題

DeepSeek R1模型本地部署與產(chǎn)品接入實操

評論