女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用NVIDIA TensorRT提升Llama 3.2性能

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2024-11-20 09:59 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Llama 3.2 模型集擴(kuò)展了 Meta Llama 開(kāi)源模型集的模型陣容,包含視覺(jué)語(yǔ)言模型(VLM)、小語(yǔ)言模型(SLM)和支持視覺(jué)的更新版 Llama Guard 模型。與 NVIDIA 加速計(jì)算平臺(tái)搭配使用,Llama 3.2 可為開(kāi)發(fā)者、研究者和企業(yè)提供極具價(jià)值的新功能和優(yōu)化,幫助實(shí)現(xiàn)生成式 AI 用例。

1B 和 3B 規(guī)模的 SLM 基于 NVIDIA Tensor Core GPU 訓(xùn)練而成,最適合用于在各種邊緣設(shè)備上部署基于 Llama 的 AI 助手。11B 和 90B 規(guī)模的 VLM 支持文本和圖像輸入以及文本輸出。憑借多模態(tài)支持,VLM 可以幫助開(kāi)發(fā)者構(gòu)建需要視覺(jué)基礎(chǔ)、推理和理解能力的強(qiáng)大應(yīng)用。例如,他們可以構(gòu)建用于圖像描述生成、圖像轉(zhuǎn)文本檢索、視覺(jué)問(wèn)答和文檔問(wèn)答等的 AI 智能體。除文本輸入外,Llama Guard 模型現(xiàn)在還支持圖像輸入護(hù)欄。

Llama 3.2 模型架構(gòu)是一種自動(dòng)回歸語(yǔ)言模型,使用了經(jīng)過(guò)優(yōu)化的 Transformer 架構(gòu)。其指令調(diào)整版本使用了監(jiān)督微調(diào)(SFT)和人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)技術(shù),以符合人類(lèi)對(duì)有用性和安全性的偏好。所有模型均支持 128K 詞元的長(zhǎng)上下文長(zhǎng)度,并通過(guò)支持分組查詢(xún)注意力(GQA)針對(duì)推理進(jìn)行了優(yōu)化。

NVIDIA 已對(duì) Llama 3.2 模型集進(jìn)行了優(yōu)化,使其能夠在全球數(shù)百萬(wàn)個(gè) GPU 上實(shí)現(xiàn)高吞吐量和低延遲,其中包括數(shù)據(jù)中心、搭載NVIDIA RTX的本地工作站和搭載NVIDIA Jetson的邊緣應(yīng)用。本文將介紹針對(duì)硬件和軟件的優(yōu)化、定制和易于部署的功能。

使用 NVIDIA TensorRT

提升 Llama 3.2 的性能

為了提供空前吞吐量和最佳終端用戶(hù)體驗(yàn),同時(shí)降低成本和延遲,NVIDIA 正在加速 Llama 3.2 模型集。NVIDIA TensorRT包含了適用于高性能深度學(xué)習(xí)推理的 TensorRT 和 TensorRT-LLM 程序庫(kù)。

Llama 3.2 1B 和 Llama 3.2 3B 模型在 TensorRT-LLM 中使用按比例旋轉(zhuǎn)位置嵌入(RoPE)技術(shù)和其他幾項(xiàng)優(yōu)化措施(包括 KV 緩存和飛行批處理)獲得加速,以支持長(zhǎng)上下文。

Llama 3.2 11B 和 Llama 3.2 90B 模型均為多模態(tài)模型,并且包含一個(gè)視覺(jué)編碼器和一個(gè)文本解碼器。視覺(jué)編碼器通過(guò)將模型導(dǎo)出為 ONNX 圖并構(gòu)建 TensorRT 引擎獲得加速。ONNX 導(dǎo)出創(chuàng)建了一個(gè)包含內(nèi)置運(yùn)算符和標(biāo)準(zhǔn)數(shù)據(jù)類(lèi)型的標(biāo)準(zhǔn)模型定義,主要用于推理。TensorRT 利用 ONNX 圖,通過(guò)構(gòu)建 TensorRT 引擎針對(duì)目標(biāo) GPU 優(yōu)化模型。這種引擎能夠提供各種硬件級(jí)優(yōu)化,通過(guò)層和張量融合以及內(nèi)核自動(dòng)調(diào)整最大程度地提高 NVIDIA GPU 的利用率。

借助 TensorRT-LLM 支持的交叉注意力機(jī)制,視覺(jué)編碼器的視覺(jué)信息被融合到 Llama 文本解碼器中。這樣一來(lái),VLM 就能聯(lián)系輸入的文本進(jìn)行視覺(jué)推理和理解,從而高效率地生成文本。

使用 NVIDIA NIM

輕松部署生成式 AI 解決方案

用戶(hù)可使用NVIDIA NIM微服務(wù)將 TensorRT 優(yōu)化直接部署到生產(chǎn)中。NIM 微服務(wù)加速了生成式 AI 模型在所有 NVIDIA 加速基礎(chǔ)設(shè)施上的部署,包括云、數(shù)據(jù)中心和工作站等。

NIM 微服務(wù)支持 Llama 3.2 90B Vision Instruct,Llama 3.2 11B Vision Instruct,Llama 3.2 3B Instruct 和 Llama 3.2 1B Instruct 在生產(chǎn)中的部署。NIM 為生成式 AI 工作負(fù)載提供了經(jīng)過(guò)簡(jiǎn)化的管理和編排、標(biāo)準(zhǔn)應(yīng)用編程接口(API)以及帶有生產(chǎn)就緒容器的企業(yè)級(jí)支持。世界各地的開(kāi)發(fā)者、研究者和企業(yè)對(duì)整個(gè)生態(tài)系統(tǒng)提供了強(qiáng)大且日益增強(qiáng)的支持,目前已有超過(guò) 175 家合作伙伴將其解決方案與 NVIDIA NIM 微服務(wù)集成,他們可以從生成式 AI 應(yīng)用投資中取得最大的回報(bào)。

使用 NVIDIA AI Foundry 和 NVIDIA NeMo

定制和評(píng)估 Llama 3.2 模型

NVIDIA AI Foundry提供了一個(gè)端到端的 Llama 3.2 模型定制平臺(tái),使用戶(hù)能夠獲取先進(jìn)的 AI 工具、計(jì)算資源和 AI 專(zhuān)業(yè)知識(shí)。定制模型在專(zhuān)有數(shù)據(jù)上進(jìn)行微調(diào),使企業(yè)能夠在特定領(lǐng)域的任務(wù)中實(shí)現(xiàn)更高的性能和準(zhǔn)確性,從而獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。

開(kāi)發(fā)者可以借助NVIDIA NeMo整理他們的訓(xùn)練數(shù)據(jù),充分利用 LoRA、SFT、DPO、RLHF 等先進(jìn)的調(diào)校技術(shù)定制 Llama 3.2 模型、評(píng)估準(zhǔn)確性和添加護(hù)欄,以此保證模型提供適當(dāng)?shù)幕卮?。AI Foundry 在 NVIDIA DGX Cloud 上提供專(zhuān)用容量并得到 NVIDIA AI 專(zhuān)家的支持。輸出被打包成 NVIDIA NIM 推理微服務(wù)的定制 Llama 3.2 模型,該模型可部署在任何地方。

使用 NVIDIA RTX 和

NVIDIA Jetson 擴(kuò)展本地推理

如今,Llama 3.2 模型已在全球超過(guò) 1 億臺(tái) NVIDIA RTX PC 和工作站上進(jìn)行了優(yōu)化。為了部署在 Windows 中,NVIDIA 已對(duì)這套模型進(jìn)行了優(yōu)化,使其能夠利用 ONNX-GenAI 運(yùn)行時(shí)和 DirectML 后端實(shí)現(xiàn)高效運(yùn)行。

全新的 VLM 和 SLM 為 NVIDIA RTX 系統(tǒng)解鎖了新的功能。為了進(jìn)行演示,我們創(chuàng)建了一個(gè)多模態(tài)檢索增強(qiáng)生成(RAG)管線(xiàn)示例。該管線(xiàn)結(jié)合了文本和可視化數(shù)據(jù)處理(例如圖像、統(tǒng)計(jì)圖和圖表),具有更強(qiáng)大的信息檢索和生成功能。

請(qǐng)注意,您需要一個(gè)配備 NVIDIA RTX 專(zhuān)業(yè) GPU且顯存在 30GB 以上的 Linux 工作站。

SLM 專(zhuān)為邊緣設(shè)備本地部署而定制,采用了蒸餾、剪枝和量化等技術(shù)降低顯存、延遲和計(jì)算要求,同時(shí)保持了重點(diǎn)應(yīng)用領(lǐng)域的準(zhǔn)確性。如要下載 Llama 3.2 1B 和 3B SLM 并將其部署到 GPU 推理能力經(jīng)過(guò)優(yōu)化且具有 INT4/FP8 量化功能的 Jetson 上,請(qǐng)參見(jiàn)NVIDIA Jetson AI Lab 上的 SLM 教程

多模態(tài)模型為視頻分析和機(jī)器人領(lǐng)域帶來(lái)了獨(dú)一無(wú)二的視覺(jué)功能,因此在邊緣應(yīng)用中的作用越來(lái)越突出。

推動(dòng)社區(qū) AI 模型的發(fā)展

作為積極的開(kāi)源貢獻(xiàn)者,NVIDIA 致力于優(yōu)化社區(qū)軟件,幫助用戶(hù)應(yīng)對(duì)最嚴(yán)峻的挑戰(zhàn)。開(kāi)源 AI 模型還能促進(jìn)公開(kāi)透明,使用戶(hù)能夠大范圍地分享 AI 安全性和彈性方面的工作成果。

借助 Hugging Face 推理即服務(wù)功能,開(kāi)發(fā)者能夠快速部署領(lǐng)先的大語(yǔ)言模型(LLM),例如在 NVIDIA DGX Cloud 上運(yùn)行且通過(guò) NVIDIA NIM 微服務(wù)優(yōu)化的 Llama 3 模型集。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5292

    瀏覽量

    106154
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4934

    瀏覽量

    131042
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34914

    瀏覽量

    277939
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3512

    瀏覽量

    50285

原文標(biāo)題:從邊緣到云端部署經(jīng)加速的 Llama 3.2

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場(chǎng)景中的性能紀(jì)錄:在 G
    的頭像 發(fā)表于 07-02 19:31 ?839次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell GPU優(yōu)化DeepSeek-R1<b class='flag-5'>性能</b> 打破DeepSeek-R1在最小延遲場(chǎng)景中的<b class='flag-5'>性能</b>紀(jì)錄

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類(lèi)別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張 NVIDIA Ada Love
    的頭像 發(fā)表于 06-12 15:37 ?501次閱讀
    使用<b class='flag-5'>NVIDIA</b> Triton和<b class='flag-5'>TensorRT</b>-LLM部署TTS應(yīng)用的最佳實(shí)踐

    NVIDIA推出開(kāi)放式Llama Nemotron系列模型

    作為 NVIDIA NIM 微服務(wù),開(kāi)放式 Llama Nemotron 大語(yǔ)言模型和 Cosmos Nemotron 視覺(jué)語(yǔ)言模型可在任何加速系統(tǒng)上為 AI 智能體提供強(qiáng)效助力。
    的頭像 發(fā)表于 01-09 11:11 ?703次閱讀

    NVIDIA TensorRT-LLM中啟用ReDrafter的一些變化

    Recurrent Drafting (簡(jiǎn)稱(chēng) ReDrafter) 是蘋(píng)果公司為大語(yǔ)言模型 (LLM) 推理開(kāi)發(fā)并開(kāi)源的一種新型推測(cè)解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM 一起使用。
    的頭像 發(fā)表于 12-25 17:31 ?702次閱讀
    在<b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM中啟用ReDrafter的一些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM 是一個(gè)專(zhuān)為優(yōu)化大語(yǔ)言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?795次閱讀

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

    感謝眾多用戶(hù)及合作伙伴一直以來(lái)對(duì)NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 上公開(kāi)發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?691次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>TensorRT</b>-LLM Roadmap現(xiàn)已在GitHub上公開(kāi)發(fā)布

    用Ollama輕松搞定Llama 3.2 Vision模型本地部署

    Ollama的安裝。 一,Llama3.2 Vision簡(jiǎn)介 Llama 3.2 Vision是一個(gè)多模態(tài)大型語(yǔ)言模型(LLMs)的集合,它包括預(yù)訓(xùn)練和指令調(diào)整的圖像推理生成模型,有兩種參數(shù)規(guī)模
    的頭像 發(fā)表于 11-23 17:22 ?3708次閱讀
    用Ollama輕松搞定<b class='flag-5'>Llama</b> <b class='flag-5'>3.2</b> Vision模型本地部署

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對(duì)比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT
    的頭像 發(fā)表于 11-19 14:29 ?1194次閱讀
    <b class='flag-5'>TensorRT</b>-LLM低精度推理優(yōu)化

    Meta發(fā)布Llama 3.2量化版模型

    近日,Meta在開(kāi)源Llama 3.2的1B與3B模型后,再次為人工智能領(lǐng)域帶來(lái)了新進(jìn)展。10月24日,Meta正式推出了這兩個(gè)模型的量化版本,旨在進(jìn)一步優(yōu)化模型性能,拓寬其應(yīng)用場(chǎng)景。
    的頭像 發(fā)表于 10-29 11:05 ?826次閱讀

    Llama 3 性能評(píng)測(cè)與分析

    1. 設(shè)計(jì)與構(gòu)建質(zhì)量 Llama 3的設(shè)計(jì)延續(xù)了其前代產(chǎn)品的簡(jiǎn)潔風(fēng)格,同時(shí)在細(xì)節(jié)上進(jìn)行了優(yōu)化。機(jī)身采用了輕質(zhì)材料,使得整體重量得到了有效控制,便于攜帶。此外,Llama 3的表面處理工藝也有所提升
    的頭像 發(fā)表于 10-27 14:30 ?816次閱讀

    使用OpenVINO 2024.4在算力魔方上部署Llama-3.2-1B-Instruct模型

    前面我們分享了《三步完成Llama3在算力魔方的本地量化和部署》。2024年9月25日,Meta又發(fā)布了Llama3.2:一個(gè)多語(yǔ)言大型語(yǔ)言模型(LLMs)的集合。
    的頭像 發(fā)表于 10-12 09:39 ?1427次閱讀
    使用OpenVINO 2024.4在算力魔方上部署<b class='flag-5'>Llama-3.2</b>-1B-Instruct模型

    亞馬遜云科技上線(xiàn)Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新一代模型Llama 3.2已在其平臺(tái)上正式上線(xiàn)。該模型包括Meta首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMaker中全面可用。
    的頭像 發(fā)表于 10-11 18:08 ?738次閱讀

    亞馬遜云科技正式上線(xiàn)Meta Llama 3.2模型

    亞馬遜云科技宣布,Meta的新一代模型Llama 3.2,包括其首款多模態(tài)模型,現(xiàn)已在Amazon Bedrock和Amazon SageMaker中正式可用。
    的頭像 發(fā)表于 10-11 09:20 ?852次閱讀

    魔搭社區(qū)借助NVIDIA TensorRT-LLM提升LLM推理效率

    “魔搭社區(qū)是中國(guó)最具影響力的模型開(kāi)源社區(qū),致力給開(kāi)發(fā)者提供模型即服務(wù)的體驗(yàn)。魔搭社區(qū)利用NVIDIA TensorRT-LLM,大大提高了大語(yǔ)言模型的推理性能,方便了模型應(yīng)用部署,提高了大模型產(chǎn)業(yè)應(yīng)用效率,更大規(guī)模地釋放大模型的
    的頭像 發(fā)表于 08-23 15:48 ?1089次閱讀

    NVIDIA AI Foundry 為全球企業(yè)打造自定義 Llama 3.1 生成式 AI 模型

    借助 NVIDIA AI Foundry,企業(yè)和各國(guó)現(xiàn)在能夠使用自有數(shù)據(jù)與 Llama 3.1 405B 和 NVIDIA Nemotron 模型配對(duì),來(lái)構(gòu)建“超級(jí)模型” NVIDIA
    發(fā)表于 07-24 09:39 ?911次閱讀
    <b class='flag-5'>NVIDIA</b> AI Foundry 為全球企業(yè)打造自定義 <b class='flag-5'>Llama</b> 3.1 生成式 AI 模型
    主站蜘蛛池模板: 延安市| 桐庐县| 南部县| 民县| 营山县| 凉城县| 娄底市| 寿阳县| 巫溪县| 宕昌县| 榆树市| 夏津县| 白玉县| 贺兰县| 沙田区| 无极县| 仁怀市| 府谷县| 军事| 时尚| 博客| 天峻县| 紫金县| 宁晋县| 聊城市| 江永县| 青川县| 紫金县| 罗源县| 滦平县| 中宁县| 蓬莱市| 东台市| 大同市| 板桥市| 晴隆县| 大悟县| 巴林左旗| 罗城| 建水县| 商河县|