女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA recsys-examples在生成式推薦系統中的高效實踐

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-07-04 14:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

在生成式 AI 浪潮的推動下,推薦系統領域正經歷深刻變革。傳統的深度學習推薦模型 (DLRMs) 雖已展現出一定效果,但在捕捉用戶興趣偏好和動態行為序列變化時,常面臨可擴展性挑戰。生成式推薦系統 (Generative Recommenders, GRs) 的出現,為這一領域帶來了全新思路與機遇。

本文將介紹NVIDIA recsys-examples中針對生成式推薦場景設計的高效實踐參考。博客內容共分為上下兩篇,本篇將整體介紹 recsys-examples 的設計和功能,下篇將對核心模塊進行深入的解析。

GitHub repo:https://github.com/NVIDIA/recsys-examples

生成式推薦系統的崛起

Meta Research 的最新研究表明,生成式推薦系統通過將推薦問題重構為生成式建模框架下的序列 transduction 任務,展現出顯著優勢:

更個性化的推薦:能夠深入挖掘用戶獨特的行為模式與偏好。

更強的上下文感知能力:能夠更好地捕捉上下文序列信號,滿足序列建模的模型需求

以 Meta 提出的 HSTU (Hierarchical Sequential Transduction Units) 為例,其在推薦場景中性能超越傳統 Transformer 模型,且推理速度更快。

大規模訓練的挑戰與應對方案

然而,基于類 Transformer 架構的生成式推薦系統,因上下文長度增加和計算需求提升,在大規模訓練與部署時面臨嚴峻的計算和架構挑戰。為解決這些難題,NVIDIA 開發了 recsys-examples 參考實現,旨在展示大規模生成式推薦系統中訓練和推理的最優實踐。

NVIDIA recsys-examples 中的深度優化

NVIDIA recsys-examples 目前主要包含以下特性:

混合并行分布式訓練:基于 TorchRec(處理 sparse 部分的模型并行)和NVIDIA Megatron Core(適用于 dense 部分的數據并行與模型并行),優化多 GPU 分布式訓練流程,實現 sparse 和 dense 部分多種并行的高效協同。

高效 HSTU 注意力算子:通過NVIDIA CUTLASS實現高性能的 HSTU 注意力算子,提升計算效率。

動態 embedding 功能:結合NVIDIA Merlin HKV和 TorchRec,支持無沖突哈希、embedding eviction 及 CPU offloading 等動態 embedding 能力,適配大規模訓練場景。

當前,recsys-examples 中提供了基于 HSTU 排序和召回模型的大規模訓練示例,方便用戶快速使用和參考。

67477da2-4c43-11f0-b715-92fbcf53809c.png

圖 1:NVIDIA recsys-examples 的軟件架構,其中綠色部分是 NVIDIA 開源組件,紅色部分是社區開源組件

一、高效的 HSTU 內核

HSTU (Hierarchical Sequential Transduction Unit) 注意力結構是論文中提出的一種針對推薦系統優化的高效注意力機制。與標準的多頭注意力 (Multi-head Attention) 相比,HSTU 注意力做了以下關鍵改進:

Normalization改進:用 SiLU 替代 softmax,提升模型表達能力。

引入相對位置偏置:通過 Relative Attention Bias (RAB) 捕獲序列中的相對位置/時間信息。

在 recsys-examples 中,我們基于 NVIDIA CUTLASS 庫實現了高性能的 HSTU 注意力算子,并針對訓練和推理場景分別進行了優化。目前實現也已經合并到 FBGEMM 中,用戶可以直接通過 FBGEMM 使用。

1、訓練優化技術

Kernel Fusion 計算融合:借鑒 Flash Attention 的思想,將多個連續操作融合為單個 GPU 內核

靈活掩碼和 RAB 機制:支持可定制的 mask tensor 以及 RAB tensor,適應不同推薦場景下的序列建模需求

2、推理優化技術

簡化計算邏輯:使用 RAB (Relative Attention Bias) 作為負無窮替代傳統的 mask 操作,減少計算復雜度和內存訪問,提升推理速度

稀疏目標優化:針對推薦系統中常見的稀疏 target 計算模式進行優化,減少內存占用,并支持大規模目標的批量推理

在 NVIDIA Hopper 架構上,我們的 HSTU 注意力算子相比與 Triton 實現的版本,在各個問題尺寸上都有超過 3.5x 的加速比,并且在序列增長的情況下,加速比進一步提升。

67634398-4c43-11f0-b715-92fbcf53809c.png

圖 2:CUTLASS Kernel 在 NVIDIA Hopper 架構上與 Triton 的前向性能對比

677709c8-4c43-11f0-b715-92fbcf53809c.png

圖 3:CUTLASS Kernel 在 NVIDIA Hopper 架構上與 Triton 的后向性能對比

二、動態 embedding 與TorchRec 的無縫集成

TorchRec 目前對動態 embedding 的支持有兩種,分別是 contrib / dynamic_embedding 通過外掛 CPU redis 集群和在 ManagedCollision 模塊中通過額外的排序步驟來支持,兩者都會在原有 TorchRec 訓練流程的基礎上,增加額外的訓練時間開銷。

在 recsys-examples 中,我們引入 NVIDIA Merlin HierarchicalKV 作為底層存儲,并與 TorchRec 團隊合作基于 TorchRec 官方插件接口,直接替換 TorchRec 中原本的 FBGEMM 靜態存儲,支持了動態 embedding 支持能力。這一方案可在大規模推薦系統訓練場景中:

支持無沖突哈希映射

支持基于頻率或時間或自定義的 embedding 淘汰策略

提供 CPU offloading 機制來實現超大規模 embedding 存儲

支持 incremental dump 功能,根據用戶的需求只 dump 在過去一段時間內訓練過的 embedding

保持與原生 TorchRec 分布式訓練流程的無縫集成

相比 contrib / dynamic_embedding 中的實現,NVIDIA recsys-examples 能夠大幅度減少 CPU 上的操作開銷,在大規模訓練中能有超過 20 倍的加速效果。

更多詳細內容您可觀看 "RecSys Examples 中的訓練與推理優化實踐——以 HSTU 模型為例":

美團應用

NVIDIA recsys-examples 實踐

在過去幾個月中,我們與美團緊密合作,助力其加速基于 HSTU 架構的推薦模型在離線和在線試驗中的應用。在美團外賣場景下,通過引入 GR 模型結構,CTR 和 CTCVR 指標均實現了顯著提升(詳情參考 MTGR 博客)。

678dae62-4c43-11f0-b715-92fbcf53809c.png

圖 4:美團業務引入 GR 后的收益。

該圖片來源于 MTGR:美團外賣生成式推薦 Scaling Law 落地實踐一文,若您有任何疑問或需要使用該圖片,請聯系美團

我們的優化版 HSTU 算子,在訓練中,端對端吞吐提升 85%;在推理中,通過 TRT plugin 封裝,在 TRT 中引入了 HSTU fp16 算子,相比 TRT fp32 算子時延降低 50%,端對端耗時減少 30%。

總結與展望

NVIDIA recsys-examples 將生成式推薦(如 “Actions Speak Louder than Words” 論文中提出的技術)與分布式訓練(借由 TorchRec 增強)及優化訓練推理相結合,助力開發和部署能夠提供高度個性化用戶體驗的復雜推薦模型。我們誠摯邀請研究人員和從業者試用該工具,并期待與您共同推動生成式推薦系統的技術演進。

作者

劉仕杰

2020 年加入 NVIDIA DevTech 團隊,專注于 NVIDIA GPU 的性能優化及推薦系統加速領域。

張俊杰

來自 NVIDIA DevTech 團隊,從事企業用戶 GPU 加速計算支持工作,目前主要負責推薦系統訓練端到端優化工作。

姚家樹

來自 NVIDIA DevTech 團隊,從事企業用戶 GPU 加速計算支持工作,目前主要負責推薦系統 Embedding 存儲的開發和性能優化工作。

康暉

2022 年加入 NVIDIA DevTech 工程師團隊,目前從事機器人仿真加速相關工作,之前參加過 HugeCTR,SOK,recsys example 等項目開發和優化。

柴斌

來自 NVIDIA DevTech 團隊,從事企業用戶 GPU 加速計算支持工作。目前主要負責搜廣推鏈路的性能調優和 kernel 開發。

陳喬瑞

來自 NVIDIA DevTech 團隊,從事企業用戶 GPU 加速計算支持工作,目前主要負責 HPC 程序的開發和 kernel 性能優化。

孫佳鈺

來自 NVIDIA DevTech 團隊,從事企業用戶 GPU 加速計算支持工作。

張琪

來自 NVIDIA DevTech 團隊,從事企業用戶 GPU 加速計算支持工作,目前主要負責 CUTLASS 在推薦系統、LLM 等相關應用場景的性能優化與開發工作。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5292

    瀏覽量

    106150
  • AI
    AI
    +關注

    關注

    88

    文章

    34909

    瀏覽量

    277866
  • 模型
    +關注

    關注

    1

    文章

    3511

    瀏覽量

    50275

原文標題:NVIDIA recsys-examples: 生成式推薦系統大規模訓練推理的高效實踐(上篇)

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    嵌入系統在生活中有哪些應用

    2、嵌入系統在生活中有哪些應用各種智能家電,白色家電,黑色家電,都有嵌入系統的應用啊,只有老家電用的少,新的都離不開。當然還有最重要的手
    發表于 10-27 09:35

    嵌入語音識別系統在生活中的應用有哪些呢

    嵌入語音識別系統是什么?嵌入語音識別系統在生活中的應用有哪些呢?
    發表于 12-23 08:27

    Adobe 攜手 NVIDIA 釋放生成 AI 的力量

    的力量,以進一步推動創作流程的發展。Adobe 和 NVIDIA 將共同開發新一代先進的生成 AI 模型,側重于將生成 AI 深度集成
    發表于 03-22 14:14 ?507次閱讀
    Adobe 攜手 <b class='flag-5'>NVIDIA</b> 釋放<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 的力量

    GTC23 | Adobe 攜手 NVIDIA 釋放生成 AI 的力量

    ? ? Adobe 和 NVIDIA 將共同開發新一代先進的生成 AI 模型 ? ?此次合作的重點是將生成 AI 深度集成到創作流程
    的頭像 發表于 03-23 06:55 ?711次閱讀

    NVIDIA 攜手微軟,在生成 AI 的新時代推動 Windows PC 創新

    行業領導者打破藩籬,使開發人員能夠輕松地在 Windows 11 上訓練并部署先進的 AI 模型,并在配備 RTX 的 PC 和工作站上提供節能的推理。 生成 AI,以 ChatGPT 等大型語言
    的頭像 發表于 05-25 09:15 ?937次閱讀
    <b class='flag-5'>NVIDIA</b> 攜手微軟,<b class='flag-5'>在生成</b><b class='flag-5'>式</b> AI 的新時代推動 Windows PC 創新

    COMPUTEX2023 | 為加速生成 AI 而設計的 NVIDIA Grace Hopper 超級芯片全面投產

    GH200 驅動的系統將加入由 基于 NVIDIA Grace、NVIDIA Hopper 、NVIDIA Ada Lovelace 和NVIDI
    的頭像 發表于 05-30 01:40 ?1058次閱讀
    COMPUTEX2023 | 為加速<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 而設計的 <b class='flag-5'>NVIDIA</b> Grace Hopper 超級芯片全面投產

    VMware 與 NVIDIA 為企業開啟生成 AI 時代

    全新 VMware Private AI Foundation With NVIDIA 幫助企業為生成 AI 在業務的應用做好準備;該平臺將在數據隱私性、安全性和可控性方面提供進一
    的頭像 發表于 08-23 19:10 ?879次閱讀
    VMware 與 <b class='flag-5'>NVIDIA</b> 為企業開啟<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 時代

    NVIDIA 擴展機器人平臺,迎接生成 AI 的崛起

    基于 NVIDIA Jetson 平臺進行開發的 1 萬多家公司現在可以利用全新的生成 AI、API 和微服務來加快推進行業數字化 ? ? 強大的生成
    發表于 10-19 17:16 ?483次閱讀
    <b class='flag-5'>NVIDIA</b> 擴展機器人平臺,迎接<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 的崛起

    NVIDIA 擴展機器人平臺,迎接生成 AI 的崛起

    基于 NVIDIA Jetson 平臺進行開發的 1 萬多家公司現在可以利用全新的生成 AI、API 和微服務來加快推進行業數字化 強大的生成
    的頭像 發表于 10-20 02:05 ?760次閱讀
    <b class='flag-5'>NVIDIA</b> 擴展機器人平臺,迎接<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI 的崛起

    利用 NVIDIA Jetson 實現生成 AI

    近日,NVIDIA 發布了 Jetson 生成 AI 實驗室(Jetson Generative AI Lab),使開發者能夠通過 NVIDIA Jetson 邊緣設備在現實世界
    的頭像 發表于 11-07 21:25 ?1629次閱讀
    利用 <b class='flag-5'>NVIDIA</b> Jetson 實現<b class='flag-5'>生成</b><b class='flag-5'>式</b> AI

    生成AI通過NVIDIA Isaac平臺提高機器人的智能化水平

    今日,NVIDIA 機器人和邊緣計算副總裁 Deepu Talla 在 CES 上的特別演講,詳細介紹了 NVIDIA 及合作伙伴是如何將生成
    的頭像 發表于 01-09 10:27 ?1410次閱讀
    <b class='flag-5'>生成</b><b class='flag-5'>式</b>AI通過<b class='flag-5'>NVIDIA</b> Isaac平臺提高機器人的智能化水平

    NVIDIA生成AI開啟藥物研發與設計的新紀元

    NVIDIA BioNeMo 現已提供十余個生成 AI 模型以及云服務,正在推動計算機輔助藥物發現生態系統的發展。
    的頭像 發表于 01-10 16:00 ?814次閱讀
    <b class='flag-5'>NVIDIA</b><b class='flag-5'>生成</b><b class='flag-5'>式</b>AI開啟藥物研發與設計的新紀元

    SAP與NVIDIA攜手加速生成AI在企業應用的普及

    SAP SE 和 NVIDIA 宣布深化合作,致力于加速企業客戶在 SAP 云解決方案和應用組合利用數據和生成 AI 的變革力量。
    的頭像 發表于 03-22 10:02 ?916次閱讀

    NVIDIA助力Amdocs打造生成AI智能體

    正在使用NVIDIA DGX Cloud 與 NVIDIA AI Enterprise軟件開發和交付基于商用大語言模型(LLM)和領域適配模型的解決方案。該公司還在使用NVIDIA NIM,這是一套易于使用的推理微服務,旨在加
    的頭像 發表于 11-19 14:48 ?870次閱讀

    NVIDIA推出全新生成AI模型Fugatto

    NVIDIA 開發了一個全新的生成 AI 模型。利用輸入的文本和音頻,該模型可以創作出包含任意的音樂、人聲和聲音組合的作品。
    的頭像 發表于 11-27 11:29 ?803次閱讀
    主站蜘蛛池模板: 瑞丽市| 荆门市| 珠海市| 道真| 商丘市| 洛南县| 广东省| 扶风县| 木里| 石景山区| 宜城市| 清镇市| 旬阳县| 南和县| 北宁市| 嵊州市| 增城市| 长垣县| 嘉禾县| 桑植县| 河南省| 商城县| 涡阳县| 铜山县| 瑞安市| 双城市| 吕梁市| 洪湖市| 吴江市| 河北区| 北流市| 尉氏县| 武安市| 西乌| 墨脱县| 辉县市| 海淀区| 皋兰县| 柘荣县| 应用必备| 遂平县|