女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

美團落實 AI 框架在 GPU 上性能推理的優化實踐

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 作者:NVIDIA英偉達企業解 ? 2021-12-28 09:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

美團是一家集生活服務及商品零售的電商平臺,公司聚焦“零售+科技”戰略,以“吃”為核心,通過科技創新,服務于生活服務業需求側和供給側數字化升級。美團在中國業務涵蓋餐飲、配送、網約車、共享單車、酒店及旅游預訂、電影票務等 200 多個服務品類,覆蓋全國 2800 個市區縣,服務 6.7 億活躍用戶和 830萬活躍商家。

伴隨著用戶規模的提升和業務的精細化運營,業務側對推薦系統的準確度、吞吐能力和時延都提出了新的挑戰,而 CTR 模型作為推薦系統的核心模型,其效果直接影響業務的收入。

美團的 CTR 模型過去一直在使用 CPU 推理的方式,但隨著用戶訪問量的提升和深度神經網絡的引入,CTR 模型結構趨于復雜,吞吐和計算量也越來越大,CPU 開始不能滿足模型對于算力的需求,而僅僅通過 CPU 服務器的堆疊帶來的性能提升性價比相較偏低。

GPU 擁有數以千計的計算核心,可以在單機內提供密集的并行計算能力,特別適合深度學習場景,在行業內已經在 CV 、NLP 等領域展示了強大的能力。通過 CUDA 及相關 API ,NVIDIA 建立了完整的 GPU 生態系統。基于此,美團基礎研發平臺將 CTR 模型部署到 GPU 上,并通過一系列針對 CPU 與 GPU 的異構系統并行計算設計、數據存儲方式和傳輸方式上的特定優化,希望能通過 GPU 強大的計算力,協助美團在 CTR 預測的各業務場景中發揮出最大優勢。

為了解決算力瓶頸及上述各種挑戰,美團機器學習平臺采用 NVIDIA AI 計算平臺,在繼 CV 、NLP 及 CTR 訓練后,也使用了 NVIDIA T4 來提供 CTR 預測支持,大幅提升用戶體驗與服務穩定性。除此之外,時延也是業務側非常重視的性能指標,許多復雜模型縱有更好的準確度,但卻因響應時間不達標而無法落地應用,例如,在某搜索框自動補全的場景,由于天然的交互屬性,時延要求非常苛刻,一般來說無法使用復雜的模型。而在 GPU 能力的加持下,其復雜模型的平均響應時間從 15 毫秒降低至 6~7 毫秒,足足縮短了一倍多,達到了上線要求。

通過 NVIDIA T4 深度優化方案,成功為美團 CTR 模型創造更多應用機會,不僅極大地提升了系統吞吐量,更進一步地提升了整個模型訓練的速度與降低訓練成本,落實 AI 框架在 GPU 上性能推理的優化實踐。

美團研發工程師,機器學習平臺預測引擎負責人王新表示,“在美團和英偉達的共同努力下, CTR 預測服務成功的遷移到 GPU 平臺上,在為業務提供更好的支撐的同時也獲得了更好的性價比;下一步,機器學習平臺計劃采用 NVIDIA Triton 推理服務框架和 NVIDIA Ampere A30 ,進一步提升美團推理服務的效率。”

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

審核編輯:彭菁
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11074

    瀏覽量

    216883
  • NVIDIA
    +關注

    關注

    14

    文章

    5299

    瀏覽量

    106286
  • AI
    AI
    +關注

    關注

    88

    文章

    35040

    瀏覽量

    279016
  • 美團
    +關注

    關注

    0

    文章

    125

    瀏覽量

    10655

原文標題:美團機器學習平臺使用 NVIDIA GPU 助力公司 CTR 預測服務升級

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    提升AI訓練性能GPU資源優化的12個實戰技巧

    在人工智能與機器學習技術迅速發展的背景下,GPU計算資源的高效利用已成為關鍵技術指標。優化GPU資源分配不僅能顯著提升模型訓練速度,還能實現計算成本的有效控制。根據AI基礎設施聯盟2
    的頭像 發表于 05-06 11:17 ?483次閱讀
    提升<b class='flag-5'>AI</b>訓練<b class='flag-5'>性能</b>:<b class='flag-5'>GPU</b>資源<b class='flag-5'>優化</b>的12個實戰技巧

    RK3588核心板在邊緣AI計算中的顛覆性優勢與場景落地

    推理任務,需額外部署GPU加速卡,導致成本與功耗飆升。 擴展性受限:老舊接口(如USB 2.0、百兆網口)無法支持5G模組、高速存儲等現代外設,升級困難。 開發周期長:BSP適配不完善,跨平臺AI
    發表于 04-15 10:48

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 推理優化
    的頭像 發表于 03-20 15:03 ?635次閱讀

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能
    的頭像 發表于 03-17 17:05 ?592次閱讀
    摩爾線程<b class='flag-5'>GPU</b>原生FP8計算助力<b class='flag-5'>AI</b>訓練

    無法在GPU運行ONNX模型的Benchmark_app怎么解決?

    在 CPU 和 GPU 運行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 推理成功,但在
    發表于 03-06 08:02

    無法調用GPU插件推理的遠程張量API怎么解決?

    運行了使用 GPU 插件的遠程張量 API 的推理。但是,它未能共享 OpenCL* 內存,但結果不正確。
    發表于 03-06 06:13

    AI推理帶火的ASIC,開發成敗在此一舉!

    的應用性價比遠超GPU,加上博通財報AI業務同比大增220%,掀起了AI推理端的ASIC熱潮。 ? 那么ASIC跟傳統的GPU有哪些區別,開
    的頭像 發表于 03-03 00:13 ?3230次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b>帶火的ASIC,開發成敗在此一舉!

    使用NVIDIA推理平臺提高AI推理性能

    NVIDIA推理平臺提高了 AI 推理性能,為零售、電信等行業節省了數百萬美元。
    的頭像 發表于 02-08 09:59 ?702次閱讀
    使用NVIDIA<b class='flag-5'>推理</b>平臺提高<b class='flag-5'>AI</b><b class='flag-5'>推理性能</b>

    SSM框架性能優化技巧 SSM框架中RESTful API的實現

    SSM框架性能優化技巧 SSM(Spring + Spring MVC + MyBatis)框架性能
    的頭像 發表于 12-17 09:10 ?777次閱讀

    SSM框架在Java開發中的應用 如何使用SSM進行web開發

    。以下是對SSM框架在Java開發中的應用,以及如何使用SSM進行web開發的介紹: SSM框架的組件及其作用 Spring :Spring是一個開源的Java/Java EE全功能棧
    的頭像 發表于 12-16 17:28 ?1565次閱讀

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術,Arm 正在努力優化 PyTorch,以加速在基于 Arm 架構的處理器
    的頭像 發表于 12-03 17:05 ?1477次閱讀
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b>LLM<b class='flag-5'>推理性能</b>

    《算力芯片 高性能 CPUGPUNPU 微架構分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變

    對卷積核優化的思考。 GPU的存儲體系采用了獨特的倒金字塔結構,在我看來這是其計算性能的關鍵。大容量寄存器設計破解了傳統馮諾依曼架構的內存瓶頸,合并訪存機制巧妙解決了內存帶寬限制。NVIDIA
    發表于 11-24 17:12

    NPU與GPU性能對比

    它們在不同應用場景下的表現。 一、設計初衷與優化方向 NPU : 專為加速AI任務而設計,包括深度學習和推理。 針對神經網絡的計算模式進行了優化,能夠高效地執行矩陣乘法、卷積等操作。
    的頭像 發表于 11-14 15:19 ?4099次閱讀

    TI TDA2x SoC基于GPU的環視優化

    電子發燒友網站提供《TI TDA2x SoC基于GPU的環視優化.pdf》資料免費下載
    發表于 10-10 09:14 ?0次下載
    TI TDA2x SoC<b class='flag-5'>上</b>基于<b class='flag-5'>GPU</b>的環視<b class='flag-5'>優化</b>

    揭秘動態化跨端框架在鴻蒙系統下的高性能解決方案

    平臺解決方案。 在研發團隊使用后可大幅降低研發人力成本;為業務提供實時觸達、A/B觸達等能力以提升業務投放效率;同時保障了C端用戶優秀的用戶體驗。 一、動態化跨端框架原理介紹 ? ? ? ? ? 通過上圖,我們先了解一下動態化跨端框架在iOS、Android等多個平臺實現
    的頭像 發表于 10-08 13:46 ?1460次閱讀
    揭秘動態化跨端<b class='flag-5'>框架在</b>鴻蒙系統下的高<b class='flag-5'>性能</b>解決方案
    主站蜘蛛池模板: 庄河市| 丰宁| 中阳县| 陈巴尔虎旗| 科技| 洛川县| 班玛县| 桑日县| 陇南市| 汝州市| 沅江市| 临朐县| 凉城县| 秀山| 青海省| 曲水县| 辽阳市| 丰原市| 潮安县| 武邑县| 陕西省| 武宁县| 于田县| 宁晋县| 新闻| 玉屏| 西充县| 锦屏县| 永清县| 武夷山市| 绥棱县| 颍上县| 涞源县| 汤阴县| 印江| 新建县| 儋州市| 普宁市| 乌兰察布市| 祁阳县| 华阴市|