欧美三级在线播放,jk制服国产在线视频,综合图区亚洲欧美另类图片

近日，基于開源KTransformers架構的 CPU/GPU 異構推理能力，沐曦在曦云C500單卡GPU上成功實現DeepSeek-R1-671B滿血版單并發解碼吞吐16.5 tokens/s的優異成績，相比社區官方數據提升20%以上。

相比國際高端GPU八卡滿血版部署方案，本項目在單并發性能上具有極高的性價比。

KTransformers項目介紹

KTransformers （https://github.com/kvcache-ai/ktransformers）是由清華大學 KVCache.AI 團隊聯合趨境科技開源的一套輕量化高性能模型推理框架，能夠在計算資源受限的場景下，通過 CPU/GPU 異構推理的方式更快速、更高效地實現大模型的本地推理。KTransformers旨在作為一個開放的平臺，用于試驗創新的大型語言模型（LLM）推理優化方案。同時，KTransformers也計劃演進成本地化中小并發場景下針對稀疏MoE模型最具性價比的開源推理引擎，以及成為一個算子級優化的集成實驗平臺。沐曦正在做的工作非常符合開源社區和KTransformers開源項目的發展。

開源合作內容介紹

沐曦和KVCache.AI團隊合作，通過對KTransformers模型框架進行細致的分析和調整，團隊成功達成了曦云C500與KTransformers的無縫對接，為進一步性能優化奠定了堅實的基礎。

完成基本功能適配后，沐曦研發團隊繼續對整個框架進行了優化。在深入研究了DeepSeek R1滿血版模型的計算特點和性能瓶頸，結合曦云C500的優勢，采用了一系列先進的技術和算法，詳細如下：

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能；

2加入了GPU fused MoE功能，該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運算能力，提升推理性能；

3配合自動/手工算子融合技術，高效的FP16/BF16精度Marlin算子（W4A16），以及經過深度優化的mcBLAS、PyTorch庫、FlashInfer庫。

此次合作不僅為KTransformers帶來了性能上的提升，更體現了開源共創的價值：不同的團隊和開發者通過資源共享、經驗交流，共同推動技術的進步。沐曦和清華大學KVCache.AI團隊的合作就是很好的例子，通過開源倉庫匯聚了各自的優勢，實現了技術上的突破，也為后續持續在開源社區推理優化提供了合作基礎。

通過開源社區的共同努力，KTransformers將不斷提升其性能和功能，為更多的用戶提供優質的服務。同時，這也將促進整個人工智能行業的發展，推動技術的不斷創新。單卡打開DeepSeek R1滿血版并不斷地提升性能只是一個開始，在開源共創的道路上，我們將迎來更多的驚喜和突破，共同開創國產算力生態和人工智能的無限未來。

關于沐曦

沐曦致力于為異構計算提供安全可靠的GPU芯片及解決方案，打造全棧GPU芯片產品，推出曦思N系列GPU用于智算推理，曦云C系列GPU用于通用計算，以及曦彩G系列GPU用于圖形渲染，滿足“高能效”及“高通用性”的算力需求。沐曦產品均采用完全自主研發的GPU IP，擁有完全自主的指令集和架構，配以兼容主流GPU生態的完整軟件棧（MXMACA），具備高能效和高通用性的天然優勢，能夠為客戶構建軟硬件一體的全面生態解決方案，是“雙碳”背景下推動數字經濟建設和產業數字化、智能化轉型升級的算力基石。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

gpu

gpu

+關注

關注
28

文章
4934

瀏覽量
131040
開源

開源

+關注

關注
3

文章
3657

瀏覽量
43731
沐曦

沐曦

+關注

關注
0

文章
33

瀏覽量
1409
DeepSeek

DeepSeek

+關注

關注
1

文章
793

瀏覽量
1610

原文標題：開源賦能：沐曦聯合清華大學KVCache.AI團隊加速DeepSeek滿血版單卡C500異構推理

文章出處：【微信號：沐曦MetaX，微信公眾號：沐曦MetaX】歡迎添加關注！文章轉載請注明出處。

女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

搜索歷史

沐曦加速DeepSeek滿血版單卡C500異構推理

評論