女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用Chiplet解決ASIC在LLM上的成本問題

E4Life ? 來源:電子發(fā)燒友網(wǎng) ? 作者:周凱揚(yáng) ? 2023-07-18 00:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))雖說最近靠著GPT大語言模型的熱度,英偉達(dá)之類的主流GPU公司賺得盆滿缽滿,但要說仗著GPU的高性能就能高枕無憂的話,也就未免有些癡人說夢了。未來隨著LLM的繼續(xù)發(fā)展,訓(xùn)練與推理如果要花費(fèi)同樣的硬件成本,那么即便是大廠也難以負(fù)擔(dān)。

所以不少廠商都在追求如何削減TCO(總擁有成本)的辦法,有的從網(wǎng)絡(luò)結(jié)構(gòu)出發(fā),有的從自研ASIC出發(fā)的,但收效甚微,到最后還是得花大價(jià)錢購置更多的GPU。而來自華盛頓大學(xué)和悉尼大學(xué)的幾位研究人員,在近期鼓搗出的Chiplet Cloud架構(gòu),卻有可能顛覆這一現(xiàn)狀。

TCO居高不下的因素

對于大部分廠商來說,純粹的TCO并不是他們考慮的首要因素,他們更關(guān)注的是同一性能下如何實(shí)現(xiàn)更低的TCO。當(dāng)下,限制GPU在LLM推理性能上的主要因素之一,不是Tensor核心的利用率,而是內(nèi)存帶寬。

比如在更小的batch size和普通的推理序列長度下,內(nèi)存帶寬就會限制對模型參數(shù)的讀取,比如把參數(shù)從HBM加載到片上寄存器,因?yàn)槿B接層中的GeMM(通用矩陣乘)計(jì)算強(qiáng)度不高,幾乎每次計(jì)算都需要加載新的參數(shù)。

而Chiplet Cloud為了獲得更好的TCO與性能比,選擇了片上SRAM而不是HBM的外部內(nèi)存方案,將所有模型參數(shù)和中間數(shù)據(jù)(比如K和V向量等)緩存到片上內(nèi)存中去,從而實(shí)現(xiàn)了比傳統(tǒng)的DDR、HBM2e更好的單Token TCO表現(xiàn),同時(shí)也獲得了更大的內(nèi)存帶寬。

Chiplet Cloud,作為基于chiplet的ASIC AI超算架構(gòu),正是專為LLM減少生成單個(gè)Token所需的TCO成本設(shè)計(jì)的。從他們給出的評估數(shù)據(jù)對比來看,與目前主流的GPU和TPU對比,只有Chiplet Cloud對于TCO/Token做了極致的優(yōu)化。比如在GPT-3上,32個(gè)Chiplet Cloud服務(wù)器相較32個(gè)DGX A100服務(wù)器的TCO成本改善了94倍,在PaLM 540B上,30個(gè)Chiplet Cloud服務(wù)器相較64個(gè)TPUv4芯片將TCO改善了15倍。
wKgZomS1FPWAOS6YAAC_p1YvQu0512.png

更靈活的Chiplet方案

為什么選擇Chiplet呢?我們先來看一個(gè)極端的堆片上內(nèi)存的例子,也就是直接選擇晶圓級的“巨芯”,比如Cerebras Systems打造的WSE-2芯片。該芯片基于7nm工藝下的一整片12英寸晶圓打造,集成了2.6萬億個(gè)晶體管,面積達(dá)到46255mm2,片上內(nèi)存更是達(dá)到了40GB。

但這樣的巨芯設(shè)計(jì)意味著高昂的制造成本,所以Chiplet Cloud的研究人員認(rèn)為更大的SRAM應(yīng)該與相對較小的芯片對應(yīng),這樣才能減少制造成本,所以他們選擇了chiplet的設(shè)計(jì)方式。近來流行的Chiplet方案提高了制造良率,也減少了制造成本,允許在不同的系統(tǒng)層級上進(jìn)行設(shè)計(jì)的重復(fù)利用。

以臺積電7nm工藝為例,要想做到0.1/cm2的缺陷密度,一個(gè)750mm2芯片的單價(jià)是一個(gè)150mm2芯片單價(jià)的兩倍,所以Chiplet的小芯片設(shè)計(jì)成本更低。重復(fù)利用的設(shè)計(jì)也可以進(jìn)一步降低成本,加快設(shè)計(jì)周期,為ASIC芯片提供更高的靈活性。

Chiplet Cloud更適合哪些廠商

雖然論文中提到了不少Chiplet Cloud的優(yōu)點(diǎn),但這依然是一個(gè)尚未得到實(shí)際產(chǎn)品驗(yàn)證的架構(gòu),擁有驗(yàn)證實(shí)力的公司往往也只有微軟、谷歌、亞馬遜以及阿里巴巴這類具備芯片設(shè)計(jì)實(shí)力的公司。況且ASIC終究是一種特化的方案,最清楚云平臺計(jì)算負(fù)載需要哪些優(yōu)化,還得是云服務(wù)廠商自己。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    459

    文章

    52414

    瀏覽量

    439452
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1245

    瀏覽量

    122259
  • chiplet
    +關(guān)注

    關(guān)注

    6

    文章

    454

    瀏覽量

    12957
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    803
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對基于 Diffusion 和 LLM 類別的 TTS 模型,NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。單張 NVIDIA Ada Lovelace
    的頭像 發(fā)表于 06-12 15:37 ?509次閱讀
    使用NVIDIA Triton和TensorRT-<b class='flag-5'>LLM</b>部署TTS應(yīng)用的最佳實(shí)踐

    無法OVMS運(yùn)行來自Meta的大型語言模型 (LLM),為什么?

    無法 OVMS 運(yùn)行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運(yùn)行 llama_chat Python* Demo 時(shí)遇到錯(cuò)誤。
    發(fā)表于 03-05 08:07

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    隨著大規(guī)模語言模型(LLM性能、成本和應(yīng)用前景的快速發(fā)展,越來越多的團(tuán)隊(duì)開始探索如何自主訓(xùn)練LLM模型。然而,是否從零開始訓(xùn)練一個(gè)
    的頭像 發(fā)表于 01-09 12:12 ?923次閱讀
    小白學(xué)大模型:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    Neuchips展示大模型推理ASIC芯片

    領(lǐng)先的AI專用集成電路(ASIC)解決方案提供商N(yùn)euchipsCES 2024展示了其革命性的Raptor Gen AI加速芯片(以前稱為N3000)和Evo PCIe加速卡LLM
    的頭像 發(fā)表于 01-06 17:30 ?734次閱讀

    NVIDIA TensorRT-LLM Roadmap現(xiàn)已在GitHub公開發(fā)布

    感謝眾多用戶及合作伙伴一直以來對NVIDIA TensorRT-LLM的支持。TensorRT-LLM 的 Roadmap 現(xiàn)已在 GitHub 公開發(fā)布!
    的頭像 發(fā)表于 11-28 10:43 ?691次閱讀
    NVIDIA TensorRT-<b class='flag-5'>LLM</b> Roadmap現(xiàn)已在GitHub<b class='flag-5'>上</b>公開發(fā)布

    Chiplet技術(shù)有哪些優(yōu)勢

    Chiplet技術(shù),就像樂高積木拼搭玩具一樣,將芯片的不同功能模塊,例如CPU、GPU、內(nèi)存等,分別制造成獨(dú)立的小芯片。
    的頭像 發(fā)表于 11-27 15:53 ?1079次閱讀

    什么是LLMLLM自然語言處理中的應(yīng)用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學(xué)習(xí)技術(shù),尤其是變換器(Transformer)架構(gòu)。變換器模型因其自注意力(Self-Attention)機(jī)制而聞名,這種機(jī)制使得模型能夠捕捉文本中的長距離依賴關(guān)系。
    的頭像 發(fā)表于 11-19 15:32 ?3590次閱讀

    LLM技術(shù)對人工智能發(fā)展的影響

    。 一、LLM技術(shù)人工智能領(lǐng)域的應(yīng)用 自然語言處理(NLP) LLM技術(shù)自然語言處理領(lǐng)域發(fā)揮著重要作用。通過訓(xùn)練模型識別和生成語言模式,LLM
    的頭像 發(fā)表于 11-08 09:28 ?1833次閱讀

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    人工智能領(lǐng)域,LLM(Large Language Models,大型語言模型)和傳統(tǒng)機(jī)器學(xué)習(xí)是兩種不同的技術(shù)路徑,它們處理數(shù)據(jù)、模型結(jié)構(gòu)、應(yīng)用場景等方面有著顯著的差異。 1. 模型結(jié)構(gòu)
    的頭像 發(fā)表于 11-08 09:25 ?1829次閱讀

    IMEC組建汽車Chiplet聯(lián)盟

    、西門子、SiliconAuto、Synopsys、Tenstorrent和Valeo等在內(nèi)的多家行業(yè)巨頭加入。 ACP的目標(biāo)是通過聯(lián)合全球汽車產(chǎn)業(yè)鏈的主要玩家,共同研究和開發(fā)Chiplet技術(shù),以
    的頭像 發(fā)表于 10-15 13:36 ?627次閱讀
    IMEC組建汽車<b class='flag-5'>Chiplet</b>聯(lián)盟

    創(chuàng)新型Chiplet異構(gòu)集成模式,為不同場景提供低成本、高靈活解決方案

    顆是原生支持Transformer全系算子的AI Chiplet“大熊星座”。 ? Chiplet 集成模式提供低成本、高靈活解決方案 ? 隨著摩爾定律逐步放緩以及先進(jìn)封裝等技術(shù)的發(fā)展,高性能計(jì)算芯片的迭代無需再僅僅圍繞摩爾定律
    的頭像 發(fā)表于 08-19 00:02 ?4100次閱讀

    ASIC IP核移植到FPGA——更新概念并推動(dòng)改變以完成充滿挑戰(zhàn)的任務(wù)!

    使用預(yù)先定制功能即IP核的必要性開始,通過闡述開發(fā)ASIC原型設(shè)計(jì)時(shí)需要考慮到的IP核相關(guān)因素,八個(gè)重要主題詳細(xì)分享了利用ASIC所用IP來FPGA
    的頭像 發(fā)表于 08-10 17:13 ?1081次閱讀
    將<b class='flag-5'>ASIC</b> IP核移植到FPGA<b class='flag-5'>上</b>——更新概念并推動(dòng)改變以完成充滿挑戰(zhàn)的任務(wù)!

    llm模型訓(xùn)練一般什么系統(tǒng)

    LLM(Large Language Model,大型語言模型)是近年來自然語言處理領(lǐng)域取得顯著成果的一種深度學(xué)習(xí)模型。它通常需要大量的計(jì)算資源和數(shù)據(jù)來進(jìn)行訓(xùn)練。以下是關(guān)于LLM模型訓(xùn)練系統(tǒng)的介紹
    的頭像 發(fā)表于 07-09 10:02 ?791次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學(xué)習(xí)模型,主要用于處理自然語言處理(NLP)任務(wù)。LLM模型的格式多種多樣,以下是一些常見的LLM模型格式
    的頭像 發(fā)表于 07-09 09:59 ?1363次閱讀

    LLM模型的應(yīng)用領(lǐng)域

    本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應(yīng)用領(lǐng)域。LLM是一種基于深度學(xué)習(xí)的人工智能技術(shù),它能夠理解和生成自然語言文本。近年來,隨著計(jì)算能力的提高
    的頭像 發(fā)表于 07-09 09:52 ?1255次閱讀
    主站蜘蛛池模板: 屯门区| 蓝田县| 锦州市| 玛纳斯县| 巴南区| 抚顺县| 巴林左旗| 时尚| 五河县| 铜山县| 任丘市| 新干县| 水富县| 江山市| 白银市| 临湘市| 靖州| 河曲县| 霍山县| 灵川县| 乌鲁木齐县| 林周县| 沁水县| 二连浩特市| 安吉县| 南靖县| 山西省| 永嘉县| 永城市| 潢川县| 宿州市| 扶余县| 通州市| 沽源县| 维西| 张家口市| 新晃| 巴南区| 平度市| 新建县| 类乌齐县|