近日,北京后摩智能科技有限公司與北京大學(xué)集成電路學(xué)院孫廣宇長聘副教授團(tuán)隊、上海交通大學(xué)張宸助理教授團(tuán)隊、香港科技大學(xué)謝源講席教授團(tuán)隊、東南大學(xué)司鑫副教授團(tuán)隊及阿里巴巴達(dá)摩院合作的研究成果《H2-LLM: Hardware-Dataflow Co-Exploration for Heterogeneous Hybrid-Bonding-based Low-Batch LLM Inference》,成功榮獲第52屆計算機體系結(jié)構(gòu)國際研討會(ISCA)最佳論文獎。作為國內(nèi)學(xué)術(shù)機構(gòu)在該會議上的首次獲獎成果,其核心創(chuàng)新聚焦于邊緣側(cè)大語言模型(LLM)推理加速架構(gòu)的關(guān)鍵技術(shù)突破,為解決邊緣設(shè)備高效LLM推理難題提供了創(chuàng)新性方案。
隨著LLM在智能對話、代碼生成、邊緣推理等場景的規(guī)模化應(yīng)用,如何在邊緣設(shè)備上實現(xiàn)低延遲、高能效的推理計算,成為行業(yè)亟待攻克的技術(shù)瓶頸。現(xiàn)有DRAM近存計算架構(gòu)雖具備高帶寬優(yōu)勢,但受限于芯片計算邏輯嵌入設(shè)計,算力供給不足,難以滿足邊緣側(cè)對計算密集型任務(wù)的加速需求。針對這一挑戰(zhàn),合作團(tuán)隊基于混合鍵合(Hybrid Bonding)新興工藝,研發(fā)出面向邊緣側(cè)的H2-LLM推理加速架構(gòu)。該架構(gòu)通過提出通用近存計算架構(gòu)模板,抽象設(shè)計空間以協(xié)調(diào)工藝中算力與帶寬的權(quán)衡,并采用“以數(shù)據(jù)為中心”的數(shù)據(jù)流抽象優(yōu)化異構(gòu)硬件資源利用,實現(xiàn)了計算密集型與訪存密集型算子的協(xié)同加速。實驗數(shù)據(jù)顯示,相較于基線DRAM近存架構(gòu),H2-LLM在LLM推理的預(yù)填充(Prefill)和解碼(Decoding)階段實現(xiàn)2.72倍的性能提升與1.48倍的能效優(yōu)化,為邊緣設(shè)備部署大語言模型提供了關(guān)鍵技術(shù)支撐。
此次成果是產(chǎn)學(xué)研協(xié)同創(chuàng)新的典范。北京大學(xué)孫廣宇團(tuán)隊在領(lǐng)域定制芯片架構(gòu)設(shè)計與自動化領(lǐng)域處于國際領(lǐng)先地位,研究成果多次獲得頂級會議和期刊的最佳論文獎,并在多款芯片設(shè)計中實現(xiàn)產(chǎn)業(yè)驗證。后摩智能與上海交通大學(xué)、東南大學(xué)、阿里巴巴達(dá)摩院的合作,充分發(fā)揮了各方在學(xué)術(shù)研究、技術(shù)開發(fā)和應(yīng)用場景方面的優(yōu)勢,推動了邊緣計算與大模型推理技術(shù)的工程化落地。
ISCA作為計算機體系結(jié)構(gòu)領(lǐng)域的頂級國際會議,自1973年創(chuàng)辦以來,始終是學(xué)術(shù)界與產(chǎn)業(yè)界技術(shù)交流的核心平臺,與MICRO、HPCA、ASPLOS并稱“體系結(jié)構(gòu)四大會”。谷歌TPU、寒武紀(jì)芯片、華為昇騰等具有全球影響力的架構(gòu)創(chuàng)新均曾在此首發(fā)。此次獲獎標(biāo)志著中國在邊緣計算與LLM推理架構(gòu)領(lǐng)域的研究已躋身國際頂尖行列,對推動我國人工智能底層技術(shù)發(fā)展具有重要意義。
未來,后摩智能將繼續(xù)秉承開放合作、創(chuàng)新驅(qū)動的理念,與更多頂尖高校、科研機構(gòu)和企業(yè)開展深度合作,共同推動智能計算技術(shù)的創(chuàng)新與發(fā)展。同時,后摩智能也將繼續(xù)加強與各方的合作,圍繞國家新一代人工智能戰(zhàn)略需求,持續(xù)聚焦邊緣側(cè)計算與大模型推理的技術(shù)融合,共同推動智能計算技術(shù)的產(chǎn)業(yè)化應(yīng)用。
-
邊緣計算
+關(guān)注
關(guān)注
22文章
3314瀏覽量
50829 -
大模型
+關(guān)注
關(guān)注
2文章
3114瀏覽量
4020 -
LLM
+關(guān)注
關(guān)注
1文章
325瀏覽量
809
原文標(biāo)題:面向邊緣側(cè)LLM推理,后摩智能與北京大學(xué)等高校合作成果獲 ISCA 2025 最佳論文
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Nullmax端到端自動駕駛最新研究成果入選ICCV 2025

NVIDIA在ICRA 2025展示多項最新研究成果
芯馳科技榮獲2025金芯獎卓越產(chǎn)品獎
深演智能與長安汽車榮獲第六屆非凡獎“最佳行業(yè)汽車智能運營獎”
天馬微電子榮獲GARMIN“最佳合作伙伴獎”
電子發(fā)燒友榮獲人民郵電出版社-異步社區(qū)“2024年度最佳合作伙伴獎”
研華榮獲“統(tǒng)信軟件最佳合作伙伴獎”
基本半導(dǎo)體榮獲禾望電氣“最佳合作獎”
地平線榮獲比亞迪“最佳合作伙伴獎”
后摩智能與聯(lián)想攜手共創(chuàng)AI PC新紀(jì)元
后摩智能與聯(lián)想集團(tuán)簽署戰(zhàn)略協(xié)議 共同探索AI PC技術(shù)創(chuàng)新與應(yīng)用
芯動力科技論文入選ISCA 2024,與國際巨頭同臺交流研究成果

評論