女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

英偉達:5nm實驗芯片用INT4達到INT8的精度

半導體產業縱橫 ? 來源:量子位 ? 作者:量子位 ? 2022-12-12 15:48 ? 次閱讀

IEEE計算機運算研討會。

32位與16位格式的混合精度訓練,正是當前深度學習的主流。

最新的英偉達核彈GPU H100,剛剛添加上對8位浮點數格式FP8的支持。

英偉達首席科學家Bill Dally現在又表示,他們還有一個“秘密武器”:

在IEEE計算機運算研討會上,他介紹了一種實驗性5nm芯片,可以混合使用8位與4位格式,并且在4位上得到近似8位的精度。

目前這種芯片還在開發中,主要用于深度學習推理所用的INT4和INT8格式,對于如何應用在訓練中也在研究了。

相關論文已發表在2022 IEEE Symposium on VLSI Technology上。

7c5c2558-7950-11ed-8abf-dac502259ad0.png

新的量化技術

降低數字格式而不造成重大精度損失,要歸功于按矢量縮放量化(per-vector scaled quantization,VSQ)的技術。

具體來說,一個INT4數字只能精確表示從-8到7的16個整數。

其他數字都會四舍五入到這16個值上,中間產生的精度損失被稱為量化噪聲。

傳統的量化方法給每個矩陣添加一個縮放因子來減少噪聲,VSQ則在這基礎之上給每個向量都添加縮放因子,進一步減少噪聲。

7c8c5386-7950-11ed-8abf-dac502259ad0.png

關鍵之處在于,縮放因子的值要匹配在神經網絡中實際需要表示的數字范圍。

英偉達研究人員發現,每64個數字為一組賦予獨立調整過的縮放因子可以最小化量化誤差。

計算縮放因子的開銷可以忽略不計,從INT8降為INT4則讓能量效率增加了一倍。

7cbba276-7950-11ed-8abf-dac502259ad0.png

Bill Dally認為,結合上INT4計算、VSQ技術和其他優化方法后,新型芯片可以達到Hopper架構每瓦運算速度的10倍。

還有哪些降低計算量的努力

除了英偉達之外,業界還有更多降低計算量的工作也在這次IEEE研討會上亮相。

馬德里康普頓斯大學的一組研究人員設計出基于Posits格式的處理器核心,與Float浮點數相比準確性提高了多達4個數量級。

Posits與Float相比,增加了一個可變長度的Regime區域,用來表示指數的指數。

對于0附近的較小數字只需要占用兩個位,而這類數字正是在神經網絡中大量使用的。

適用Posits格式的新硬件基于FPGA開發,研究人員發現可以用芯片的面積和功耗來提高精度,而不用增加計算時間。

7cf8a87e-7950-11ed-8abf-dac502259ad0.png

ETH Zurich一個團隊的研究基于RISC-V,他們把兩次混合精度的積和熔加計算(fused multiply-add,FMA)放在一起平行計算。

這樣可以防止兩次計算之間的精度損失,還可以提高內存利用率。

FMA指的是d = a * b + c這樣的操作,一般情況下輸入中的a和b會使用較低精度,而c和輸出的d使用較高精度。

研究人員模擬了新方法可以使計算時間減少幾乎一半,同時輸出精度有所提高,特別是對于大矢量的計算。

相應的硬件實現正在開發中。

7d2a0536-7950-11ed-8abf-dac502259ad0.png

巴塞羅那超算中心英特爾團隊的研究也和FMA相關,致力于神經網絡訓練可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型網絡訓練中得到應用,不過還需要與更高精度的FP32結合,并且在兩者之間來回轉換。

這是因為神經網絡訓練中只有一部分計算不會因BF16而降低精度。

最新解決辦法開發了一個擴展的格式BF16-N,將幾個BF16數字組合起來表示一個數,可以在不顯著犧牲精度的情況下更有效進行FMA計算

7d5cadce-7950-11ed-8abf-dac502259ad0.png

關鍵之處在于,FMA計算單元的面積只受尾數位影響。

比如FP32有23個尾數位,需要576個單位的面積,而BF16-2只需要192個,減少了2/3。

另外這項工作的論文題目也很有意思,BF16 is All You Need。

7d784610-7950-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 芯片
    +關注

    關注

    459

    文章

    52306

    瀏覽量

    437794
  • 英偉達
    +關注

    關注

    22

    文章

    3927

    瀏覽量

    93273

原文標題:英偉達首席科學家:5nm實驗芯片用INT4達到INT8的精度

文章出處:【微信號:ICViews,微信公眾號:半導體產業縱橫】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    i.mx95的EIQ轉換器將int8更改為uint8后出現報錯怎么解決?

    我有一個大型量化 tensorflow lite 模型。它包括輸入和輸出類型為 “int8” 的 “Softmax”作。 我正在運行 eIQ 模型工具版本 1.14.0 將模型轉換為 i.MX95
    發表于 04-14 07:15

    QuarkPi-CA2 RK3588S卡片電腦:6.0Tops NPU+8K視頻編解碼+接口豐富,高性能嵌入式開發!

    支持INT4/INT8/INT16/FP16,支持TensorFlow、PyTorch等主流框架,支持8K@60fps視頻解碼和8K@30f
    發表于 04-11 16:03

    在OpenVINO?工具套件的深度學習工作臺中無法導出INT8模型怎么解決?

    無法在 OpenVINO? 工具套件的深度學習 (DL) 工作臺中導出 INT8 模型
    發表于 03-06 07:54

    是否可以輸入隨機數據集來生成INT8訓練后量化模型?

    無法確定是否可以輸入隨機數據集來生成 INT8 訓練后量化模型。
    發表于 03-06 06:45

    英偉市值一夜蒸發近2萬億 英偉股價下跌超8%

    在美東時間周一,美股三大指數集體收跌,截至收盤,英偉股價下跌超8%,英偉市值一夜蒸發2650億美元(換算下來約合人民幣19345億元);
    的頭像 發表于 03-04 10:19 ?542次閱讀

    迅為iTOP-RK3588S開發板/核心板6TOPS的NPU算力視頻編解碼8K編碼+8K解碼

    8GB內存,32GBEMMC。 四核心架構GPU內置GPU可以完全兼容0penGLES1.1、2.0和3.2。 內置NPU RK3588S內置NPU,支持INT4/INT8/INT1
    發表于 02-20 14:24

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發揮出卓越的推理性能。
    的頭像 發表于 12-17 17:47 ?765次閱讀

    臺積電產能爆棚:3nm5nm工藝供不應求

    臺積電近期成為了高性能芯片代工領域的明星企業,其產能被各大科技巨頭瘋搶。據最新消息,臺積電的3nm5nm工藝產能利用率均達到了極高水平,其中3nm
    的頭像 發表于 11-14 14:20 ?879次閱讀

    英偉超越蘋果成為市值最高 英偉取代英特爾加入道指

    在AI浪潮下英偉被各路資本競相追逐,2024年英偉公司的股價累計上漲高達180%。在11月4日,英偉
    的頭像 發表于 11-05 15:22 ?739次閱讀

    英偉加速Rubin平臺AI芯片推出,SK海力士提前交付HBM4存儲器

    日,英偉(NVIDIA)的主要高帶寬存儲器(HBM)供應商南韓SK集團會長崔泰源透露,英偉執行長黃仁勛已要求SK海力士提前六個月交付用于英偉
    的頭像 發表于 11-05 14:22 ?1041次閱讀

    英偉Blackwell芯片量產加速,Q4預計出貨45萬片

    摩根士丹利最新發布的報告揭示了英偉在AI芯片領域的重大進展,其最新力作Blackwell芯片已成功步入量產階段,預示著英偉
    的頭像 發表于 09-27 15:02 ?1197次閱讀

    AI芯片巨頭英偉漲超4% 英偉市值暴增7500億

    誰是美股最靚的仔?在人工智能浪潮之下AI芯片巨頭英偉肯定有一席之地,特別是現在全球資本市場動蕩之際,業界分析師多認為英偉是最佳“反彈股”
    的頭像 發表于 08-13 15:33 ?1393次閱讀

    英偉回應AI芯片推遲發布傳聞

    近日,英偉就外界廣泛關注的AI芯片Blackwell推遲發布傳聞作出正式回應。84日,英偉
    的頭像 發表于 08-05 17:34 ?877次閱讀

    esp-dl int8量化模型數據集評估精度下降的疑問求解?

    一 試著將模型進行了esp-dl上int16和int8的量化,并在測試數據集上進行精度評估,其中int16的模型精度基本沒有下降,但是
    發表于 06-28 15:10
    主站蜘蛛池模板: 始兴县| 扶绥县| 怀仁县| 祁门县| 靖宇县| 安顺市| 郯城县| 山西省| 莲花县| 崇州市| 泾源县| 潜山县| 兴安县| 甘洛县| 当雄县| 祁门县| 漳浦县| 灵武市| 杭锦后旗| 伊川县| 鄱阳县| 淮滨县| 洛阳市| 长沙县| 望江县| 石楼县| 顺义区| 克拉玛依市| 丰都县| 新郑市| 本溪市| 台北县| 永川市| 金乡县| 浠水县| 胶南市| 四子王旗| 昌都县| 建阳市| 海原县| 建湖县|