女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種越來越多被應用于加速機器學習應用的浮點格式bfloat16

倩倩 ? 來源:lq ? 作者:TechEdge科技邊界 ? 2019-09-20 10:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Arm早前曾宣布其ArmV8-A架構的下一版本將包括對bfloat16的支持,現在透露了更多細節。

bfloat16是一種越來越多被應用于加速機器學習應用的浮點格式。谷歌、英特爾和不少新創公司都將bfloat16作為其AI加速架構的核心功能之一。

Bfloat16是由Google發明,最初在其第三代Tensor處理單元(TPU)中導入,作為加速機器學習之用。英特爾也認為該格式在未來AI計算中也有龐大的應用潛力,因此整合到其即將推出的“Cooper Lake”Xeon SP處理器,以及“Spring Crest”神經網絡處理器中,未來的Xe GPU也會支持。而包括Wave Computing、Habana Labs和Flex Logix等AI芯片新創公司也采用了支持該計算格式的定制AI處理器。

bfloat16的主要想法是提供動態范圍與標準IEEE-FP32相同的16位浮點格式,精度較低。相當于將8位的FP32指數字段的大小匹配,并將FP32分數字段的大小縮小到7位。

根據Arm首席架構師和研究員Nigel Stephens的說法,在大多數情況下,bfloat16格式與FP32一樣準確,用于神經網絡計算,但是以一半的位址就可以完成任務。因此,與32位相比,吞吐量可以翻倍,內存需求可以減半。在多數情況下,blfloat16可以成為這些機器學習算法中FP32的“插入式”替代品。由于神經網絡的計算性質,只要數據類型具有足夠的范圍和精度,就可以很好地適應少量噪聲,精準的完成模型訓練工作。

Arm將bfloat16的支持被放到ArmV8-A下的所有浮點處理的相關指令集,包含SVE(可擴展矢量擴展)、AArch64 Neon(64位SIMD)和AArch32 Neon(32位SIMD)。通過相關擴展的支持,加速基于Arm的客戶端和服務器的機器學習推理和培訓練過程。雖然Arm服務器市占率仍然很小,但其在智能手機等客戶端方面擁有幾乎絕對的統治地位,這意味著未來的手持式和物聯網設備將很快能夠利用更緊湊的數字格式來處理機器學習。

當然,Arm如果越強,那么采用自有AI架構的芯片設計業者壓力其實也會越大,就好比華為先后使用寒武紀與達芬奇架構,都是封閉的專有架構,高通也是采用DSP結合NPU計算,如果Arm官方架構性能有飛躍性的改進,那么這些采用定制AI架構的芯片設計者可能最終會被迫放棄自己的封閉架構,轉而擁抱Arm的開放架構。而這也有助于發展整體AI生態,畢竟使用相同開發環境的硬件基數越大,就能吸引更多應用開發者共同耕耘相關生態。

值得注意的是,Arm決定在SVE中加入bfloat16的支持這點。由于SVE是專門針對高性能計算的矢量指令集,截至目前為止,僅有富士通一家采用,并應用于其A64FX芯片上。Arm方面表示,由于HPC用戶對機器學習的興趣持續增加,過去只能依靠GPU方案來進行加速,若能在單一架構處理完機器學習的工作,那么就不用再額外花費成本添購專用的加速硬件。

使用bfloat16還有另一個好處,那就是它具有與FP32相同的動態范圍,這使得轉換現有使用FP32的現有計算代碼非常簡單,可以大規模無痛轉換既有的FP32應用到blfloat16數據格式下。

然而,SVE原本就可以針對從128位到2048位等不同的矢量長度來實現計算工作,理論上,bfloat16應該放在128位的Neon計算單元內比較合理。但實際上,數據的吞吐量其實還是要取決于硬件的實現選擇,比如說SVE執行單元的數量,以及Neon計算單元的數量。

而隨著Arm增加了bfloat16這個數據格式的支持,借以加速AI計算,這也讓GPU成為目前主流機器學習加速硬件中唯一不支持這種數據格式的架構,而英特爾即將推出的Xe GPU也會加入該格式的支持,包含AMD或NVIDIA,應該都會在下一代產品中增加此數據格式的支持。

根據ARM做的模擬,不同類型的運算中bfloat16帶來的性能提升不等,少的有1.6倍性能,多的可達4倍性能,性能成長相當驚人。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    134

    文章

    9346

    瀏覽量

    376833
  • 神經網絡
    +關注

    關注

    42

    文章

    4813

    瀏覽量

    103395
  • 機器學習
    +關注

    關注

    66

    文章

    8500

    瀏覽量

    134475
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    為什么越來越多政府單位用上了國產云終端?它比你想的更能打

    國產化進程不斷加速越來越多政府單位在信息化升級中將目光投向更輕巧、安全的國產云終端。在配合云桌面系統后,它的安全性、運維效率上更勝籌。國產電腦vs非國產化電腦:安全性與政策導向過去,我國電腦長期
    的頭像 發表于 06-13 11:34 ?325次閱讀
    為什么<b class='flag-5'>越來越多</b>政府單位用上了國產云終端?它比你想的更能打

    國產地物光譜儀為什么越來越多科研團隊選擇?

    地物光譜儀為什么越來越多科研團隊選擇?原因并不復雜,但值得細講。 、性能接近國際主流,滿足科研需求 國產地物光譜儀在核心技術上,近年來取得了質的進步: 1. 波段范圍齊全 常規科研所需的 350–2500nm全波段 (覆蓋
    的頭像 發表于 06-10 15:44 ?159次閱讀
    國產地物光譜儀為什么<b class='flag-5'>越來越多</b><b class='flag-5'>被</b>科研團隊選擇?

    RK3576 vs RK3588:為何越來越多的開發者轉向RK3576?

    瑞芯微(Rockchip)最新發布的 RK3576 經推出,就吸引了大量原本關注 RK3588 的開發者。RK3588 作為旗艦級芯片,性能固然強大,但 RK3576 憑借其超高的能效比、優化
    發表于 05-30 08:46

    Matter 智能家居的通用語言

    語言”,統了Thread、Wi-Fi 和以太網(外加用于將新設備調試到網絡的外加用于將新設備調試到網絡的[低功耗藍牙。 Matter 標準得到越來越多的企業采用,已迅速獲得了廣泛的關
    發表于 05-19 15:35

    基于雙向塊浮點量化的大語言模型高效加速器設計

    本文提出雙向塊浮點(BBFP)量化格式及基于其的LLMs加速器BBAL,通過雙向移位與重疊位設計顯著降低量化誤差,提升非線性計算效率,實現精度、吞吐量和能效的顯著優化,相關成果國際頂
    的頭像 發表于 05-14 13:40 ?1596次閱讀
    基于雙向塊<b class='flag-5'>浮點</b>量化的大語言模型高效<b class='flag-5'>加速</b>器設計

    詳解原子層沉積薄膜制備技術

    CVD 技術是一種在真空環境中通過襯底表面化學反應來進行薄膜生長的過程,較短的工藝時間以及所制備薄膜的高致密性,使 CVD 技術越來越多應用于薄膜封裝工藝中無機阻擋層的制備。
    的頭像 發表于 05-14 10:18 ?500次閱讀
    詳解原子層沉積薄膜制備技術

    為什么聊自動駕駛的越來越多,聊無人駕駛的越來越少?

    “無人駕駛”與“自動駕駛”,傻傻分不清楚?就在之前的篇文章中,引用了王傳福的句話,其說的是無人駕駛是“扯淡”( 相關閱讀: 無人駕駛是“扯淡”?是皇帝的新裝?),隨后也有小伙伴問,無人駕駛
    的頭像 發表于 02-23 10:52 ?527次閱讀
    為什么聊自動駕駛的<b class='flag-5'>越來越多</b>,聊無人駕駛的<b class='flag-5'>越來越</b>少?

    利用NVIDIA DPF引領DPU加速云計算的未來

    越來越多的企業開始采用加速計算,從而滿足生成式 AI、5G 電信和主權云的需求。NVIDIA 推出了 DOCA 平臺框架(DPF),該框架提供了基礎構建模塊來釋放 NVIDIA BlueField
    的頭像 發表于 01-24 09:29 ?676次閱讀
    利用NVIDIA DPF引領DPU<b class='flag-5'>加速</b>云計算的未來

    應用于活細胞成像的次性細胞培養芯片

    盡管最近幾年我們對細胞內過程的了解越來越多,但近期內100年來細胞培養的基本過程沒有根本性的改變。然而,觀察細胞的方法,卻在近些年進行場革命,如相差,差分干涉對照,共聚集和熒光等都應用于所有細胞
    的頭像 發表于 12-17 09:41 ?438次閱讀

    相比上代低功耗藍牙芯片,CC2745P到底升級了什么?

    Interconnect Network)總線是一種低成本串行通信網絡,也廣泛應用于汽車中的分布式電子系統控制。LIN總線作為輔助總線網絡,適用于不需要高帶寬和多功能的場合,如智能
    發表于 11-15 14:11

    NPU與機器學習算法的關系

    在人工智能領域,機器學習算法是實現智能系統的核心。隨著數據量的激增和算法復雜度的提升,對計算資源的需求也在不斷增長。NPU作為一種專門為深度學習
    的頭像 發表于 11-15 09:19 ?1179次閱讀

    為何越來越多的應用場景都會用到溫濕度控制器?

    、定義 溫濕度控制器是一種用于監測和控制環境溫度和濕度的設備。? 二、工作原理 溫濕度控制器通常由傳感器、控制器和執行機構組成。傳感器用于檢測環境中的溫度和濕度,并將檢測到的信號傳輸
    的頭像 發表于 10-14 14:28 ?757次閱讀

    為什么越來越多的視頻監控AI分析做到了攝像頭上?

    ,人們越來越希望利用AI計算機的運算能力和算法對視頻監控畫面進行分析,然后分析拍攝結果并自主反饋,以提高視頻監控的功能和利用效率。比如我們目前可以使用AI的技術進行人臉識別、物體識別、火焰識別,安全帽識別,高空拋物識別,工服識別,離港識別等等,可以實現的識別算法非常豐富。
    的頭像 發表于 10-10 16:12 ?1091次閱讀
    為什么<b class='flag-5'>越來越多</b>的視頻監控AI分析做到了攝像頭上?

    歐姆龍助力提高制造現場的生產效率和安全性

    人工作業的自動化和機器人的引入在加速開展,人與機械的協同作業越來越多
    的頭像 發表于 09-23 14:17 ?333次閱讀

    llm模型有哪些格式

    LLM(Large Language Model,大型語言模型)是一種深度學習模型,主要用于處理自然語言處理(NLP)任務。LLM模型的格式多種多樣,以下是
    的頭像 發表于 07-09 09:59 ?1372次閱讀
    主站蜘蛛池模板: 昌吉市| 建宁县| 象山县| 明溪县| 阜新| 清原| 库伦旗| 玉门市| 手游| 高唐县| 宁城县| 花垣县| 师宗县| 四子王旗| 东方市| 米林县| 环江| 和林格尔县| 祁东县| 龙山县| 平和县| 漳州市| 灵武市| 平利县| 民乐县| 丰都县| 灵山县| 漳浦县| 游戏| 芷江| 中牟县| 缙云县| 永济市| 晋江市| 昭通市| 五峰| 红安县| 桑植县| 文成县| 聂荣县| 神池县|