女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌TPU2和英偉達(dá)V100的性能詳細(xì)對(duì)比

ml8z_IV_Technol ? 來源:未知 ? 作者:胡薇 ? 2018-05-04 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文詳細(xì)對(duì)比了谷歌TPU2和英偉達(dá)V100的性能,有兩個(gè)對(duì)比方向:一是測(cè)試在沒有增強(qiáng)過的合成數(shù)據(jù)上的吞吐量(每秒圖像);二是,考察ImageNet上兩者實(shí)現(xiàn)的精確性和收斂性。結(jié)果在ResNet-50模型的原始表現(xiàn)上,4塊TPU2芯片和4塊V100GPU速度相同。訓(xùn)練ResNet-50時(shí)谷歌云TPU的實(shí)現(xiàn)用時(shí)短到令人發(fā)指,且基于ImageNet數(shù)據(jù)集的圖像分類準(zhǔn)確度達(dá)76.4%的成本只要73美元,說物美價(jià)廉可能也不過分。

去年5月,谷歌推出了第二代TPU芯片,這是一個(gè)自定義開發(fā)的深度學(xué)習(xí)加速芯片,不少人認(rèn)為有望成為英偉達(dá)GPU的替代品。

可事實(shí)真的如此么?

在這篇文章中,作者詳細(xì)對(duì)比了谷歌TPU2和英偉達(dá)V100的性能。孰優(yōu)孰劣,一較便知~

環(huán)境設(shè)置

話不多說直接上干貨了。下面我們就先比較由四個(gè)TPU芯片組成的TPU2組合板與四個(gè)英偉達(dá)V100 GPU的環(huán)境設(shè)置的差別。

巧的是,因?yàn)閮烧叩目們?nèi)存均為64G,因此我們能夠用同一個(gè)模型測(cè)試了,還能使用相同的batch size,節(jié)省了不少工夫呢。

在這次實(shí)驗(yàn)中,我們用相同的方式訓(xùn)練模型,雙方需要運(yùn)行同步數(shù)據(jù)并行分布式訓(xùn)練。

最后,我們選中了ImageNet上的ResNet-50模型進(jìn)行測(cè)試。它實(shí)際上是圖像分類的一個(gè)參考點(diǎn),雖然參考實(shí)現(xiàn)是公開的,但目前還沒有一個(gè)支持在云TPU和多個(gè)GPU上訓(xùn)練的單一實(shí)現(xiàn)。

先看看V100這一邊,英偉達(dá)建議用MXNet或TensorFlow來實(shí)現(xiàn),兩者都可以在英偉達(dá)GPU云上的Docker映像中使用。

但實(shí)際的操作中我們卻發(fā)現(xiàn)了一些問題,這要是兩種實(shí)現(xiàn)不能很好融合多個(gè)GPU和產(chǎn)生的大型batch size。

好在我們還有一些新發(fā)現(xiàn),從TensorFlow的基準(zhǔn)存儲(chǔ)庫(kù)中使用ResNet-50實(shí)現(xiàn),并在Docker映像中運(yùn)行它是可行的。這種方法比英偉達(dá)的推薦的TensorFlow實(shí)現(xiàn)要快得多,只比MXNet實(shí)現(xiàn)稍微慢一點(diǎn)(約3%)。這樣一來,也更容易在相同版本中用同一個(gè)框架的實(shí)現(xiàn)做對(duì)比。

再看看谷歌云TPU這一邊,官方建議用帶TensorFlow 1.7.0官方TPU存儲(chǔ)庫(kù)的bfloat16實(shí)現(xiàn)。TPU和GPU實(shí)現(xiàn)都在各自的體系架構(gòu)上使用混合精度計(jì)算,但大部分張量是以半精度的方式儲(chǔ)存的。

一翻研究和對(duì)比后……我們終于敲定了實(shí)驗(yàn)方案。

對(duì)于V100來說,我們決定用AWS上的p3.8xlarge實(shí)例(Xeon E5-2686@2.30GHz 16內(nèi)核,244GB內(nèi)存,Ubuntu16.04),用4個(gè)單個(gè)內(nèi)存為16GB的V100 GPU進(jìn)行測(cè)試。

TPU這邊的測(cè)試,我們將小型的n1-standard-4實(shí)例作為host(Xeon@2.3GHz兩核,15GB內(nèi)存,Debian 9),我們提供了一個(gè)云TPU,由4個(gè)單個(gè)內(nèi)存為16G的TPU2芯片組成。

方案敲定后,我們又規(guī)劃了兩個(gè)對(duì)比方向。

一是我們要測(cè)試在沒有增強(qiáng)過的合成數(shù)據(jù)上的吞吐量(每秒圖像)。這種比較獨(dú)立于收斂性,保證里了在I/O或數(shù)據(jù)增強(qiáng)中沒有瓶頸bottleneck影響結(jié)果。

二是,我們要考察ImageNet上兩者實(shí)現(xiàn)的精確性和收斂性。

目標(biāo),明確,方法,明確。我們迫不及待開始測(cè)試了——

吞吐量測(cè)試

我們依據(jù)每秒合成數(shù)據(jù)上的圖像來測(cè)量吞吐量,即在訓(xùn)練數(shù)據(jù)實(shí)時(shí)創(chuàng)建、batch size也不同的情況下對(duì)吞吐量進(jìn)行檢測(cè)。

雖然~官方只推薦的TPU的batch size是1024,但是基于讀者的請(qǐng)求,我們還報(bào)告了其他batch size大小的性能。

△在合成數(shù)據(jù)和w/o數(shù)據(jù)增強(qiáng)的不同批次上每秒的圖像性能

在batch size為1024的情況下,雙方的吞吐量旗鼓相當(dāng),TPU略領(lǐng)先2%。

當(dāng)batch size較小時(shí),在雙方吞吐量均降低,但對(duì)比起來GPU的性能稍好一些。看來,這些batch size真的不是TPU的推薦設(shè)置~

根據(jù)英偉達(dá)的建議,我們還也在MXNet上做了一個(gè)GPU測(cè)驗(yàn)。

利用英偉達(dá)GPU云上Docker映像中提供的ResNet-50實(shí)現(xiàn)(mxnet:18.03-py3),我們發(fā)現(xiàn)在batch size為768的情況下,GPU每秒能處理約3280個(gè)圖像。這比上面最好的TPU結(jié)果還要快3%。

也正如上面所說的那樣,在上述batch size下,MXNet的實(shí)現(xiàn)在多個(gè)GPU上并沒有很好聚合。所以,我們接下來研究的重點(diǎn)就是這就是為什么我們將重點(diǎn)就是TensorFlow的實(shí)現(xiàn)。

性價(jià)比

上面我們也提到過,谷歌云TPU2一組有四塊芯片,目前只在谷歌云上才能用到。

當(dāng)需要進(jìn)行計(jì)算時(shí),我們可以將它與虛擬機(jī)相連。考慮到谷歌云上不支持英偉達(dá)V100,所以其云服務(wù)只能來自AWS。

基于上述結(jié)果,我們可以把數(shù)據(jù)標(biāo)準(zhǔn)化,從每小時(shí)的花費(fèi)、每秒處理的圖片數(shù)量、每美元能處理的圖片數(shù)三個(gè)維度進(jìn)行對(duì)比。

△每美元每秒處理圖像的表現(xiàn)

對(duì)比下來,谷歌云TPU性價(jià)比略高。不過,谷歌TPU目前不賣,只能租。如果你考慮長(zhǎng)期租用,或者購(gòu)買的話,結(jié)論就不一樣了。

有一點(diǎn)你可能忘了,上面這張表的前提是假定了我們的租期為12個(gè)月,所以費(fèi)用中包含了AWS上p3.8xlarge實(shí)例,并且不需要提前支付定金。這樣大大降低了價(jià)格,還能達(dá)到每美元能處理375張圖片的不錯(cuò)效果。

其實(shí)對(duì)于GPU來說,還有更多的選擇。比方說,Cirrascale提供4臺(tái)V100GPU服務(wù)器的月租服務(wù),收費(fèi)大概是7500美元,折算下來是每小時(shí)10.3美元。

不過,因?yàn)锳WS上像CPU、內(nèi)存、NVLink支持等硬件類型也各不同,如果要更直接的對(duì)比,就需要更多的參考數(shù)據(jù)。其他費(fèi)用套餐可參考:

http://www.cirrascale.com/pricing_x86BM.php

精準(zhǔn)度和收斂程度

除了原始的表現(xiàn),我們還希望有效驗(yàn)證的計(jì)算能力。比方說,實(shí)現(xiàn)收斂的結(jié)果。因?yàn)楸容^的是兩個(gè)不同的實(shí)現(xiàn),所以可以預(yù)期到結(jié)果會(huì)有不同。比較的結(jié)果不僅僅是硬件的速度,也包含實(shí)現(xiàn)的質(zhì)量。

比方說,TPU實(shí)現(xiàn)的過程中應(yīng)用到了計(jì)算密集的圖像預(yù)處理步驟,并且還犧牲了原始的吞吐量。下面我們也能看到,谷歌的這種選擇有不錯(cuò)的回報(bào)。

我們用ImageNet數(shù)據(jù)集訓(xùn)練這些模型,想把圖像進(jìn)行分類。目前,這個(gè)數(shù)據(jù)集中的類別已經(jīng)細(xì)分到了1000種,包含了130萬張訓(xùn)練圖片,5萬張驗(yàn)證圖片。

我們?cè)赽atch size為1024的情況下進(jìn)行訓(xùn)練,進(jìn)行了90次迭代后在驗(yàn)證集上對(duì)比雙方的結(jié)果。

結(jié)果顯示,TPU可以每秒完成2796張圖,GPU則為2839張。這個(gè)結(jié)果和我們上面提到的吞吐量不同,是因?yàn)樯厦嫖覀兘昧藬?shù)據(jù)增強(qiáng),并用合成數(shù)據(jù)來比較的TPU和GPU的原始速度。

△90次訓(xùn)練之后,Top-1 精確值*(只考慮每張圖最高的預(yù)估)

從上圖可以看出來,90次訓(xùn)練之后,TPU實(shí)現(xiàn)的Top-1精準(zhǔn)度要好過GPU,有0.7%的優(yōu)勢(shì)。

雖然0.7%的優(yōu)勢(shì)看起來非常微小,但在如此高水平的情況下還有這樣的改進(jìn)非常難,基于不同的應(yīng)用個(gè),這點(diǎn)改進(jìn)將對(duì)最后的結(jié)果有很大影響。

接下來,我們看一下不同訓(xùn)練時(shí)期,模型Top-1精準(zhǔn)度的表現(xiàn)。

△在驗(yàn)證集上,兩種方法實(shí)現(xiàn)Top-1精準(zhǔn)度的表現(xiàn)

可以看出,圖表中有一段精準(zhǔn)度陡增,和學(xué)習(xí)速率高度同步。TPU實(shí)現(xiàn)的收斂表現(xiàn)更好,最后到第86次訓(xùn)練時(shí),準(zhǔn)確率可以達(dá)到76.4%。

GPU的表現(xiàn)就被甩在了后面,第84次訓(xùn)練后達(dá)到了75.7%的準(zhǔn)確率,而TPU早在第64次訓(xùn)練時(shí)就達(dá)到了這個(gè)水平。

TPU有更好的表現(xiàn),很可能要?dú)w功于前期的預(yù)處理和數(shù)據(jù)增強(qiáng)。不過我們需要更多的實(shí)驗(yàn)來驗(yàn)證這個(gè)猜想。

基于成本價(jià)格提出的解決方案

我們最終需要考慮的,一是整個(gè)流程走下來的時(shí)間,二是它需要耗費(fèi)多少資金。如果我們假設(shè)最后可接受的準(zhǔn)確率為75.7%,那么可以根據(jù)每秒訓(xùn)練速度和既定要求的訓(xùn)練次數(shù),算出來達(dá)到這個(gè)標(biāo)準(zhǔn)所需的成本。時(shí)間方面需要注意,不包括訓(xùn)練啟動(dòng)用時(shí),以及訓(xùn)練期間的模型驗(yàn)證用時(shí)。

△達(dá)到75.1%Top-1準(zhǔn)確率所需成本 | *表示租期為12個(gè)月

上圖顯示,谷歌TPU從零訓(xùn)練圖像分類模型的成本是55美元(且訓(xùn)練時(shí)間用了不到9小時(shí))!收斂到76.4%的話成本將達(dá)到73美元。

而英偉達(dá)V100速度差不多快,但成本會(huì)更高,收斂速度也比較慢,不是個(gè)性價(jià)比高的解決方案~

對(duì)了,我們這個(gè)結(jié)論是基于實(shí)現(xiàn)的質(zhì)量、云的價(jià)格來對(duì)比得出的。其實(shí)還有另外一個(gè)維度可以來比較,即算力的損耗。不過因?yàn)槲覀內(nèi)狈Χ鶷PU算力損耗的公開信息,這方面的對(duì)比先不做了啦。

總結(jié)

按我們上述的衡量標(biāo)準(zhǔn)來看,在ResNet-50模型的原始表現(xiàn)上,4塊TPU2芯片和4塊V100GPU是速度相同。

目前來說,訓(xùn)練ResNet-50時(shí)谷歌云TPU的實(shí)現(xiàn)用時(shí)短到令人發(fā)指,且基于ImageNet數(shù)據(jù)集的圖像分類準(zhǔn)確度達(dá)76.4%的成本只要73美元,說物美價(jià)廉可能也不過分~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6231

    瀏覽量

    107962
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    4934

    瀏覽量

    131057
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    153

    瀏覽量

    21161
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    22

    文章

    3937

    瀏覽量

    93478

原文標(biāo)題:谷歌TPU2代有望取代英偉達(dá)GPU?測(cè)評(píng)結(jié)果顯示…

文章出處:【微信號(hào):IV_Technology,微信公眾號(hào):智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    OpenAI與博通洽談合作!定制化ASIC芯片走向臺(tái)前,英偉達(dá)GPU迎來“勁敵”?

    設(shè)計(jì)公司就開發(fā)新芯片進(jìn)行洽談,以減輕對(duì)英偉達(dá)的依賴并加強(qiáng)供應(yīng)鏈。 ? 此外,據(jù)稱OpenAI還聘請(qǐng)了曾參與谷歌張量處理單元(TPU)開發(fā)和生產(chǎn)的谷歌
    的頭像 發(fā)表于 07-20 00:02 ?5706次閱讀
    OpenAI與博通洽談合作!定制化ASIC芯片走向臺(tái)前,<b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>GPU迎來“勁敵”?

    擺脫依賴英偉達(dá)!OpenAI首次轉(zhuǎn)向使用谷歌芯片

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)近日,據(jù)知情人士透露,OpenAI近期已開始租用谷歌的張量處理單元(TPU),為旗下ChatGPT等熱門產(chǎn)品提供算力支持。這一舉措不僅標(biāo)志著OpenAI首次實(shí)質(zhì)性
    的頭像 發(fā)表于 07-02 00:59 ?6319次閱讀

    GPU 維修干貨 | 英偉達(dá) GPU H100 常見故障有哪些?

    上漲,英偉達(dá)H100GPU憑借其強(qiáng)大的算力,成為AI訓(xùn)練、高性能計(jì)算領(lǐng)域的核心硬件。然而,隨著使用場(chǎng)景的復(fù)雜化,H100服務(wù)器故障率也逐漸攀
    的頭像 發(fā)表于 05-05 09:03 ?801次閱讀
    GPU 維修干貨 | <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b> GPU H<b class='flag-5'>100</b> 常見故障有哪些?

    英偉達(dá)市值一夜蒸發(fā)近2萬億 英偉達(dá)股價(jià)下跌超8%

    在美東時(shí)間周一,美股三大指數(shù)集體收跌,截至收盤,英偉達(dá)股價(jià)下跌超8%,英偉達(dá)市值一夜蒸發(fā)2650億美元(換算下來約合人民幣19345億元);目前英偉
    的頭像 發(fā)表于 03-04 10:19 ?557次閱讀

    英偉達(dá)A100和H100比較

    英偉達(dá)A100和H100都是針對(duì)高性能計(jì)算和人工智能任務(wù)設(shè)計(jì)的GPU,但在性能和特性上存在顯著差
    的頭像 發(fā)表于 02-10 17:05 ?4019次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達(dá)</b>A<b class='flag-5'>100</b>和H<b class='flag-5'>100</b>比較

    英偉達(dá)谷歌聯(lián)手加速量子計(jì)算設(shè)備設(shè)計(jì)

    近日,據(jù)外媒最新報(bào)道,英偉達(dá)谷歌兩大科技巨頭宣布攜手合作,共同加速下一代量子計(jì)算設(shè)備的設(shè)計(jì)進(jìn)程。 雙方在一份聯(lián)合聲明中透露,谷歌的量子人工智能部門將充分利用
    的頭像 發(fā)表于 11-21 11:08 ?744次閱讀

    英偉達(dá)谷歌攜手加速量子計(jì)算設(shè)備設(shè)計(jì)

    英偉達(dá)近日宣布,將與谷歌量子AI團(tuán)隊(duì)展開合作,共同推進(jìn)量子計(jì)算軟硬件工具的研發(fā)。雙方將利用英偉達(dá)CUDA-Q平臺(tái)提供的模擬支持,加快設(shè)計(jì)
    的頭像 發(fā)表于 11-19 16:21 ?530次閱讀

    英偉達(dá)攜手谷歌,共筑量子計(jì)算新篇章

    人工智能(Quantum AI)部門將充分利用英偉達(dá)先進(jìn)的Eos超算技術(shù),以加速量子計(jì)算部件的設(shè)計(jì)進(jìn)程。這一舉措不僅展現(xiàn)了英偉達(dá)在高性能計(jì)算
    的頭像 發(fā)表于 11-19 11:06 ?611次閱讀

    英偉達(dá)高管解讀Q2財(cái)報(bào) 但是英偉達(dá)市值暴跌1.4萬億元

    英偉達(dá)正式發(fā)布了2025財(cái)年第二季度報(bào)告,英偉達(dá)公司在Q2營(yíng)收達(dá)到了300.4億美元,這個(gè)營(yíng)收超過了市場(chǎng)預(yù)期的287億美元,同比增長(zhǎng)122%
    的頭像 發(fā)表于 08-30 13:03 ?1087次閱讀

    英偉達(dá)Blackwell架構(gòu)揭秘:下一個(gè)AI計(jì)算里程碑?# 英偉達(dá)# 英偉達(dá)Blackwell

    英偉達(dá)行業(yè)資訊
    jf_02331860
    發(fā)布于 :2024年08月26日 10:58:09

    蘋果AI模型訓(xùn)練新動(dòng)向:攜手谷歌,未選英偉達(dá)

    近日,蘋果公司發(fā)布的最新研究報(bào)告揭示了其在人工智能領(lǐng)域的又一重要戰(zhàn)略選擇——采用谷歌設(shè)計(jì)的芯片來訓(xùn)練其AI模型,而非行業(yè)巨頭英偉達(dá)的產(chǎn)品。這一決定在業(yè)界引起了廣泛關(guān)注,尤其是在當(dāng)前英偉
    的頭像 發(fā)表于 08-01 18:11 ?1132次閱讀

    TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進(jìn)行AI計(jì)算

    ,在訓(xùn)練尖端人工智能方面,大型科技公司正在尋找英偉達(dá)以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機(jī)器學(xué)習(xí)算法,特別是深度學(xué)習(xí)算法在各個(gè)領(lǐng)域的廣泛應(yīng)用,對(duì)于高效、低功耗的AI
    的頭像 發(fā)表于 07-31 01:08 ?3899次閱讀

    英偉達(dá)TITAN AI顯卡曝光,性能狂超RTX 4090達(dá)63%!# 英偉達(dá)# 顯卡

    顯卡英偉達(dá)
    jf_02331860
    發(fā)布于 :2024年07月24日 17:18:28

    英偉達(dá)帶領(lǐng)芯片股飆升 英偉達(dá)大漲4.76%

    1.08%,道指漲0.32%。 AI浪潮之下,業(yè)界預(yù)期正不斷加強(qiáng),在AI算力需求的邊際拉動(dòng)下、疊加消費(fèi)電子復(fù)蘇,新一輪終端AI上新,相關(guān)行業(yè)正迎來具備較強(qiáng)持續(xù)性的上行周期;英偉達(dá)在生成式人工智能浪潮中脫穎而出,其高性能計(jì)算芯片如
    的頭像 發(fā)表于 07-23 16:26 ?604次閱讀
    主站蜘蛛池模板: 贵阳市| 栖霞市| 玉溪市| 郁南县| 高州市| 博爱县| 洛隆县| 丰宁| 盐津县| 内丘县| 巴塘县| 镇宁| 夏津县| 长白| 集贤县| 宁津县| 乐山市| 汶川县| 观塘区| 屯留县| 资源县| 武强县| 沈丘县| 明星| 商城县| 乌兰县| 永嘉县| 夹江县| 北海市| 上林县| 马山县| 涟源市| 迭部县| 藁城市| 龙游县| 德钦县| 三江| 杭锦旗| 阿拉善右旗| 阳原县| 磴口县|