女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

谷歌:半監督學習其實正在悄然的進化

DPVg_AI_era ? 來源:lq ? 2019-05-25 09:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌首席科學家提出要想讓半監督學習實際上有用,要同時考慮低維數據和高維數據,并討論了谷歌最近的兩個研究。作者認為在實際環境中重新審視半監督學習的價值是一個激動人心的時刻。

作為一個機器學習工程師,可能平時最常打交道的就是海量數據了。這些數據只有少部分是有標注的,可以用來進行監督學習。但另外一大部分的數據是沒有標注過的。

那么接下來,我們就會順理成章的想到用這些已標注過的數據進行訓練,再利用訓練好的學習器找出未標注數據中,對性能改善最大的數據,讓機器自己的對未標注數據進行分析來提高泛化性能,

這種介于監督學習和無監督學習之間的方式,稱為半監督學習。人類的學習方法是半監督學習,我們能從大量的未標注數據和極少量的標注數據學習,迅速理解這個世界。

然而半監督學習實踐中根本沒用?

人類的半監督學習非常有效,那么我們自然的希望機器的半監督學習也能達到類似的程度。但是從歷史上來看,半監督學習的效果和我們想象的效果有很大差距。先來看一張圖:

上圖可以看出來,最開始的時候,半監督學習訓練確實有種提升監督學習效果的趨勢,然而實際操作中,我們經常陷入從“可怕又不可用”的狀態,到“不那么可怕但仍然完全不可用”。

如果你突然發現你的半監督學習起效了,這意味著你的分類器單純的不行,單純的沒有實際用處。

而且面對大量的數據,半監督學習方式通常不能實現和監督學習中所實現的相同漸近性質,未標注的數據可能會引入偏差。

舉個例子,在深度學習的早期階段,一種非常流行的半監督學習方法是首先學習一個關于未標注數據的自動編碼器,然后對標注數據進行微調。

現在幾乎沒人這么做了。因為通過自動編碼學習的表示,傾向于在經驗上限制微調的漸近性能。

而且,即使是已經突飛猛進的現代生成方法,也沒有對此狀況有多大的改善。可能因為提升生成模型效果的元素,并不能很有效的提升分類器的效果。

當你在今天看到機器學習工程師對模型進行微調時,基本都是從從監督數據上學習的表示開始。而且文本是用于語言建模目的的自監督數據。

最終我們得出一個結論:實際情況下,從其他預訓練模型進行轉移學習是一個更穩健的起點,在這方面半監督方法難以超越。

所以,一位機器學習工程師在半監督學習的沼澤中艱難前行的典型路徑如下:

一切都很糟糕,讓我們嘗試半監督學習吧!(畢竟這是工程工作,比標注數據這種純體力活可有意思多了)

看,數字上去了!但是仍然很糟糕。看起來我們還是得去搞標注數據...

數據越多,效果越好。但是你有沒有嘗試過丟棄半監督機器會發生什么?

嘿你知道嗎,它實際上更簡單更好。我們可以通過完全跳過2和3來節省時間和大量技術債

如果你走運的話,你的問題也可能具有這樣的性能特征:

巧了,在這種情況下,存在一種狹窄的數據體系。半監督學習在其中不僅不糟糕,而且還實實在在的提高了數據效率。

但是根據過來人的經驗來看,這個點很難找到。考慮到額外復雜性的成本,標注數據量之間的鴻溝,通常不會帶來多大的效果,并且收益遞減,所以根本不值當浪費精力在這個上面,除非你想在這個領域競爭學術基準。

半監督學習其實正在悄然的進化

說了這么多半監督學習的弱項。其實本文真正想講的是在半監督學習領域,一直在悄悄發生的進化。

一個引人入勝的趨勢是,半監督學習的可能會變成看起來更像這樣的東西:

這將改變所有目前半監督學習領域的難題。

這些曲線符合我們理想中的半監督方法的情況:數據越多越好。半監督學習和監督學習之間的差距,也應該是嚴格成正比的,即使是監督學習表現的很好的領域,半監督學習也應該能表現的很好。

而且這種效果的提升伴隨著的是成本的穩定,以及很少量的額外復雜性。圖中的“magic區域”從更低的地方開始,同樣重要的是,它不受高數據制度的束縛。

其他一些新的發展包括:有更好的方式進行自我標注數據,并以這樣的方式表達損失,即它們與噪聲和自我標注的潛在偏差兼容。

最近有兩篇論文講述了半監督學習最近的進展。

MixMatch: A Holistic Approach to Semi-Supervised Learning

論文地址:

https://arxiv.org/abs/1905.02249

Mixmatch是本文中提出的新方法,它巧妙地結合了以前單獨使用的3種SSL范例。

一致性正則化:通過增加標記和未標記的數據輸入來引入

熵最小化:銳化函數減少了未標記數據的猜測標簽中的熵

傳統正則化: MixUp引入了數據點之間的線性關系

在每個batch中,每個標記的數據點被增強一次,并且每個未標記的數據點被增加K(超參數)時間。要求該模型預測所有K個增廣條目(L類的概率),并將它們的平均值作為所有K個條目的預測。

銳化該平均值以最小化熵并將其作為最終預測。將增強的標記和未標記的數據連接并混洗以獲得W.batch中的標記數據與第一個|X|“混合”。 W的條目得到X',其中|X|是batch中標記數據的大小。batch中的未標記數據與W的其余條目“混合”以獲得U'。

MixMatch算法結合了不同的SSL范例,通過一個重要因素實現了比所有基線數據集上所有當前方法明顯更好的性能。它確保了差異隱私的更好的準確性和隱私的權衡,因為需要比其他方法更少的數據來實現類似的性能。

Unsupervised Data Augmentation

論文地址

https://arxiv.org/abs/1904.12848

本文的重點是從(主要是啟發式的,實用的)數據增強世界中為監督學習提供進展,并將其應用于無監督設置,作為在半監督環境中引入更好性能的一種方式(具有許多未標記點,以及很少標記的)。

論文中的無監督數據增強(UDA)策略注意到兩件事:首先在監督學習領域,在生成增強數據方面存在特定于數據集的創新,這對于給定數據集特別有用。語言建模,這方面的一個例子是把一個句子翻譯成另一種語言,并通過兩個訓練有素的翻譯網絡再次返回,并使用得到的句子作為輸入。對于ImageNet,有一種稱為AutoAugment的方法,它使用驗證集上的強化學習來學習圖像操作的策略(比如旋轉,剪切,改變顏色),以提高驗證的準確性。

(2)在半監督學習中,越來越傾向于使用一致性損失作為利用未標記數據的一種方式。一致性損失的基本思想是,即使不知道給定數據點的類,如果以某種很小的方式修改它,也可以確信模型的預測應該在數據點與其擾動之間保持一致,即使你并不知道實際的ground truth是什么。通常,這樣的系統是在原始未標記圖像的基礎上使用簡單的高斯噪聲設計的。本文的關鍵提議是用更加簡化的擾動程序替代在監督學習中迭代的增強方法,因為兩者的目標幾乎相同。

除了這個核心理念之外,UDA論文還提出了一個額外的聰明的訓練策略:如果你有許多未標注的樣本和少量標注的樣本,你可能需要一個大型模型來捕獲未標注樣本中的信息,但這可能會導致過擬合。

為了避免這種情況,他們使用一種稱為“訓練信號退火”的方法,在訓練中的每個點,他們從損失計算中刪除模型特別有信心的任何樣本,比如真實類別的預測高于某個閾值等。

隨著培訓的進行,網絡逐漸被允許看到更多的訓練信號。在這種框架中,模型不能輕易過度擬合,因為一旦它開始在受監督的例子上得到正確的答案,他們就會退出損失計算。

在實證結果方面,作者發現,在UDA中,他們能夠通過極少數標記的例子來改進許多半監督基準。有一次,他們使用BERT模型作為基線,在其半監督訓練之前以無人監督的方式進行微調,并表明他們的增強方法甚至可以在無人監督的預訓練值之上增加價值。

例如,在IMDb文本分類數據集中,僅有20個標注樣本,UDA優于在25000個標注樣本上訓練的最先進模型。

在標準的半監督學習基準測試中,CIFAR-10具有4,000個樣本,SVHN具有1,000個樣本,UDA優于所有先前的方法,并且降低了超過30%的最先進方法的錯誤率:從7.66%降至5.27%,以及從3.53%降至2.46%。

UDA也適用于具有大量標記數據的數據集。例如,在ImageNet上,使用130萬額外的未標記數據,與AutoAugment相比,UDA將前1/前5精度從78.28/94.36%提高到79.04/94.45%。

半監督學習激動人心的未來

半監督學習的另一個基礎轉變,是大家認識到它可能在機器學習隱私中扮演非常重要的角色,例如Private Aggregation of Teacher Ensemble(PATE)。PATE框架通過仔細協調幾種不同機器學習模型的行為來實現隱私學習。

用于提取知識的隱私敏感方法正在成為聯合學習(Federated Learning)的關鍵推動者之一,聯合學習提供了有效的分布式學習的方式,其不依賴于具有訪問用戶數據的模型,具有強大的數學隱私保證。

在實際環境中重新審視半監督學習的價值有點激動人心,這些進步將會導致機器學習工具架構有極大可能性發生根本轉變。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 谷歌
    +關注

    關注

    27

    文章

    6231

    瀏覽量

    107975
  • 機器學習
    +關注

    關注

    66

    文章

    8500

    瀏覽量

    134461
  • 自動編碼
    +關注

    關注

    0

    文章

    4

    瀏覽量

    5873

原文標題:谷歌首席科學家:半監督學習的悄然革命

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AlphaEvolve有望革新AI玩具芯片設計,算法進化驅動能效與成本雙突破

    電子發燒友網綜合報道,近期,谷歌?DeepMind發布了一款AlphaEvolve,是一款通用科學AI代理,基于大語言模型Gemini系列與進化計算框架,專注于算法發現與優化。可以支持數百行代碼
    的頭像 發表于 06-18 00:09 ?2842次閱讀

    使用MATLAB進行無監督學習

    監督學習是一種根據未標注數據進行推斷的機器學習方法。無監督學習旨在識別數據中隱藏的模式和關系,無需任何監督或關于結果的先驗知識。
    的頭像 發表于 05-16 14:48 ?649次閱讀
    使用MATLAB進行無<b class='flag-5'>監督學習</b>

    具身智能工業機器人:引爆制造業‘自進化’革命

    具身智能工業機器人:引爆制造業‘自進化’革命 在工業4.0浪潮席卷全球的今天,制造業正經歷從“自動化”到“智能化”的質變。作為這場變革的核心驅動力,具身智能工業機器人以其自主感知、學習與決策能力,正在重新定義生產效率與價值邊界。
    的頭像 發表于 04-17 13:49 ?335次閱讀
    具身智能工業機器人:引爆制造業‘自<b class='flag-5'>進化</b>’革命

    谷歌公司被立案調查 谷歌股價暴跌 谷歌母公司Alphabet跌8%

    據國家市場監督管理總局消息顯示,谷歌公司因涉嫌違反《中華人民共和國反壟斷法》,已被該局依法開展立案調查。而且谷歌公司在全球多個國家均面臨著反壟斷的嚴峻挑戰。其中,美國司法部更是對谷歌
    的頭像 發表于 02-06 16:23 ?1517次閱讀

    AI眼鏡形態席卷可穿戴市場!谷歌眼鏡幾次“流產”,將靠AI翻盤

    ? 電子發燒友網報道(文/莫婷婷)在ChatGPT進化史上,繞不開的一家廠商是谷歌。2024年12月,谷歌發布 Gemini 2.0,該產品被稱為登頂AI巔峰、秒殺ChatGPT O1。始終走在AI
    的頭像 發表于 12-26 00:12 ?3579次閱讀

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列無監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?740次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    曙光公司成都云中心助力提升監督質效

    數字化時代,用好大數據,推動數字技術深度融入紀檢監察各項業務,是大勢所趨。當前,各地正在探索推進大數據監督,借助海量數據、算力、算法,不斷延伸監督的觸角,拓展發現問題的渠道。以“算力”補“人力”,“人去看”加“云端算”,大數據在
    的頭像 發表于 11-05 10:05 ?520次閱讀

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹了其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現。
    的頭像 發表于 09-30 16:16 ?684次閱讀

    揭秘未來辦公新趨勢:樓宇自控系統的智能進化

    在科技浪潮的推動下,辦公空間正悄然發生著翻天覆地的變化。樓宇自控系統,作為智能建筑的靈魂,正引領我們邁向一個前所未有的智慧辦公新時代。這一系統的智能進化,不僅深刻影響著我們的工作環境,更在無形中塑造著未來辦公的新趨勢。
    的頭像 發表于 08-10 10:21 ?609次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據集不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習:模型采用自監督學習策略,在大量無標簽文本數據上學習
    發表于 08-02 11:03

    從TPU v1到Trillium TPU,蘋果等科技公司使用谷歌TPU進行AI計算

    ,在訓練尖端人工智能方面,大型科技公司正在尋找英偉達以外的替代品。 ? 不斷迭代的谷歌TPU 芯片 ? 隨著機器學習算法,特別是深度學習算法在各個領域的廣泛應用,對于高效、低功耗的AI
    的頭像 發表于 07-31 01:08 ?3903次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習、無監督學習監督學習、自監督學習和強化
    發表于 07-25 14:33

    神經網絡如何用無監督算法訓練

    神經網絡作為深度學習的重要組成部分,其訓練方式多樣,其中無監督學習是一種重要的訓練策略。無監督學習旨在從未標記的數據中發現數據內在的結構、模式或規律,從而提取有用的特征表示。這種訓練方式對于大規模未
    的頭像 發表于 07-09 18:06 ?1471次閱讀

    深度學習中的無監督學習方法綜述

    應用中往往難以實現。因此,無監督學習在深度學習中扮演著越來越重要的角色。本文旨在綜述深度學習中的無監督學習方法,包括自編碼器、生成對抗網絡、聚類算法等,并分析它們的原理、應用場景以及優
    的頭像 發表于 07-09 10:50 ?1681次閱讀

    谷歌Tensor G5芯片代工轉向臺積電,強化AI智能手機競爭力

    在半導體代工領域,一場重大的戰略調整正在悄然發生。谷歌,這家全球知名的科技巨頭,近期決定將下一代Tensor G5芯片的代工合作伙伴從三星電子轉向臺積電,這一決定不僅預示著谷歌在芯片制
    的頭像 發表于 07-09 09:51 ?915次閱讀
    主站蜘蛛池模板: 嘉荫县| 天门市| 哈密市| 夹江县| 阿巴嘎旗| 五华县| 宁强县| 黄梅县| 个旧市| 天镇县| 青岛市| 鹤壁市| 达州市| 武山县| 和龙市| 唐河县| 泸州市| 洪雅县| 彭州市| 定安县| 江油市| 原阳县| 兴化市| 富锦市| 松桃| 斗六市| 宣武区| 高阳县| 平泉县| 加查县| 林周县| 资阳市| 南丰县| 常山县| 安康市| 余庆县| 桐乡市| 黑河市| 长顺县| 蒲江县| 扎兰屯市|