女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用圖像對齊所有模態(tài),Meta開源多感官AI基礎(chǔ)模型,實(shí)現(xiàn)大一統(tǒng)

AI智勝未來 ? 來源:機(jī)器之心 ? 2023-05-26 15:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Meta 新的開源模型 ImageBind 將多個數(shù)據(jù)流連接在一起,適用于文本、視頻音頻等 6 種模態(tài)。

在人類的感官中,一張圖片可以將很多體驗(yàn)融合到一起,比如一張海灘圖片可以讓我們想起海浪的聲音、沙子的質(zhì)地、拂面而來的微風(fēng),甚至可以激發(fā)創(chuàng)作一首詩的靈感。圖像的這種「綁定」(binding)屬性通過與自身相關(guān)的任何感官體驗(yàn)對齊,為學(xué)習(xí)視覺特征提供了大量監(jiān)督來源。

理想情況下,對于單個聯(lián)合嵌入空間,視覺特征應(yīng)該通過對齊所有感官來學(xué)習(xí)。然而這需要通過同一組圖像來獲取所有感官類型和組合的配對數(shù)據(jù),顯然不可行。

最近,很多方法學(xué)習(xí)與文本、音頻等對齊的圖像特征。這些方法使用單對模態(tài)或者最多幾種視覺模態(tài)。最終嵌入僅限于用于訓(xùn)練的模態(tài)對。因此,視頻 - 音頻嵌入無法直接用于圖像 - 文本任務(wù),反之亦然。學(xué)習(xí)真正的聯(lián)合嵌入面臨的一個主要障礙是缺乏所有模態(tài)融合在一起的大量多模態(tài)數(shù)據(jù)。

今日,Meta AI 提出了 ImageBind,它通過利用多種類型的圖像配對數(shù)據(jù)來學(xué)習(xí)單個共享表示空間。該研究不需要所有模態(tài)相互同時出現(xiàn)的數(shù)據(jù)集,相反利用到了圖像的綁定屬性,只要將每個模態(tài)的嵌入與圖像嵌入對齊,就會實(shí)現(xiàn)所有模態(tài)的迅速對齊。Meta AI 還公布了相應(yīng)代碼。

4654cb0a-fb2c-11ed-90ce-dac502259ad0.png

論文地址:

https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf

GitHub 地址:

https://github.com/facebookresearch/ImageBind

具體而言,ImageBind 利用網(wǎng)絡(luò)規(guī)模(圖像、文本)匹配數(shù)據(jù),并將其與自然存在的配對數(shù)據(jù)(視頻、音頻、圖像、深度)相結(jié)合,以學(xué)習(xí)單個聯(lián)合嵌入空間。這樣做使得 ImageBind 隱式地將文本嵌入與其他模態(tài)(如音頻、深度等)對齊,從而在沒有顯式語義或文本配對的情況下,能在這些模態(tài)上實(shí)現(xiàn)零樣本識別功能。

4680c494-fb2c-11ed-90ce-dac502259ad0.gif

下圖 2 為 ImageBind 的整體概覽。

46fe11a6-fb2c-11ed-90ce-dac502259ad0.png

與此同時,研究者表示 ImageBind 可以使用大規(guī)模視覺語言模型(如 CLIP)進(jìn)行初始化,從而利用這些模型的豐富圖像和文本表示。因此,ImageBind 只需要很少的訓(xùn)練就可以應(yīng)用于各種不同的模態(tài)和任務(wù)。

ImageBind 是 Meta 致力于創(chuàng)建多模態(tài) AI 系統(tǒng)的一部分,從而實(shí)現(xiàn)從所有相關(guān)類型數(shù)據(jù)中學(xué)習(xí)。隨著模態(tài)數(shù)量的增加,ImageBind 為研究人員打開了嘗試開發(fā)全新整體性系統(tǒng)的閘門,例如結(jié)合 3D 和 IMU 傳感器來設(shè)計(jì)或體驗(yàn)身臨其境的虛擬世界。此外它還可以提供一種探索記憶的豐富方式,即組合使用文本、視頻和圖像來搜索圖像、視頻、音頻文件或文本信息。

綁定內(nèi)容和圖像,學(xué)習(xí)單個嵌入空間

人類有能力通過很少的樣本學(xué)習(xí)新概念,比如如閱讀對動物的描述之后,就可以在實(shí)際生活中認(rèn)出它們;通過一張不熟悉的汽車模型照片,就可以預(yù)測其引擎可能發(fā)出的聲音。這在一定程度上是因?yàn)閱螐垐D像可以將整體感官體驗(yàn)「捆綁」在一起。然而在人工智能領(lǐng)域,雖然模態(tài)數(shù)量一直在增加,但多感官數(shù)據(jù)的缺乏會限制標(biāo)準(zhǔn)的需要配對數(shù)據(jù)的多模態(tài)學(xué)習(xí)。

理想情況下,一個有著不同種類數(shù)據(jù)的聯(lián)合嵌入空間能讓模型在學(xué)習(xí)視覺特征的同時學(xué)習(xí)其他的模態(tài)。此前,往往需要收集所有可能的配對數(shù)據(jù)組合,才能讓所有模態(tài)學(xué)習(xí)聯(lián)合嵌入空間。

ImageBind 規(guī)避了這個難題,它利用最近的大型視覺語言模型它將最近的大規(guī)模視覺語言模型的零樣本能力擴(kuò)展到新的模態(tài),它們與圖像的自然配對,如視頻 - 音頻和圖像 - 深度數(shù)據(jù),來學(xué)習(xí)一個聯(lián)合嵌入空間。針對其他四種模式(音頻、深度、熱成像和 IMU 讀數(shù)),研究者使用自然配對的自監(jiān)督數(shù)據(jù)。

475987f2-fb2c-11ed-90ce-dac502259ad0.png

通過將六種模態(tài)的嵌入對齊到一個公共空間,ImageBind 可以跨模態(tài)檢索未同時觀察到的不同類型的內(nèi)容,添加不同模態(tài)的嵌入以自然地對它們的語義進(jìn)行組合,以及結(jié)合使用 Meta AI 的音頻嵌入與預(yù)訓(xùn)練 DALLE-2 解碼器(設(shè)計(jì)用于與 CLIP 文本嵌入)來實(shí)現(xiàn)音頻到圖像生成。

互聯(lián)網(wǎng)上存在大量連同文本一起出現(xiàn)的圖像,因此訓(xùn)練圖像 - 文本模型已經(jīng)得到了廣泛的研究。ImageBind 利用了圖像能與各種模態(tài)相連接的綁定屬性,比如利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來,或者利用在有 IMU 傳感器的可穿戴相機(jī)中捕捉到的視頻數(shù)據(jù)將運(yùn)動與視頻連接起來。

從大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中學(xué)習(xí)到的視覺表征可以用作學(xué)習(xí)不同模態(tài)特征的目標(biāo)。這使得 ImageBind 將圖像與同時出現(xiàn)的任何模態(tài)對齊,自然地使這些模態(tài)彼此對齊。熱圖和深度圖等與圖像具有強(qiáng)相關(guān)性的模態(tài)更容易對齊。音頻和 IMU(慣性測量單元)等非視覺的模態(tài)則具有較弱的相關(guān)性,比如嬰兒哭聲等特定聲音可以搭配各種視覺背景。

ImageBind 表明,圖像配對數(shù)據(jù)足以將這六種模態(tài)綁定在一起。該模型可以更全面地解釋內(nèi)容,使不同的模態(tài)可以相互「對話」,并在沒有同時觀察它們的情況下找到它們之間的聯(lián)系。例如,ImageBind 可以在沒有一起觀察音頻和文本的情況下將二者聯(lián)系起來。這使得其他模型能夠「理解」新的模態(tài),而不需要任何資源密集型的訓(xùn)練。

ImageBind 強(qiáng)大的 scaling 表現(xiàn)使該模型能夠替代或增強(qiáng)許多人工智能模型,使它們能夠使用其他模態(tài)。例如雖然 Make-A-Scene 可以通過使用文本 prompt 生成圖像,但 ImageBind 可以將其升級為使用音頻生成圖像,如笑聲或雨聲。

ImageBind 的卓越性能

Meta 的分析表明,ImageBind 的 scaling 行為隨著圖像編碼器的強(qiáng)度而提高。換句話說,ImageBind 對齊模態(tài)的能力隨著視覺模型的能力和大小而提升。這表明,更大的視覺模型對非視覺任務(wù)有利,如音頻分類,而且訓(xùn)練這種模型的好處超出了計(jì)算機(jī)視覺任務(wù)的范疇。

在實(shí)驗(yàn)中,Meta 使用了 ImageBind 的音頻和深度編碼器,并將其與之前在 zero-shot 檢索以及音頻和深度分類任務(wù)中的工作進(jìn)行了比較。

47a77d7c-fb2c-11ed-90ce-dac502259ad0.png

在基準(zhǔn)測試上,ImageBind 在音頻和深度方面優(yōu)于專家模型。

Meta 發(fā)現(xiàn) ImageBind 可以用于少樣本音頻和深度分類任務(wù),并且優(yōu)于之前定制的方法。例如,ImageBind 明顯優(yōu)于 Meta 在 Audioset 上訓(xùn)練的自監(jiān)督 AudioMAE 模型,以及在音頻分類上微調(diào)的監(jiān)督 AudioMAE 模型。

此外,ImageBind 還在跨模態(tài)的零樣本識別任務(wù)上取得了新的 SOTA 性能,甚至優(yōu)于經(jīng)過訓(xùn)練以識別該模態(tài)概念的最新模型。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1094

    瀏覽量

    41168
  • AI
    AI
    +關(guān)注

    關(guān)注

    88

    文章

    34909

    瀏覽量

    277840
  • 人工智能
    +關(guān)注

    關(guān)注

    1806

    文章

    48954

    瀏覽量

    248397

原文標(biāo)題:用圖像對齊所有模態(tài),Meta開源多感官AI基礎(chǔ)模型,實(shí)現(xiàn)大一統(tǒng)

文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    商湯日日新SenseNova融合模態(tài)模型 國內(nèi)首家獲得最高評級的大模型

    近日,中國信息通信研究院(以下簡稱“中國信通院”)完成可信AI模態(tài)模型首輪評估。 商湯日日新SenseNova融合模態(tài)
    的頭像 發(fā)表于 06-11 11:57 ?598次閱讀

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態(tài)模型

    熟悉愛芯通元NPU的網(wǎng)友很清楚,從去年開始我們在端側(cè)模態(tài)模型適配上直處于主動緊跟的節(jié)奏。先后適配了國內(nèi)最早開源
    的頭像 發(fā)表于 04-21 10:56 ?1354次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b>大<b class='flag-5'>模型</b>

    海康威視發(fā)布模態(tài)模型AI融合巡檢超腦

    基于海康觀瀾大模型技術(shù)體系,海康威視推出新模態(tài)模型AI融合巡檢超腦,全面升級人、車、行為
    的頭像 發(fā)表于 04-17 17:12 ?765次閱讀

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI模型,重塑智能交互新體驗(yàn)

    隨著千行百業(yè)數(shù)智化進(jìn)程的不斷加速,模態(tài)AI模型的應(yīng)用需求不斷攀升,圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業(yè)變革的新動力。 ?
    發(fā)表于 03-21 14:12 ?269次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,重塑智能交互新體驗(yàn)

    移遠(yuǎn)通信智能模組全面接入模態(tài)AI模型,重塑智能交互新體驗(yàn)

    隨著千行百業(yè)數(shù)智化進(jìn)程的不斷加速,模態(tài)AI模型的應(yīng)用需求不斷攀升,圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業(yè)變革的新動力。3月
    的頭像 發(fā)表于 03-20 19:03 ?419次閱讀
    移遠(yuǎn)通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態(tài)</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,重塑智能交互新體驗(yàn)

    階躍星辰開源模態(tài)模型,天數(shù)智芯迅速適配

    近日,頭部大模型創(chuàng)業(yè)公司階躍星辰在行業(yè)內(nèi)引起了軒然大波,宣布正式開源兩款Step系列模態(tài)模型——Step-Video-T2V視頻生成
    的頭像 發(fā)表于 02-19 14:30 ?494次閱讀

    商湯日日新模態(tài)模型權(quán)威評測第

    剛剛,商湯科技日日新SenseNova模態(tài)模型,在權(quán)威綜合評測權(quán)威平臺OpenCompass的模態(tài)評測中取得榜單第
    的頭像 發(fā)表于 12-20 10:39 ?980次閱讀

    Meta發(fā)布新AI模型Meta Motivo,旨在提升元宇宙體驗(yàn)

    Meta在人工智能領(lǐng)域邁出了重要步。通過這款模型Meta希望能夠?yàn)橛脩籼峁└幼匀弧⒘鲿车脑钪娼换ンw驗(yàn)。數(shù)字代理在元宇宙中的動作將更加逼真,從而增強(qiáng)用戶的沉浸感和參與度。 除了
    的頭像 發(fā)表于 12-16 10:34 ?954次閱讀

    利用OpenVINO部署Qwen2模態(tài)模型

    模態(tài)模型的核心思想是將不同媒體數(shù)據(jù)(如文本、圖像、音頻和視頻等)進(jìn)行融合,通過學(xué)習(xí)不同模態(tài)之間的關(guān)聯(lián),
    的頭像 發(fā)表于 10-18 09:39 ?1199次閱讀

    亞馬遜云科技上線Meta Llama 3.2模型

    亞馬遜云科技近日宣布,Meta公司的新模型Llama 3.2已在其平臺上正式上線。該模型包括Meta首款
    的頭像 發(fā)表于 10-11 18:08 ?738次閱讀

    亞馬遜云科技正式上線Meta Llama 3.2模型

    亞馬遜云科技宣布,Meta的新模型Llama 3.2,包括其首款模態(tài)模型,現(xiàn)已在Amazo
    的頭像 發(fā)表于 10-11 09:20 ?852次閱讀

    Meta發(fā)布模態(tài)LLAMA 3.2人工智能模型

    Meta Platforms近日宣布了項(xiàng)重要技術(shù)突破,成功推出了模態(tài)LLAMA 3.2人工智能模型。這
    的頭像 發(fā)表于 09-27 11:44 ?683次閱讀

    Meta發(fā)布全新開源模型Llama 3.1

    科技巨頭Meta近期震撼發(fā)布了其最新的開源人工智能(AI模型——Llama 3.1,這舉措標(biāo)志著Me
    的頭像 發(fā)表于 07-24 18:25 ?1770次閱讀

    Meta不會在歐盟提供新的模態(tài)AI模型

    科技巨頭Meta近日宣布了項(xiàng)重要決策,其即將推出的創(chuàng)新模態(tài)Llama模型將不會在歐盟地區(qū)發(fā)布。這
    的頭像 發(fā)表于 07-19 16:04 ?830次閱讀

    Meta即將發(fā)布超強(qiáng)開源AI模型Llama 3-405B

    在人工智能領(lǐng)域的激烈競爭中,Meta公司再次擲出重磅炸彈,宣布將于7月23日正式發(fā)布其最新力作——Llama 3-405B,個擁有驚人4050億參數(shù)的開源模型。這
    的頭像 發(fā)表于 07-18 09:58 ?1309次閱讀
    主站蜘蛛池模板: 平谷区| 东明县| 休宁县| 黄平县| 杨浦区| 许昌县| 太湖县| 英超| 东安县| 永宁县| 葫芦岛市| 德钦县| 循化| 宝兴县| 定州市| 神木县| 建瓯市| 博湖县| 石景山区| 河北区| 丽江市| 甘谷县| 尼木县| 黄陵县| 梁河县| 丹凤县| 昂仁县| 合水县| 永仁县| 秭归县| 嵊泗县| 克山县| 出国| 韩城市| 平潭县| 新巴尔虎右旗| 嘉定区| 望都县| 张家口市| 库尔勒市| 华坪县|