近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,格靈深瞳團隊共有6篇論文入選。
作為CV領域最具國際影響力的三大頂級會議之一,本屆ICCV競爭十分激烈。據公開信息,今年大會共收到11239份有效投稿,數量為史上最多。經過評審后,僅接受2698篇論文,錄用率為24%。
格靈深瞳此次入選的6篇論文,涉及視覺基座模型、人臉3D重建、文檔幾何校正、人體動作生成、魯棒三維重建等多個視覺AI研究關鍵方向,展現了格靈深瞳深耕多年的核心技術積累和前沿創新實力,每一項成果都具有前瞻的科研價值和實際應用意義。
此次入選的6篇論文核心內容如下:
視覺基座模型
格靈深瞳與華為諾亞研究院合作的論文Region-based Cluster Discrimination for Visual Representation Learning中稿,其創新性在于,通過引入區域Transformer層和高效的區域聚類判別損失,有效提升視覺模型對局部區域信息的感知與表達能力,使其在OCR、目標檢測和分割等密集視覺任務中表現突出。
同時,RICE采用大規模候選區域數據集,統一目標識別與OCR學習。在多項下游任務中,RICE均優于SigLIP2、AIMv2,無需顯式語言監督,即可成為強大的多模態視覺大模型基座,展現出卓越的通用性和擴展潛力。
人臉3D重建、膚色估計
格靈深瞳與悉尼科技大學、浙江大學、帝國理工學院合作的HUST,方法創新性體現在:無需昂貴的光場采集數據,僅憑單張圖片即可實現高保真、無偏見的人臉漫反射反照率重建。
該論文通過提出“反照率即去光照紋理”的新見解,結合VQGAN預訓練和有限UV紋理微調,模型有效利用大規模高分辨率人臉數據。跨空間自適應與群體身份損失實現域遷移,提升了不同膚色的泛化能力。HUST在FAIR基準上取得了當前最優的準確性和公平性指標。
文檔幾何校正
格靈深瞳與360移動算法部合作的ForCenNet,其創新性體現在:提出了前景為中心的標簽生成方法和掩碼機制,顯著提升了對文檔可讀區域的幾何校正能力。
同時,該論文方法設計了曲率一致性損失,有效約束線性結構的變形,提升了校正精度。實驗結果表明方法在多個真實基準上均取得了新的最優表現。
人體動作生成
格靈深瞳與浙江大學合作的MotionStreamer,提出了一種全新的流式人體動作生成框架。通過在連續的因果潛空間中進行自回歸,并使用擴散模型建模每個潛在變量的概率分布,實現高效的流式生成。
流式框架天然支持多輪交互式動作生成、長序列動作生成、動態動作組合等多種應用。
人體動作生成
格靈深瞳與浙江大學合作的Motion-2-to-3,創新性地使用大量的人類二維視頻,以提升文本驅動的三維運動生成。研究通過解耦局部關節運動與全局運動,從二維數據高效學習局部運動先驗。先在大規模文本-二維運動數據集上訓練單視角生成器,再用三維數據微調為多視角生成器,預測視角一致的局部關節運動和根節點動態。
實驗表明,該方法能高效利用二維數據,生成更廣泛,更多類型的真實三維人體運動,為相關行業帶來新機遇。
魯棒三維重建
格靈深瞳與浙江大學合作的UniVerse,首次將視頻擴散模型引入到魯棒3D重建中,通過先把不一致的多視圖圖像轉化為一致視頻幀,再進行高質量神經場重建,有效解耦了“修復”和“重建”兩大任務。
近年來,格靈深瞳大力投入視覺基礎模型、多模態大模型等AI核心技術研發,積極與各大高校、企業開展研究合作,聚合產學研力量,促進學術深度交流。此次亮相國際頂級學術平臺,是對團隊科研實力與成果的檢驗和肯定。
未來,格靈深瞳將持續發力前沿技術創新研究,促進科研成果轉化應用,引領行業共同發展進步。
-
計算機
+關注
關注
19文章
7653瀏覽量
90631 -
模型
+關注
關注
1文章
3513瀏覽量
50319 -
格靈深瞳
+關注
關注
1文章
61瀏覽量
5711
原文標題:格靈深瞳6篇論文亮相國際頂級學術舞臺,涵蓋視覺基座模型、人臉3D重建等領域
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
格靈深瞳亮相AICon 2025全球人工智能開發與應用大會
Nullmax端到端自動駕駛最新研究成果入選ICCV 2025

評論