近期,上海人工智能實驗室聯手多所知名高校及科技公司,共同開發出全新的基礎版本書生·視覺大模型——InternVL。該模型搭載了高達60億的視覺編碼器參數(InternVL-6B),創新性引入對比-生成融合的漸進式對齊技術,有效實現了互聯網規模下視覺大模型與語言大模型的精準匹配。
InternVL-6B不僅能高效處理復雜圖像中細膩的視覺元素,實現圖像到文本的轉換功能,而且能夠自動解析和理解復雜網頁內容,包括解決其中可能存在的數學問題。
此外,自成立以來,上海AI實驗室在視覺大模型領域持續推陳出新。2021年,實驗室推出了首款具有廣泛適用性的巨型視覺模型書生1.0,憑借其單個基本模型便可覆蓋分類、目標檢測、語義分割、深度估計四大部分;2022年,又發布了升級版視覺大模型InternImage,創新采用動態稀疏卷積作為主要操作手段,開創了非Transformer結構的巨型模型設計新思路,這使得它在包含12種視覺任務在內的多個領域表現優異。
-
編碼器
+關注
關注
45文章
3785瀏覽量
137510 -
人工智能
+關注
關注
1805文章
48861瀏覽量
247619 -
大模型
+關注
關注
2文章
3069瀏覽量
3938
發布評論請先 登錄
谷歌新一代生成式AI媒體模型登陸Vertex AI平臺
廣和通發布新一代AI語音智能體FiboVista
中星微發布最新一代AI芯片“星光智能五號”
實驗室安全管理成焦點,漢威科技賦能實驗室安全升級

"大模型+智能體"雙驅動!中控技術×大華股份成立視覺AI聯合實驗室

評論