Hugging Face平臺于1月23日發(fā)布博文,推出了兩款令人矚目的輕量級AI模型——SmolVLM-256M-Instruct和SmolVLM-500M-Instruct。
其中,SmolVLM-256M-Instruct僅有2.56億參數(shù),是有史以來發(fā)布的最小視覺語言模型,可在內存低于1GB的PC上運行并提供卓越性能。SmolVLM-500M-Instruct有5億參數(shù),主要針對硬件資源限制,幫助開發(fā)者應對大規(guī)模數(shù)據(jù)分析挑戰(zhàn)。
這兩款模型具備先進的多模態(tài)能力,可執(zhí)行圖像描述、短視頻分析以及回答關于PDF或科學圖表的問題等任務。其開發(fā)依賴于The Cauldron和Docmatix兩個專有數(shù)據(jù)集。The Cauldron包含50個高質量圖像和文本數(shù)據(jù)集,側重于多模態(tài)學習;Docmatix專為文檔理解定制,將掃描文件與詳細標題配對以增強理解。
此外,模型采用了更小的視覺編碼器SigLIP base patch-16/512,通過優(yōu)化圖像標記處理方式,減少了冗余,還將圖像編碼速率提升至每個標記4096像素,相比早期版本的每標記1820像素有了顯著改進。
Hugging Face此次推出的最小AI視覺語言模型,為AI在低資源設備上的應用開辟了新的道路。
-
人工智能
+關注
關注
1806文章
48972瀏覽量
248721 -
語言模型
+關注
關注
0文章
561瀏覽量
10763 -
AI視覺
+關注
關注
0文章
87瀏覽量
4777
發(fā)布評論請先 登錄
如何基于Android 14在i.MX95 EVK上運行Deepseek-R1-1.5B和性能
添越智創(chuàng)基于 RK3588 開發(fā)板部署測試 DeepSeek 模型全攻略
DeepSeek模型為何掀起如此大的波瀾
廣和通推出AI玩具大模型解決方案
新品| LLM630 Compute Kit,AI 大語言模型推理開發(fā)平臺

AI大語言模型開發(fā)步驟
NaVILA:加州大學與英偉達聯(lián)合發(fā)布新型視覺語言模型
大語言模型開發(fā)語言是什么
谷歌全新推出開放式視覺語言模型PaliGemma
谷歌推出效率與性能躍階的全新開放模型標準

借助Arm Neoverse加速Hugging Face模型

評論