電子發燒友網報道(文/莫婷婷)“百鏡大戰”開始時,也是AI大模型在智能眼鏡端加速落地的開始,一場關于智能眼鏡的“百模大戰”也同步進行。幾乎今年剛推出的AI智能眼鏡都搭載了AI大模型。隨著AI智能眼鏡與AI大模型的深度融合,一場技術演進與場景革命正在悄然進行。
一款眼鏡搭載多個大模型:AI智能眼鏡下的“百模大戰”
AI大模型指的是具有大量參數(通常超過數十億)的深度學習模型。這些模型有著復雜計算結構、經過大規模數據集訓練后,能夠在自然語言處理、計算機視覺等多個領域表現出色。例如,GPT-4在文本生成方面有著更強的表現;而DALL·E 2能在圖像生成領域帶來技術突破。這類模型不僅能夠理解復雜的語義信息,還能根據上下文生成相應的響應或內容,極大地提升了人機交互的質量。
一般來說,AI大模型具備泛化性、通用性、實用性三大特點。AI大模型包括云側大模型和端側大模型,云側AI大模型在云端部署,具備參數多,且算力和數據存儲需求大的特點,例如通用大模型和行業大模型;端側大模型主要應用在手機、汽車等產品上,具備參數小、本地運行等特點。
與傳統眼鏡相比,AI智能眼鏡最大的特點就是增加了AI功能,且目前來看,智能音頻眼鏡、AI智能眼鏡、AR智能眼鏡這三大類AI智能眼鏡都搭載了AI大模型。
例如Ray-Ban Meta新型號搭載的是Meta Llama3大模型,李未可Meta Lens Chat AI眼鏡搭載了自研大模型WAKE-AI大模型等。同時,我們也看到了一款智能眼鏡會搭載多個AI大模型,例如Rokid Glasses搭載了通義千問、DeepSeek、豆包、智譜清言、納米搜索等多個大模型,蜂巢科技界環AI音頻眼鏡搭載了包括通義、百川等在內的14 個大模型。
圖:AI智能眼鏡的功能介紹(電子發燒友網制圖)
搭載多個大模型將帶來多個優勢,一是增強的功能多樣性,這些大模型專注于不同的任務,有的擅長自然語言處理,有的則在圖像識別領域有著出色的表現。通過集成多種模型,智能眼鏡可以提供更加豐富和全面的服務。
二是提高性能與準確度,每個大模型都有其獨特的算法和訓練數據集,因此在特定任務上可能具有獨特的優勢。當用戶的需求不同時,系統會根據實際應用場景選擇最適合的模型進行處理。
三是快速響應與高效處理。Rokid Glasses 將產品搭載的大模型分為基礎模型、視覺模型、搜索模型等類型。基礎大模型負責對話,問答和調用產品功能等整體 AI 能力;視覺大模型負責識別物體等需要處理視覺信息的任務;信息大模型負責搜索當下最新信息對所回答的問題進行信息整合與歸納。
那么,這么多的大模型,在接收到任務時會不會“打架”?Rokid在Rokid Glasses端側集成自研的意圖分類模型,做到2 毫秒內完成對意圖的分類,再將請求分發給不同的模型。由此帶來快速的AI 響應速度快、更高的處理效率。
Rokid認為“目前還沒有一款能力覆蓋全面的大模型,更多的是某大模型在特定領域內表現出色。因此多模型的協同使用或許是更優解。”
AI智能眼鏡的“大腦革命”:端側推理與交互時延重塑
智能眼鏡的進化史,本質是端側算力與交互時延的博弈,隨著Llama、盤古、通義等大模型的升級,更強大的端側推理能力和極低的交互時延,將提供更流暢且即時的用戶體驗。具體來看主流AI智能眼鏡的AI大模型的特點。
Ray-Ban Meta搭載了Llama系列多模態模型,實現了實時視覺-語言協同(VLM),支持實時同聲傳譯,支持動態物體追蹤和環境語義分割,能夠識別超過1000類物體,環境感知準確率提升至92%。
華為的智能眼鏡產品已經搭載了盤古多模態大模型。從2021年發布盤古大模型1.0版本至今,盤古大模型就一直在更新升級,盤古大模型5.0能夠更精準地理解物理世界,融合了語言和視覺跨模態信息,支持圖像理解等功能。在接入華為智能眼鏡后,喚醒小藝助手,能夠進行對話和其他交互功能。據了解,盤古大模型5.0的推理速度提升了300%。如若搭載在華為智能眼鏡上,將帶來更快速的交互體驗。
李未可科技的Meta Lens Chat AI智能眼鏡基于WAKE-AI大模型平臺,用戶在AI智能眼鏡上調用大模型能在500毫秒內快速精準地識別用戶指令,一般對話時延在1.8秒左右、2秒以內。
2025年1月,雷鳥V3宣布接入阿里云通義大模型,還定制了全新意圖識別模型,AI 平均響應速度為 1.3s,識別準確率高達98%。
也是在2025年1月,百度智能云發布了AI眼鏡大模型互動方案,針對智能眼鏡場景,提供語音交互、視覺理解、復雜任務等端到端解決方案。在交互響應速度方面,多模態實時互動方案能做到端到端音頻延時低至1.4s,語音打斷延時小于0.8s,端到端視覺延時低至2.5s。
通過上述各產品技術參數對比來看,AI智能眼鏡大模型的端側推理速度、交互時延將是AI大模型迭代的兩大關鍵。
端側推理速度持續提升,處理延遲會隨著技術迭代持續下降。在時延方面,1.8s是一個分水嶺,此前,大多數應用在智能眼鏡的交互時延都在5s左右,通過上述最新產品來看,視覺延時在2.5s左右,語音交互時延的要求則更低,普遍要求在1.3s左右。
XREAL創始人兼CEO徐馳在接受媒體采訪時曾表示AI眼鏡的核心壁壘在大模型,他認為在AI智能眼鏡中,大模型占70%的決定性作用,硬件研發投入占30%,兩者需要深度融合。就在2025年2月,XREAL宣布將與海信視像科技展開合作,合作內容包括光學顯示、AI大模型應用等領域。
小結:
隨著AI技術的不斷進步,智能眼鏡正在經歷一場前所未有的“大腦革命”。從Ray-Ban Meta到華為智能眼鏡,再到李未可科技的Meta Lens Chat,這些產品展示了各自在AI大模型應用上的獨特優勢。通過搭載Llama、盤古、通義等先進大模型,智能眼鏡現在能夠實現更快的端側推理速度和更低的交互時延,為用戶提供更加流暢且即時的體驗。此外,越來越多的產品開始采用多大模型協同工作的模式。這一切都預示著,在不久的將來,智能眼鏡將不僅僅是一個簡單的穿戴設備,而是一個集成了最先進AI技術的多功能平臺。
另一個值得關注的是,“百鏡大戰”不僅僅是硬件的競爭,更是背后AI大模型技術和應用場景的較量。各大廠商紛紛探索如何更好地應用大模型,以期在保持設備輕量化的同時提供強大的計算能力。未來會如何發展,我們也將持續關注。
發布評論請先 登錄
成本狂降90%!國產芯片+開源模型如何改寫AI玩具規則
首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手
智能語音交互的突破與應用,啟明云端AI大模型方案應用

行業集結:共同定制 RK3566 集成 AI 眼鏡的前沿 AR 方案
AI眼鏡新品炸場!雷鳥V3接入阿里云通義大模型,未來雙方合作更進一步

雷鳥創新與阿里云達成戰略合作,引領 AI大模型與AR眼鏡融合新紀元

評論