智能音箱在2018年延續(xù)前兩年的熱潮,不過音箱本身并不能創(chuàng)造很大的經濟價值,發(fā)展產業(yè)鏈才是未來勝出的重點,智能麥克風與語音處理器是跨產品型態(tài)的關鍵零組件,利基型的應用、中文自然語言處理與邊緣運算是我們廠商值得關注的重點。
2014年電商龍頭亞馬遜(Amazon)推出智能音箱Echo之后,經過幾年的經營,在2016、2017年大放異彩,引發(fā)一股智能音箱開發(fā)風潮,也帶動沉寂已久的智能家居商機,除了Amazon,包括Google、Microsoft、Apple、Samsung、Sony、Line,還有京東、聯(lián)想、阿里巴巴、小米等一線大廠都陸續(xù)推出智能音箱,不僅如此,更多二線品牌廠商也趕上這波熱潮,保守估計目前市場上應該有數(shù)十款智能音箱品牌,布局并搶食智能語音應用背后帶動的龐大商機。智能音箱包括三大部分:硬件、軟件服務、系統(tǒng)平臺。工研院IEK產業(yè)分析師陳右怡說明,硬件規(guī)格大致包括開關、燈光、語音處理芯片、麥克風數(shù)組、喇叭、電池、Wi-Fi/藍牙無線通信模塊、顯示面板等,其中語音處理器與麥克風數(shù)組攸關語音輸入質量,也是這波發(fā)展過程中較受矚目的關鍵零組件。而軟件服務則是智能音箱的靈魂--智能語音助理,搭配技能(Skills),結合云端的系統(tǒng)平臺,形成一個完整的產業(yè)生態(tài)系,以帶動后續(xù)的商業(yè)模式。
智能音箱投入者眾
根據(jù)市場研究機構Strategy Analytics研究指出,2018年智能音箱出貨量接近4,000萬臺,2019年將挑戰(zhàn)6,000萬臺,2022年還要進一步成長至1億6,000萬臺左右,每年都是兩位數(shù)的成長率。Samsung繼去年與Microsoft合作推出的Invoke智能音箱后,2018年8月發(fā)表自有產品Galaxy Home(圖1),音箱里有六組擴音喇叭及低音炮,用來提供環(huán)繞的播放音效;并內建八組遠場麥克風,可在較大的范圍內接收語音指令,語音助理就是自家的Bixby,不過發(fā)表會上擺滿的產品都跟Apple Homepod一樣不能運作,正式上市時間要再等等。
圖1 Samsung 2018年8月發(fā)表搭載Bixby智能音箱Galaxy Home,并內建八組遠場麥克風,可在較大的范圍內接收語音指令
整體而言,智能音箱的發(fā)展,產品本身并不是最重要的,Amazon Echo最早就定位是中低價產品,99美元的售價到后來衍生的多種產品都不走高價路線,以其現(xiàn)階段市場領導者的身分,也發(fā)揮市場帶動的效果,Amazon以電商的角色,不斷擴展產業(yè)生態(tài)體系,并成為多數(shù)廠商仿效的對象。陳右怡表示,Amazon Echo串連了開發(fā)者社群、汽車服務業(yè)、智能裝置、日用品服務、共享/外送服務業(yè)、音樂串流服務業(yè)等。語音指令在搜尋上,顯然比現(xiàn)有的文字輸入便利,跟據(jù)市調機構Gartner的研究,未來50%的各類搜尋,將會利用語音指令的方式呈現(xiàn)。
以可以執(zhí)行的技能而言,Alexa目前高達17,650項,Google Assistant僅有468項,Microsoft Cortana更只有174項。根據(jù)OC&C Strategy Consultants調查,擁有智能音箱的美國家庭中62%會使用智能音箱進行語音購物,2017年美國語音購物市場規(guī)模約20億美元,預估2022年將達400億美元,5年內翻20倍。由此可知,智能音箱擁有多少“技能”、能否帶動商業(yè)模式的發(fā)展,才是其成功的關鍵,這些品牌大廠自然深知要努力將自己的商業(yè)模式,轉換延伸到語音應用,并能提供更新、更多的價值才是發(fā)展重點。經過這幾年的發(fā)展,智能音箱已經出現(xiàn)更為細致的分眾區(qū)隔之路,鑫創(chuàng)科技產品經理曾建統(tǒng)(圖2)認為,通用型的智能音箱主要目的就在扮演智能家居控制中樞,除了豐富的技能之外,更需要完整的系統(tǒng)平臺與產業(yè)生態(tài)系加以配合,帶動商業(yè)模式的發(fā)展,這部分只有資源豐富的大廠具備參賽權。另外,在區(qū)域市場與應用上,也發(fā)展出許多功能較為單純,但滿足特殊需求的智能音箱,如廚房針對做菜、車上影音娛樂/唱歌需求的產品,適合中小型廠商切入。
智能麥克風設計眉角多
近來有部分人士指出,智能音箱是過渡型的產品,就像電子書閱讀器一樣曇花一現(xiàn),不過就實際的發(fā)展來看,智能音箱目前呈現(xiàn)百花齊放的狀況,未來不管產品是否持續(xù)發(fā)展,語音識別成為重要的人機接口已是不爭的事實,因此不管終端產品型態(tài)是甚么,絕對都少不了智能麥克風與語音處理器,這兩個組件的技術與發(fā)展就值得更加深入的觀察。一般而言,MEMS麥克風由背板(Back Plate)、氮化硅薄膜(Membrane)、1微米寬的空氣隙(Air Gap)組成,其中薄膜要求低應力且柔軟,能夠靈敏地感測環(huán)境音壓的改變。現(xiàn)行的MEMS麥克風技術均采用聲波致動薄膜和靜態(tài)背板,英飛凌(Infineon)提出一個較復雜的雙背板架構,在兩個背板之間嵌入薄膜,也有兩個空氣隙,因此能產生更好的訊號質量,訊噪比(SNR)達70dB,進一步獲得更佳的高頻抗擾性,實現(xiàn)更出色的音頻訊號處理,并將10%總諧波失真(THD)的聲學過載點提升到135dB聲壓位準(SPL)。智能麥克風除了采用模擬微機電的制程之外,還有采用數(shù)字CMOS制程的麥克風,不管是采用MEMS或是CMOS都是利用半導體制程產生震膜以搜集聲壓,曾建統(tǒng)說明,除了傳統(tǒng)的單背板/單薄膜之外,雙背板/單薄膜、單背板/雙薄膜等改良型的架構都有廠商提出,目的全是為了強化收音效率的訊噪比。而在系統(tǒng)的設計上,Amazon Echo帶動的多顆麥克風數(shù)組設計已成風潮,但效果還是有很大的差異性。曾建統(tǒng)提醒,智能語音助理硬件的設計,尤其是麥克風數(shù)組,并不是硬件照抄就好,在設計時間要針對機構與收音麥克風進行數(shù)組算法的調適,同時生產階段也必須提高機構精準度的要求,這兩個重點對語音助理裝置最終量產結果有很大的影響。就像通用型的Echo使用場景大部分是在客廳,類似的麥克風數(shù)組設計套用到車用產品就不會得到最佳收音質量;而機構生產與組裝若不夠精準,會持續(xù)削弱麥克風的訊噪比,原本70dB的產品可能于終端產品僅表現(xiàn)出35dB的效能。
關鍵組件整合設計 取得效能表現(xiàn)優(yōu)化
而在語音處理器部分,最主要是處理聲音的數(shù)字化與去除噪聲的訊號純化,由于智能語音助理的工作是透過AI算法,將輸入的語音訊號進行語音識別與自然語言處理,擔負重要的人機接口工作,也是用戶經驗優(yōu)劣的關鍵,因此語音處理器的幾個主要功能包括噪音抑制(Noise Suppression)、回音消除(Echo Cancellation)、語音識別(Voice Recognition Assistance)、遠距收音(Far-field Pickup)、清晰語音溝通(Clear Voice Communication)等就顯得非常重要。語音處理器技術發(fā)展已有滿長的一段時間,其實技術已經相當成熟,不過由于智能音箱將語音變成最主要的人機接口,聲音整體處理效能要求比過去更高,對噪音抑制的壓噪技術而言,環(huán)境聲音如車輛、旁邊人的說話聲音都算是一種噪音,如何找出正確的噪音來源,并保留最大的原音是這部分的挑戰(zhàn)。一般噪音分成穩(wěn)態(tài)與非穩(wěn)態(tài)噪音,機器運作固定頻率的聲音是穩(wěn)態(tài)噪音,比較容易消除;非穩(wěn)態(tài)噪音就是非預期出現(xiàn)的聲音如旁人說話的聲音,也比較難消除。Samsung甫發(fā)表的Galaxy Home,為了收音效果特別采用八顆遠場麥克風,遠距收音的功能就是較遠的距離之下一樣能收到清晰的聲音,做法就是首先偵測人聲,并放大人聲,但不放大噪音。曾建統(tǒng)認為,若要提升收音效能的表現(xiàn),麥克風與語音處理器整合性設計非常重要,除了遠場麥克風、擴大MEMS麥克風芯片尺寸、采用整合模擬數(shù)字轉換器(Analog-to-digital Converter, ADC)的數(shù)字麥克風(Digital Mic)等做法都有,甚么設計才能在效能與成本上取得最佳表現(xiàn),目前其實沒有標準答案,建議還是回歸到產品需求,并進行深入的軟件仿真與效能測試,才有機會開發(fā)出令市場驚艷的產品。
智能音箱的使用近期也因為網絡的便利性與不設防,產生多起網絡安全事件,所以語音處理器的安全機制逐漸被重視,恩智浦半導體大中華區(qū)微處理器及微控制器產品營銷經理張小平(圖3)表示,保護隱私信息不輕易被入侵,需要內建安全裝置的解決方案,除了保護用戶信息,透過整合的SDK實現(xiàn)算法加速,滿足語音、影音和音頻的需求,可整合A/V與機器學習,滿足工程師對于統(tǒng)一平臺的要求,便于打造語音指令控制的聯(lián)網產品。恩智浦i.MX8M系列應用處理器,兼具處理技術和邊緣運算能力,能夠有效管理并縮短智能互聯(lián)裝置響應命令和詢問的時間。張小平指出,該系列產品可用于智能電視、電視訂閱服務、條形音箱與其他智能音箱,以及媒體播放器和DVR/PVR。此外,該系列處理器也適合管理照明、恒溫器、門鎖、居家安全、智能灑水器等各類系統(tǒng)與設備,能夠讓使用者享受直覺簡單、迅速響應的智能家居體驗。如:僅需發(fā)出語音指令即可播放特定的電視劇集,如果對其中的演員感興趣,直接口頭詢問相關問題,屏幕上就會進行搜索并顯示結果,整個過程都不會影響電視劇情的播放等。
語音助理為智能音箱靈魂
在基礎的硬件之外,具備AI功能的智能語音助理顯然是智能音箱產業(yè)鏈能否順利發(fā)展的關鍵,Alexa的跨平臺支持與技能多樣性,目前遙遙領先Google Assistant與Microsoft Cortana,陳右怡表示,智能語音助理的生態(tài)系發(fā)展難度更高,核心的技術包括AI深度學習算法、情境感知、自動化控制、大數(shù)據(jù)分析應用、云端存取等;發(fā)展策略上,可透過開放式AI API發(fā)展第三方開發(fā),擴展語音助理的技能,也透過定價/收費/分潤機制讓生態(tài)系更成熟;最后就是不斷強大生態(tài)系的規(guī)模與服務的多樣性與便利性,就像當年的App Store一樣。而語音助理的服務包羅萬象,所謂“萬能”的智能語音助理應該不存在,以目前四大語音助理來看,Google專長在搜尋、Siri專長在音樂、Alexa專長在購物、Cortana則是專精于商務,廠商的產業(yè)鏈發(fā)展也有所側重,陳右怡相信,過幾年不同領域的語音助理霸主將越來越明確。而語言與在地化的經營則是另一個重點,目前英語系的語音識別與自然語言處理技術上已經頗有突破,發(fā)展較為迅速;相較之下,中文的自然語言處理則有相當大的瓶頸,也是我們廠商可以深入發(fā)展并保有優(yōu)勢的地方。
掌握特殊應用與邊緣運算趨勢
從硬件終端產品來看,大廠會投入更多資源發(fā)展通用型的智能音箱,產品型態(tài)也將更加多樣,整合于智能手機、筆電、各式家電等的狀況會更加普遍。我們廠商在軟硬件的發(fā)展上,應該投入利基型的硬件產品與服務,曾建統(tǒng)建議,特殊應用的智能音箱結合在地化語音技術發(fā)展,是我們廠商的機會。中文AI化的困難性為廠商帶來藍海的商機,只要深入累積語言分析與在地化語料,就可以建立競爭門坎,搭配我們原先就具備深厚基礎的硬件技術能力,可以在智能音箱市場走出一條自己的路。人機接口發(fā)展到語音是一大進步,不過未來視覺、觸覺與念力都是下一波發(fā)展的方向,現(xiàn)在的語音AI技術也有布局未來人機接口的味道。以AI為核心的這些應用,開發(fā)的范圍與需求的資源都較過去更大,訴求利基市場也不見得是單一廠商就能負擔所有技術開發(fā),需要與更多產業(yè)鏈上下游的廠商合作;智能音箱也是典型的邊緣運算裝置,未來會將更多AI功能轉移到終端裝置,直接在邊緣進行處理,對于云端架構規(guī)模不如國外大廠的廠而言,采用較小的云端架構,并透過終端處理部分AI運算,更適合我們廠商發(fā)展。
-
智能音箱
+關注
關注
31文章
1787瀏覽量
79678 -
語音助理
+關注
關注
0文章
27瀏覽量
8823
原文標題:AI語音助理商機不斷熱燒 智能音箱軟硬件大躍進
文章出處:【微信號:iotmag,微信公眾號:iotmag】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
人工智能正在改變世界
【解構·AI玩具】從“小智AI”引爆開發(fā)者熱潮說起

是德科技如何破解人工智能的基礎設施困局
6TOPS算力NPU加持!RK3588如何重塑8K顯示的邊緣計算新邊界
芯片行業(yè)再迎投資熱潮!
AI賦能邊緣網關:開啟智能時代的新藍海
戴爾副總裁揭示:智能邊緣發(fā)展的五大定義趨勢
邊緣計算網關在智能車間的應用

AI眼鏡熱潮涌起,百鏡大戰(zhàn)能否復刻智能音箱輝煌
德承工控DV-1100:短小精干的小鋼炮,邊緣運算的新王者!

邊緣計算的未來發(fā)展趨勢
國產AI出海加速,IT領域投資激增
智能邊緣放大招!英特爾舉辦2024網絡與邊緣計算行業(yè)大會,邊緣AI創(chuàng)新助力多元化應用

評論