電子發燒友網報道(文/黃山明)多種交互方式已經成為當下智能家居的一大特點,許多產品已經不再需要手動調整和控制,更常用的是語音喚醒及操控,這也是最符合人類所習慣的交互方式。有研究表明,人類大腦皮層每天處理的信息中心,聲音信息占20%,是溝通最重要的紐帶。
但想要讓機器理解人聲,就需要在前端把聲音信號進行處理,轉化為文字或代碼的形式供機器理解,在機器生成語言之后,再用語言合成技術將這些信息轉化為聲波,從而使用人聲來進行回應。
語音系統的發展
語音技術的發明最早可以追溯到半個世紀之前,1952年,貝爾實驗室制作了一臺高6英尺的自動數字識別機“Audrey”,能夠識別數字0-9的發音,準確率達到90%以上。
不過這一系統主要基于簡單的模板匹配方法識別個體說出的孤立數字,也導致作為模板的熟人說出的語音識別會更精準,而陌生人識別率會低一些。在此之后,連續語音識別系統開始出現,語音合成的參數合成法能夠生成比較自然的語音。
到二十世紀八十年代中期,IBM創造了一臺可以用語音控制的打字機“Tangora”,基于隱形馬爾科夫鏈模型(HMM),在信號處理技術中加入了統計信息,可以讓機器在聽到第一個音節時,便能夠預測單詞。到了1984年,這一系統在5000個詞匯量級上達到了95%的識別率。
時間來到2011年,微軟研究院將DNN技術應用在大詞匯量連續語音識別任務上,極大地降低了語音識別錯誤率。
2016年,微軟團隊已經將語音識別的詞錯率(WER)降低至了5.9%,這一數據已經相當于專業速錄員速記同樣一段話的水平。這標志著機器的語音識別準確率第一次達到人類水平,智能語音語言技術開始逐步落地。
到了這一階段,端到端的語音識別開始被廣泛應用,智能語音助手、智能音箱等多款應用智能語音識別的產品相繼落地。發展到近期,語音識別的準確率進一步提升,且針對遠場的語音識別和喚醒得到進一步發展,全雙工語音交互開始出現。語音識別準確率已經達到98%以上,并且能根據實際應用痛點針對性強化。
從2011年第一款手機語音助手Siri伴隨著iPhone 4S的亮相,讓全球各大廠商紛紛入局,也標志著正式開啟智能語音應用元年,到2017年下半年開始通過開放語音生態系統進行產業內合作,語音識別系統也開始向可穿戴、智能家居、車載等領域延伸。
據ReportLinker的預測:到2024年全球智能語音市場規模將達到215億美元,其中智慧醫療健康、智慧金融以及各類智能終端智能語音技術需求將成為主要的驅動因素。目前國內主要智能語音服務商如百度、科大訊飛、思必馳、樂言科技、聲揚科技、竹間智能等。
智能家居語音系統
從整個智能家居語音系統來看,主要構成為語音采集模塊、語音前級處理模塊、語音訓練模塊、語音識別模塊、語音提示模塊和輸出控制模塊等。
語音采集模塊主要起到完成信號調理和信號采集的功能,通過將語音信號轉換為語音脈沖序列,模塊中主要包括聲音與電信號的轉換、信號調理和采樣等信號處理過程。
其中采樣位數與采樣率對音頻接口而言是最重要的兩個指標,也是選擇聲音模塊的重要標準。每增加一個采樣位數相當于力度范圍增加了6dB,采樣位數越多則捕捉到的信號越精準。
而采樣頻率是指計算機每秒鐘采集多少個聲音樣本,是描述聲音文件的音質、音調,衡量聲卡、聲音文件的質量標準。采樣率越高,計算機攝取的圖片越多,對于原始音頻的還原也越加精確。
語音前級處理模塊主要用于濾除干擾信號、提取語音特征矢量,并將提取的語音特征矢量量化為標準語音特征矢量。
而語音訓練模塊主要功能是將多次采集、提取到的語音特征標準矢量進行概率統計,避免語音受到人自身情緒、環境等因素引起的干擾。簡而言之,這一模塊是幫助進行語音校準,減少誤差。
語音識別模塊,顧名思義,主要通過將新采集到的語音特征矢量與語音模板庫中的語音模型進行比較,然后再判斷當前語音命令功能。而語音模板庫中,主要存儲訓練后的最佳標準語音特征矢量。
其他如語音提示模塊的主要功能為提示用戶進行相關操作的進度,以及前往完成的情況;而輸出控制模塊便是針對智能語音識別的結果來輸出相應的控制信號,比如開關、音量調節、溫度大小等。
通過這些模塊的加入,便能夠讓語音識別人機交互成為現實。并依照這個框架,語音識別技術已經開始有了長遠的發展。
在近幾年的研究中,端到端的語音識別仍然是ASR( Automatic Speech Recognition)研究的熱點,同時基于Attention機制的識別系統已經成為語音技術研究的主流。此外,遠場語音識別、模型結構、模型訓練、跨語種或者多語種語音識別都成為了研究的熱門選項。
小結
到今年,語音識別技術已經發展了71年,從最初只能識別特定單詞,到慢慢實現理解人的語音、語義,并參與到智能家居等落地應用中來,為人們實現更好的生活體驗。相比智能視覺只是針對人臉這一個變量而言,智能語音技術需要解決的是更復雜的語義、繁雜的環境、精準關鍵詞的檢測等來提升輸入效率,而這些都需要時間來完成。
但想要讓機器理解人聲,就需要在前端把聲音信號進行處理,轉化為文字或代碼的形式供機器理解,在機器生成語言之后,再用語言合成技術將這些信息轉化為聲波,從而使用人聲來進行回應。
語音系統的發展
語音技術的發明最早可以追溯到半個世紀之前,1952年,貝爾實驗室制作了一臺高6英尺的自動數字識別機“Audrey”,能夠識別數字0-9的發音,準確率達到90%以上。
不過這一系統主要基于簡單的模板匹配方法識別個體說出的孤立數字,也導致作為模板的熟人說出的語音識別會更精準,而陌生人識別率會低一些。在此之后,連續語音識別系統開始出現,語音合成的參數合成法能夠生成比較自然的語音。
到二十世紀八十年代中期,IBM創造了一臺可以用語音控制的打字機“Tangora”,基于隱形馬爾科夫鏈模型(HMM),在信號處理技術中加入了統計信息,可以讓機器在聽到第一個音節時,便能夠預測單詞。到了1984年,這一系統在5000個詞匯量級上達到了95%的識別率。
時間來到2011年,微軟研究院將DNN技術應用在大詞匯量連續語音識別任務上,極大地降低了語音識別錯誤率。
2016年,微軟團隊已經將語音識別的詞錯率(WER)降低至了5.9%,這一數據已經相當于專業速錄員速記同樣一段話的水平。這標志著機器的語音識別準確率第一次達到人類水平,智能語音語言技術開始逐步落地。
到了這一階段,端到端的語音識別開始被廣泛應用,智能語音助手、智能音箱等多款應用智能語音識別的產品相繼落地。發展到近期,語音識別的準確率進一步提升,且針對遠場的語音識別和喚醒得到進一步發展,全雙工語音交互開始出現。語音識別準確率已經達到98%以上,并且能根據實際應用痛點針對性強化。
從2011年第一款手機語音助手Siri伴隨著iPhone 4S的亮相,讓全球各大廠商紛紛入局,也標志著正式開啟智能語音應用元年,到2017年下半年開始通過開放語音生態系統進行產業內合作,語音識別系統也開始向可穿戴、智能家居、車載等領域延伸。
據ReportLinker的預測:到2024年全球智能語音市場規模將達到215億美元,其中智慧醫療健康、智慧金融以及各類智能終端智能語音技術需求將成為主要的驅動因素。目前國內主要智能語音服務商如百度、科大訊飛、思必馳、樂言科技、聲揚科技、竹間智能等。
智能家居語音系統
從整個智能家居語音系統來看,主要構成為語音采集模塊、語音前級處理模塊、語音訓練模塊、語音識別模塊、語音提示模塊和輸出控制模塊等。
語音采集模塊主要起到完成信號調理和信號采集的功能,通過將語音信號轉換為語音脈沖序列,模塊中主要包括聲音與電信號的轉換、信號調理和采樣等信號處理過程。
其中采樣位數與采樣率對音頻接口而言是最重要的兩個指標,也是選擇聲音模塊的重要標準。每增加一個采樣位數相當于力度范圍增加了6dB,采樣位數越多則捕捉到的信號越精準。
而采樣頻率是指計算機每秒鐘采集多少個聲音樣本,是描述聲音文件的音質、音調,衡量聲卡、聲音文件的質量標準。采樣率越高,計算機攝取的圖片越多,對于原始音頻的還原也越加精確。
語音前級處理模塊主要用于濾除干擾信號、提取語音特征矢量,并將提取的語音特征矢量量化為標準語音特征矢量。
而語音訓練模塊主要功能是將多次采集、提取到的語音特征標準矢量進行概率統計,避免語音受到人自身情緒、環境等因素引起的干擾。簡而言之,這一模塊是幫助進行語音校準,減少誤差。
語音識別模塊,顧名思義,主要通過將新采集到的語音特征矢量與語音模板庫中的語音模型進行比較,然后再判斷當前語音命令功能。而語音模板庫中,主要存儲訓練后的最佳標準語音特征矢量。
其他如語音提示模塊的主要功能為提示用戶進行相關操作的進度,以及前往完成的情況;而輸出控制模塊便是針對智能語音識別的結果來輸出相應的控制信號,比如開關、音量調節、溫度大小等。
通過這些模塊的加入,便能夠讓語音識別人機交互成為現實。并依照這個框架,語音識別技術已經開始有了長遠的發展。
在近幾年的研究中,端到端的語音識別仍然是ASR( Automatic Speech Recognition)研究的熱點,同時基于Attention機制的識別系統已經成為語音技術研究的主流。此外,遠場語音識別、模型結構、模型訓練、跨語種或者多語種語音識別都成為了研究的熱門選項。
小結
到今年,語音識別技術已經發展了71年,從最初只能識別特定單詞,到慢慢實現理解人的語音、語義,并參與到智能家居等落地應用中來,為人們實現更好的生活體驗。相比智能視覺只是針對人臉這一個變量而言,智能語音技術需要解決的是更復雜的語義、繁雜的環境、精準關鍵詞的檢測等來提升輸入效率,而這些都需要時間來完成。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
智能家居
+關注
關注
1934文章
9762瀏覽量
189890 -
語音系統
+關注
關注
1文章
27瀏覽量
13158
發布評論請先 登錄
相關推薦
熱點推薦
藍牙語音遙控器:智能家居的智慧控制核心
隨著智能家居的蓬勃發展,藍牙語音遙控器憑借其便捷的操作和智能交互體驗,正迅速取代傳統紅外遙控器,成為智能電視、機頂盒等設備的首選控制工具。
相較于需對準設備的紅外遙控器,藍牙
發表于 06-01 20:24
明遠智睿SSD2351開發板:智能家居的智能核心
數據,如溫度、濕度、光照強度等,為智能家居系統的自動化控制提供準確的數據支持。全開源的開發資料和一對一的技術支持,讓開發者可以根據用戶的需求定制個性化的智能家居解決方案,不斷提升
發表于 05-07 18:59
智能家居Mesh組網方案:實現智能化生活的無縫連接NRF52832
互聯成為了一個迫切的問題。
為了解決這一問題,迅通科技研發了智能家居 Mesh 組網方案,為傳統智能家居產品商提供了智能化解決方案,以實現全
發表于 04-15 14:07
智能家居系統技術解析
一、基本概念與技術構成 智能家居系統是由物聯網技術支持的家居設備集群,依托Wi-Fi、藍牙、ZigBee等通信協議實現設備互聯,具備遠程操控與自動化執行能力,致力于提高居家安全水平、操

智能家居物聯網:數字化生活模式
的核心在于“智能”二字,利用物聯網技術將家中的各種設備連接起來,形成一個統一的管理系統。讓家居設備的管理再云平臺進行,通過
語音報警器應用智能家居的技巧
在科技日新月異的時代,智能家居安全系統已成為許多家庭和企業不可或缺的一部分。其中,語音報警器作為智能安防的重要組成,旨在提升安全報警的即時性
語音識別在智能家居中的應用
隨著科技的飛速發展,智能家居逐漸成為人們生活中不可或缺的一部分。智能家居系統通過物聯網技術將家中的各種設備連接起來,實現遠程控制和自動化管理。在眾多的控制方式中,
語音識別芯片:塑造智能家居控制新時代
語音識別芯片技術革新智能家居控制,用戶語音指令可輕松管理家電,實現一鍵切換場景,提高效率和響應速度,保障隱私安全,市場應用廣泛,將創造更多智能
ASR在智能家居中的應用
ASR技術簡介 自動語音識別技術,即ASR,是一種將人類語音轉換成文本的技術。它通過模擬人腦處理語言的方式,對語音信號進行分析和識別,從而實現對語
智能家居控制系統如何設計
智能家居的控制系統設計是一個復雜而細致的過程,它涉及到多個方面的考慮,包括需求分析、設備選型、系統架構設計、網絡安全、用戶交互以及后期維護等。以下是對
評論