你是否曾經(jīng)幻想過(guò)這些場(chǎng)景:回到家,對(duì)著電視說(shuō)想看的節(jié)目,電視會(huì)自動(dòng)開(kāi)啟并切換至目標(biāo)頻道?或者對(duì)著爐子說(shuō)開(kāi)始小火慢燉,晚餐會(huì)以恰當(dāng)?shù)幕鸷蜃詣?dòng)烹飪?現(xiàn)如今,家用電器的確可以實(shí)現(xiàn)諸如此類的功能,通過(guò)語(yǔ)音控制,疲憊一天的你不用親力親為,坐在沙發(fā)上對(duì)著各種電器發(fā)出指令,它們便會(huì)聽(tīng)話地完成你的各種需求。
實(shí)際上,家用電器能說(shuō)會(huì)聽(tīng)是物聯(lián)網(wǎng)的產(chǎn)物。物聯(lián)網(wǎng)架構(gòu)復(fù)雜,涉及方面廣,越來(lái)越多的企業(yè)選擇云上托管物聯(lián)網(wǎng)設(shè)備體系,因?yàn)樵贫思軜?gòu)安全便捷,基于人工智能(比如,自然語(yǔ)言處理)模型,訓(xùn)練和部署等過(guò)程都通過(guò)簡(jiǎn)單的點(diǎn)擊即可完成,功能強(qiáng)大,可以極大程度地為公司節(jié)約人力和物力。云端物聯(lián)網(wǎng)通常包括一個(gè)安置在家庭中的傳感器設(shè)備,通過(guò)Wi-Fi連接到網(wǎng)絡(luò),用于接受數(shù)據(jù),將數(shù)據(jù)傳給云端數(shù)據(jù)庫(kù),在云環(huán)境中進(jìn)行分析處理。
隨著人工智能和物聯(lián)網(wǎng)的發(fā)展,人機(jī)交互給人們帶來(lái)越來(lái)越高端的體驗(yàn)。語(yǔ)音控制技術(shù)應(yīng)用最為廣泛,也是當(dāng)今的熱門(mén)研究課題。令人耳目一新的是在家用電器方面的應(yīng)用,摒棄了傳統(tǒng)的遙控器裝備,通過(guò)口令讓家用電器完成各項(xiàng)功能。語(yǔ)音控制家電技術(shù)圍繞人工智能,機(jī)器學(xué)習(xí)語(yǔ)義識(shí)別,物聯(lián)網(wǎng) (IoT),云計(jì)算 (cloud computing) 而展開(kāi)。
本文以云端架構(gòu)為框架,為大家介紹語(yǔ)音控制技術(shù)是如何讓家用電器能說(shuō)會(huì)聽(tīng)的。主要內(nèi)容將圍繞以下幾個(gè)方面展開(kāi):
A. Azure云端語(yǔ)音控制和識(shí)別技術(shù)
1. | 云端物聯(lián)網(wǎng) | |
2. | 云端語(yǔ)音控制技術(shù)基本解決方案步驟 |
B. 相關(guān)主要技術(shù)說(shuō)明
1. | Universal Windows Platform (UWP) | |
2. | Cognitive service 的語(yǔ)音識(shí)別APIs & SDK | |
3. | Language Understanding Intelligent Service (LUIS) | |
4. | 運(yùn)行Windows 10 IoT核心版的Raspberry Pi 3 |
C. 語(yǔ)音控制技術(shù)如何應(yīng)用于家電
1. | 核心技術(shù) | |
2. | 架構(gòu) | |
3. | 功能 | |
4. | 解決方案 |
D. 總結(jié)
Azure云端語(yǔ)音控制和識(shí)別技術(shù)
語(yǔ)音控制系統(tǒng)包括了語(yǔ)音識(shí)別、自然語(yǔ)音理解、對(duì)話管理、自然語(yǔ)言生成、語(yǔ)音合成。
1) 云端物聯(lián)網(wǎng)
● | 語(yǔ)音識(shí)別是指語(yǔ)音到文本的轉(zhuǎn)化。Azure 平臺(tái)的TTS(text to speech)采用Universal language模型,該模型對(duì)Microsoft已有數(shù)據(jù)進(jìn)行了訓(xùn)練,并部署在云端,也可以創(chuàng)建和訓(xùn)練自定義的語(yǔ)言模型,根據(jù)需要選擇特定的詞匯并將其加入訓(xùn)練數(shù)據(jù)中。 |
● | 自然語(yǔ)言分析/自然語(yǔ)言處理,是機(jī)器學(xué)習(xí)的一部分,設(shè)計(jì)模型并進(jìn)行訓(xùn)練。 |
● | 對(duì)話管理的任務(wù)主要有下三點(diǎn): |
a. 預(yù)測(cè)用戶意圖
對(duì)話內(nèi)容進(jìn)行分析,機(jī)器學(xué)習(xí)模型預(yù)測(cè),確定下一步做什么。 |
b. 作為接口與后端/任務(wù)模型進(jìn)行交互
作為應(yīng)用程序接口與服務(wù)器端或模型進(jìn)行請(qǐng)求交互,獲取反饋結(jié)果,生成文字結(jié)果。 |
c. 提供語(yǔ)義分析結(jié)果的期望值
根據(jù)用戶的提問(wèn),通過(guò)一系列的語(yǔ)義解析,做出滿足用戶期望的回應(yīng)。 |
● | 語(yǔ)言答案的文本生成是通過(guò)模型分析用戶的指令并作出文字回應(yīng)。 | |
● | 語(yǔ)音合成技術(shù)主要作用是將文本轉(zhuǎn)化成擬人化語(yǔ)音的需求,基礎(chǔ)的Azure 云端語(yǔ)音合成使用語(yǔ)音SDK或REST API使用標(biāo)準(zhǔn)(詳細(xì)說(shuō)明見(jiàn)下文),神經(jīng)或自定義語(yǔ)音實(shí)現(xiàn)文本轉(zhuǎn)語(yǔ)音的過(guò)程。 |
家用電器中,對(duì)話模式的情感要求會(huì)低一些,因?yàn)橛脩舭l(fā)出的大多是功能請(qǐng)求,比如:開(kāi)機(jī),詢問(wèn)溫度或濕度等等。
2) 云端語(yǔ)音控制技術(shù)基本解決方案步驟
● |
對(duì)話模式 對(duì)話模式是人機(jī)語(yǔ)言交互的核心,所有模式圍繞其展開(kāi)。當(dāng)用戶發(fā)出指令,系統(tǒng)便切換到了對(duì)話模式。Azure上使用UWP 應(yīng)用平臺(tái),開(kāi)發(fā)一個(gè)界面,用于監(jiān)測(cè)人聲觸發(fā)(例如:對(duì)平臺(tái)說(shuō): ‘Hi, cloud!‘)成功與否。 |
● |
聽(tīng)寫(xiě)模式 使用者說(shuō)出一段較長(zhǎng)的語(yǔ)音,然后等待語(yǔ)音識(shí)別的結(jié)果。當(dāng)‘Hi, cloud!‘指令發(fā)起后,用戶正式發(fā)出指令(說(shuō)出想對(duì)機(jī)器說(shuō)的話),這時(shí)語(yǔ)音便傳到了語(yǔ)義分析系統(tǒng)(Azure LUIS),內(nèi)容傳入語(yǔ)義分析系統(tǒng),Azure上的實(shí)時(shí)語(yǔ)音轉(zhuǎn)文本服務(wù)使用初始化Universal Language模型,通過(guò)REST API/Speech software development kit (SDK)完成。 |
● |
交互模式 使用者發(fā)出簡(jiǎn)短的請(qǐng)求, 并期望應(yīng)用程序執(zhí)行響應(yīng),交互模式主要是指將語(yǔ)音識(shí)別和文字到語(yǔ)音的轉(zhuǎn)換過(guò)程嵌入到應(yīng)用程序中去。本文例子中,Azure云端部署語(yǔ)音控制系統(tǒng)的交互模式體現(xiàn)在與用戶交互的Universal Windows Platform(UWP)應(yīng)用。在UWP上開(kāi)發(fā)一個(gè)簡(jiǎn)單的界面供用戶操控,或供開(kāi)發(fā)者測(cè)試使用。 |
相關(guān)主要技術(shù)說(shuō)明
1) Universal Windows Platform(UWP)
Windows通用應(yīng)用平臺(tái),同一個(gè)API可以在電腦端,手機(jī)端,或其他windows10設(shè)備通用。換句話說(shuō),同樣的代碼可以在不同的終端運(yùn)行,不必為不同的平臺(tái)寫(xiě)不同的代碼。
2) Cognitive service 的語(yǔ)音識(shí)別REST APIs & SDK
以語(yǔ)音識(shí)別為例:REST API 需要提前獲取密鑰,然后向服務(wù)器發(fā)送HTTP請(qǐng)求,經(jīng)過(guò)身份驗(yàn)證后,服務(wù)器將轉(zhuǎn)換后的音頻返回至本地。
● | 下面通過(guò)圖示說(shuō)明云上的REST APIS: |
這是Rest client應(yīng)用于Application(應(yīng)用程序)并在其中創(chuàng)建rest client的實(shí)例,然后在Application上調(diào)用一些方法。當(dāng)調(diào)用Rest client方法時(shí),該方法將輸入轉(zhuǎn)換為http請(qǐng)求,并將請(qǐng)求發(fā)送到Rest api。來(lái)自端點(diǎn)的響應(yīng)是http響應(yīng),Rest client將其轉(zhuǎn)換為Application可識(shí)別的類型,并返回給Application端。
由于我們不想向我們的Application(應(yīng)用程序)公開(kāi)Rest client的詳細(xì)信息,可以添加Adapter(適配器)用來(lái)與外部服務(wù)通信。適配器接受Application(應(yīng)用程序)中已知類型的參數(shù),并且返回值也是Application(應(yīng)用程序)中已知類型的參數(shù)。
● |
SDK即為可以調(diào)用的庫(kù),支持Python,C#, C++, Java, JavaScript, Objective-C/Swift. 官方文獻(xiàn)明確指出:“作為語(yǔ)音 SDK 的一種替代方法,語(yǔ)音服務(wù)允許使用 REST API 將語(yǔ)音轉(zhuǎn)換為文本。每個(gè)可訪問(wèn)的終結(jié)點(diǎn)都與某個(gè)區(qū)域相關(guān)聯(lián)。 應(yīng)用程序需要所用終結(jié)點(diǎn)的訂閱密鑰。REST API 非常有限,只應(yīng)在語(yǔ)音 SDK 不能使用的情況下使用。” |
3) Language Understanding Intelligent Service (LUIS)
Azure的LUIS是基于云的對(duì)話式AI服務(wù),作用是使機(jī)器理解人的語(yǔ)言。 運(yùn)行方式可用一句話概括為:客戶端通過(guò)應(yīng)用程序直接發(fā)送語(yǔ)音請(qǐng)求到 LUIS, LUIS中的自然語(yǔ)言處理功能將命令轉(zhuǎn)換為JSON格式,分析后答案同樣以JSON的形式返回。LUIS平臺(tái)為用戶提供了訓(xùn)練模型的服務(wù),并且模型具備“不斷學(xué)習(xí)的功能”,通過(guò)使用模型去回應(yīng)客戶請(qǐng)求,模型會(huì)不斷自動(dòng)修正以提高準(zhǔn)確度。
● | 下面通過(guò)圖示說(shuō)明云上的REST APIS: |
自然語(yǔ)言處理離不開(kāi)以下幾個(gè)方面:
(例如:用戶向家用檢測(cè)濕度系統(tǒng)發(fā)出”檢查濕度?”的指令。)
● | 目的性(動(dòng)詞)- “檢查”就是一個(gè)動(dòng)詞, LUIS模型最大接受80個(gè)目的性詞匯。 |
● | 完整的語(yǔ)言內(nèi)容 - 用戶發(fā)出的完整指令,LUIS模型最多接受500字的語(yǔ)音請(qǐng)求。 |
● |
實(shí)體(名詞)- 濕度是一個(gè)名詞。LUIS模型最多接受30個(gè)實(shí)體名詞。 LUIS定義特征,意思就是當(dāng)你的模型很難識(shí)別某一個(gè)或幾個(gè)單詞的時(shí)候,可以自動(dòng)加進(jìn)數(shù)據(jù)中進(jìn)行再訓(xùn)練。 |
運(yùn)行Windows 10 IoT核心版的Raspberry Pi 3
Raspberry Pi 是一個(gè)開(kāi)發(fā)板,可以連接到不同類型的傳感器。Raspberry Pi可以被用作Web服務(wù)器,該服務(wù)器接收不同的解釋命令并發(fā)送電信號(hào),以控制安裝在Smart Home中的家用電器。
語(yǔ)音控制技術(shù)如何應(yīng)用于家電
語(yǔ)音控制使家庭環(huán)境更智能,實(shí)現(xiàn)家電的自動(dòng)化。我們可以將其定義為:通過(guò)提供如健康,多媒體,娛樂(lè)和能源相關(guān)應(yīng)用的不同服務(wù),通過(guò)引入技術(shù)改善居住者的生活質(zhì)量。
應(yīng)用舉例:智能濕度計(jì)---云端部署
1) 核心技術(shù)
在Raspberry Pi 3上運(yùn)行的Universal Windows Platform(UWP)應(yīng)用,使用語(yǔ)音識(shí)別API與傳感器與用戶進(jìn)行交互, LUIS 進(jìn)行語(yǔ)義分析,經(jīng)由Raspberry pi 3 將用戶的問(wèn)題傳入,最后通過(guò)Cognitive service 的語(yǔ)音識(shí)別APIs 技術(shù)給出答案。
2) 架構(gòu)
3) 功能
● | 存儲(chǔ)數(shù)據(jù),通過(guò)傳感器搜集數(shù)據(jù)并存儲(chǔ)在云端。 |
● | 語(yǔ)音到文本和文本到語(yǔ)音的API,用于識(shí)別用戶提出的問(wèn)題,并使用語(yǔ)音提供答案。 |
● | LUIS語(yǔ)音識(shí)別,語(yǔ)義分析,通過(guò)預(yù)先訓(xùn)練的模型預(yù)測(cè)答案,以準(zhǔn)確響應(yīng)客戶的指令。 |
● | 通過(guò)Raspberry Pi 3傳入語(yǔ)音,和Cognitive Services的語(yǔ)音識(shí)別API,讓家電可以回答用戶提出的問(wèn)題。 |
4) 解決方案
● |
數(shù)據(jù)到云端 從傳感器到云端數(shù)據(jù)庫(kù)的數(shù)據(jù)傳輸過(guò)程已經(jīng)可以通過(guò)完善的架構(gòu)實(shí)現(xiàn),客戶可以直接使用不同類型的數(shù)據(jù)庫(kù),以滿足不同的需求。 |
● |
開(kāi)展語(yǔ)音對(duì)話:UWP應(yīng)用 例如:用戶希望了解家里的濕度,‘Hey, cloud !’ ? ’ What is the humidity in the room now? ’通過(guò)UWP平臺(tái)進(jìn)行文本輸出顯示,UWP應(yīng)用將在中安裝的Raspberry Pi 3上運(yùn)行,該應(yīng)用程序?qū)⒛軌蚺c所有傳感器和執(zhí)行器進(jìn)行通信, 系統(tǒng)被觸發(fā)后,問(wèn)題會(huì)被傳到LUIS中進(jìn)行語(yǔ)義分析。 |
● |
問(wèn)題分析,與LUIS連接 LUIS 用于了解從Raspberry Pi 3接收的命令。經(jīng)過(guò)對(duì)模型的訓(xùn)練,應(yīng)用程序能夠識(shí)別意圖:檢索室內(nèi)濕度。之后,將LUIS API添加到UWP應(yīng)用程序中,用戶觸發(fā)命令 “Hey, cloud ! ” 之后,所有內(nèi)容通過(guò)API發(fā)送到LUIS進(jìn)行分析。LUIS在UWP內(nèi)被調(diào)用,接收輸入并分析意圖。根據(jù)預(yù)測(cè)意圖的置信度向用戶提供正確答案,將命令發(fā)送到IoT中心以獲取傳感器的溫度。 |
● |
開(kāi)發(fā)網(wǎng)頁(yè)端應(yīng)用 開(kāi)發(fā)一個(gè)網(wǎng)頁(yè)端應(yīng)用程序用于設(shè)備管理。該程序可以顯示連接到IoT中心的所有傳感器,使管理設(shè)備變得更加容易,實(shí)現(xiàn)重新啟動(dòng),固件更新等功能。 |
● |
人機(jī)交互 UWP應(yīng)用與網(wǎng)頁(yè)端應(yīng)用進(jìn)行交互給客戶進(jìn)行響應(yīng),網(wǎng)頁(yè)端應(yīng)用負(fù)責(zé)將指令發(fā)送到指定的傳感器,從特定的傳感器檢索當(dāng)前室內(nèi)的空氣濕度,回答用戶問(wèn)題,最后通過(guò) “文本到語(yǔ)音” API向用戶提供當(dāng)前室內(nèi)的濕度值。 |
總結(jié)
語(yǔ)音交互為用戶提供了一種全新的家居控制方式,使家用電器能說(shuō)會(huì)聽(tīng),與此同時(shí),當(dāng)下語(yǔ)言識(shí)別面臨的困難也不同忽視,主要包括以下幾點(diǎn):
1. | 中文方言的識(shí)別/不同國(guó)家英語(yǔ)口音的識(shí)別。 |
2. |
模型預(yù)測(cè)準(zhǔn)確度: 想要使語(yǔ)音識(shí)別達(dá)到一個(gè)近似于人大腦的效果,必須結(jié)合語(yǔ)言學(xué)、心理學(xué)及生理學(xué)等領(lǐng)域知識(shí)達(dá)到與人近似的情感分析。此外,預(yù)測(cè)模型是不可能達(dá)到百分之百準(zhǔn)確的,總會(huì)有新的指令,新的詞匯出現(xiàn),這時(shí),模型的不斷迭代訓(xùn)練變得尤為重要。 |
● | 排除噪聲干擾:讓語(yǔ)音控制系統(tǒng)精準(zhǔn)定位到與其交互的用戶聲音,而不是其他較高音量的噪音。 |
作者認(rèn)為,想要讓機(jī)器像人一樣思考問(wèn)題,最大的挑戰(zhàn)是機(jī)器學(xué)習(xí)/人工智能技術(shù)與醫(yī)學(xué)(生理和心理學(xué))的結(jié)合,因?yàn)楫?dāng)今科學(xué)界懂得醫(yī)學(xué)知識(shí)的人工智能科學(xué)家寥寥無(wú)幾。家用電器的人機(jī)對(duì)話可以大大減輕用戶的勞動(dòng)力,機(jī)器有了情感以后,便可以增加聊天功能,機(jī)器會(huì)像朋友一樣在回答問(wèn)題之余閑聊幾句,增添生活的樂(lè)趣。此外,機(jī)器對(duì)溫度等數(shù)據(jù)的把控度極為精準(zhǔn),這是人類無(wú)法達(dá)到的。
綜上所述,語(yǔ)音控制技術(shù)應(yīng)用于家用電器是非常有前景的項(xiàng)目,未來(lái)會(huì)說(shuō)話的家用電器會(huì)普及所有家庭。將來(lái)希望大量科學(xué)家進(jìn)入這個(gè)領(lǐng)域,致力于不斷創(chuàng)新與研發(fā),使這一目標(biāo)早日實(shí)現(xiàn)。
審核編輯:郭婷
-
傳感器
+關(guān)注
關(guān)注
2565文章
52869瀏覽量
766365 -
物聯(lián)網(wǎng)
+關(guān)注
關(guān)注
2930文章
46162瀏覽量
391260 -
人工智能
+關(guān)注
關(guān)注
1806文章
48971瀏覽量
248650
發(fā)布評(píng)論請(qǐng)先 登錄
每一個(gè)GPIO如何配置成一個(gè)外部中斷觸發(fā)源

家電遙控器中的那些語(yǔ)音識(shí)別技術(shù)盤(pán)點(diǎn)

語(yǔ)音控制家電
【DNA Kit申請(qǐng)】家電智能語(yǔ)音控制
【NXP LPC54110試用申請(qǐng)】智能語(yǔ)音家電
智能家電控制系統(tǒng),讓你從遙控器中解放出來(lái)
STM32的每一個(gè)GPIO都能配置成一個(gè)外部中斷觸發(fā)源
怎樣去設(shè)計(jì)一種基于單片機(jī)和語(yǔ)音識(shí)別的智能家電控制平臺(tái)
智能語(yǔ)音控制技術(shù)讓每一個(gè)家電都能說(shuō)會(huì)聽(tīng)
靈云離線智能語(yǔ)音控制芯片讓每一個(gè)家電能說(shuō)會(huì)聽(tīng)
語(yǔ)音控制芯片可讓每一個(gè)家電實(shí)現(xiàn)隨心控制
2020年將有75%的智能家電通過(guò)語(yǔ)音進(jìn)行控制
語(yǔ)音模塊在智能家電上更易用

評(píng)論