3 軟件系統設計
軟件系統的設計主要包括3部分:主控單元的嵌入式操作系統μC/OS-II移植、LD3320的語音識別程序設計、對話管理單元的設計。
3.1 嵌入式操作系統μC/OS-II移植
μC/OS-II是一個源碼公開、可移植、可固化、可裁剪、占先式的實時多任務操作系統。它是專門為計算機的嵌入式應用設計的,絕大部分代碼采用C語言編寫,具有執行效率高、占用空間小、實時性能優良和可擴展性強等特點,最小內核可至2 KB。在μC/OS-II中,任務的概念尤為重要,它是可剝奪型的內核,因此任務優先級的劃分至關緊要?;诜謱踊湍K化的設計理念,整個系統任務的劃分如表1所列。
表1 主控系統任務優先級規劃
?
表1中除OSTaskStat和OSTaskIdle任務為系統自帶,其他7個任務均為用戶創建。App_TaskStart是系統的第一個任務,對系統時鐘和底層設備進行初始化,創建所有事件和其他各項用戶任務,并對系統狀態進行監測;App_TaskSR完成語音識別;App_TaskCmd完成對話集中命令的解析和執行,并通過USART1向外發送;App_TaskCom作為外圍擴展任務,通過USART2向外發送指令或數據,負責控制外圍擴展設備,如語音合成設備等;
App_TaskUpdate通過解析USART1接收的命令和數據進行對話集的更新;App_TaskPB是按鍵掃描任務,負責檢測3個獨立按鍵,分為短按和長按檢測;App_TaskLED驅動4個LED指示燈,指示當前工作狀態。
3.2 語音識別程序設計
語音識別程序的設計,參考了LD332X開發手冊,本文中采用中斷方式工作,其工作流程分為通用初始化一語音識別用初始化-寫入識別列表-開始識別-響應中斷。
①通用初始化和語音識別用初始化。在初始化程序里,主要完成軟復位、模式設定、時鐘頻率設定、FIFO設定。
?、趯懭胱R別列表。列表的規則是,每個識別條目對應一個特定的編號(1個字節),編號可以相同,可以不連續,但是數值要小于256(00H~FFH)。本芯片最多支持50個識別條目,每個識別條目是標準普通話的漢語拼音(小寫),每2個字(漢語拼音)之間用一個空格間隔。本文中采取了連續不同編號的識別條目,表2是簡單的示例。
表2 識別列表示例
?
?、坶_始識別。設置幾個相關的寄存器,即可開始語音的識別。圖4是相關的流程。ADC通道即為*輸入通道,ADC增益也就是*音量,可設定值00H~7FH,建議設置值為40H~6FH,值越大代表MIC音量越大,識別啟動越敏感,但可能帶來更多誤識別;值越小代表MIC音量越小,需要近距離說話才能啟動識別功能,好處是對遠處的干擾語音沒有反應。本文中設定值為43H。
?
圖4 開始識別流程
?、茼憫袛?。如果*采集到聲音,不管是否識別出正常結果,都會產生一個中斷信號。而中斷程序要根據寄存器的值分析結果。讀取BA寄存器的值,可以知道有幾個候選答案,而C5寄存器里的答案是得分最高、最可能正確的答案。
3.3 對話管理單元設計
為了方便進行對話的管理,本文中設計了一個對話管理單元,用于對等待識別的語句和等待執行的命令進行存儲,在主控制器中通過定義二維數組來實現。LD3320每次識別最多可以設置50項候選識別句,每個識別句可以是單字、詞組或短句,長度為不超過10個漢字或者79個字節的拼音串。基于上述原因,本文設計的對話管理數組如表3所列。
表3 對話管理單元數組
?
行為數組中存儲要執行的行為編號,對應于50條語音識別語句,共有50組指令,每組指令中可以最多包含6個行為,并行的行為可以歸為一步,通過多個行為的組合,就可以完成更復雜的任務。
4 性能測試與應用
為了保證設計的語音識別模塊的語音識別率、穩定性和響應時間,本文對所描述的語音識別模塊做了相應的測試,測試環境分別為安靜的家庭環境和嘈雜的醫院環境,共8條語音指令,對每條語音指令分別進行10次測試,每個環境下對每個特定人的總實驗次數為80次,記錄成功識別的次數。測試結果如表4所列。
表4 測試結果
?
測試中的3個非特定人中,非特定人1為女性,非特定人2和非特定人3為男性。由表中數據可以看出,家庭環境下對非特定人的語音識別率可達到90%以上,嘈雜的醫院環境下的語音識別率也可達82.5%以上。識別率方面,在嘈雜環境下比在安靜環境下的語音識別率有所降低;穩定性方面,在安靜環境下系統的穩定性較好,語音說1遍,最多說2遍模塊就可以做出正確的響應;在噪聲環境下,系統的穩定性有所下降,個別語音命令需要說3遍甚至3遍以上才能被模塊準確識別;實時性方面,在安靜環境下的語音能保證系統響應的實時性,響應時間一般不超過1 s,在噪聲環境下的響應時間相對長一些。
結語
本文討論了基于STM32的嵌入式語音識別模塊的設計和實現,對模塊各個組成單元的硬件電路及軟件實現進行了詳細的介紹。大量實驗及實際應用表明,本文設計的語音識別模塊具有穩定性好、語音識別率高、抗噪聲干擾能力強、結構簡單和使用方便等特點。該模塊實用性強,可廣泛應用于服務機器人智能空間、智能家居和消費電子產品等多個領域。
?
評論