女人荫蒂被添全过程13种图片,亚洲+欧美+在线,欧洲精品无码一区二区三区 ,在厨房拨开内裤进入毛片

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

情感語(yǔ)音合成技術(shù)難點(diǎn)突破與未來(lái)展望

LiveVideoStack ? 來(lái)源:LiveVideoStack ? 2020-07-13 15:47 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語(yǔ)音技術(shù)的進(jìn)步,讓機(jī)器合成的聲音不再頓挫、冰冷,在自然度和可懂度等方面取得了不錯(cuò)的成績(jī),但當(dāng)前合成效果在合成音的表現(xiàn)力上,特別是語(yǔ)氣和情感方面,還存在不足。聲音如果缺少情感,何談表現(xiàn)力 ,又如何能提高用戶交互的意愿?本文由標(biāo)貝科技聯(lián)合創(chuàng)始人兼CTO李秀林LiveVideoStack線上分享內(nèi)容整理而成。

大家好,我是標(biāo)貝科技的李秀林,非常高興能與大家分享情感語(yǔ)音合成的事情。

在語(yǔ)音交互中語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音理解是必不可少的環(huán)節(jié)。語(yǔ)音識(shí)別,也就是識(shí)別用戶說(shuō)的話。識(shí)別完成后,系統(tǒng)需要理解用戶語(yǔ)言背后的含義,我們稱之為語(yǔ)義理解。理解到用戶的訴求后,需要尋找答案并給出響應(yīng)。通常情況下,我們會(huì)首先得到一份文本形式的答案,然后再將文本通過(guò)語(yǔ)音合成,模仿人說(shuō)話的形式反饋給用戶,這也就形成一輪完整的語(yǔ)音交互。

語(yǔ)音交互過(guò)程涉及語(yǔ)音合成,即把文字變成聲音,聲音是文字內(nèi)容的一個(gè)信息載體。語(yǔ)音交互是日常生活中最常見(jiàn)、最被人熟悉并樂(lè)于接受的展現(xiàn)形式,例如:人與人說(shuō)話、看電視、聽(tīng)收音機(jī)、與音響交互等等。體驗(yàn)效果的好壞,會(huì)對(duì)用戶的感知造成很大影響。如果語(yǔ)音合成質(zhì)量較好,說(shuō)話效果更接近真人,且情感表達(dá)豐富,那么用戶的交互意愿自然也會(huì)更強(qiáng),用戶會(huì)覺(jué)得這不是一個(gè)冷冰冰的機(jī)器,會(huì)有愿意與這類智能體進(jìn)一步交互。 這段小視頻是疫情初期我們的合作伙伴利用語(yǔ)音合成技術(shù)生成的。從視頻中大家可以明顯感受到:我們可以從聲音當(dāng)中獲取充分的信息,也就是信息的傳達(dá)作用是完全沒(méi)有問(wèn)題的。但也同樣存在一個(gè)問(wèn)題,即聲音相對(duì)來(lái)說(shuō)比較平淡,聲音更多的是作為一個(gè)信息載體,而不是作為一個(gè)表達(dá)的載體。

接下來(lái)會(huì)和大家一同探討語(yǔ)音合成和情感語(yǔ)音合成的技術(shù)難點(diǎn)與實(shí)現(xiàn),以及將來(lái)語(yǔ)音合成的發(fā)展和應(yīng)用場(chǎng)景。 01 語(yǔ)音合成的發(fā)展

語(yǔ)音合成的歷史可以說(shuō)是相當(dāng)悠久。最初,實(shí)際上是通過(guò)類似于鋼琴一樣的設(shè)備來(lái)彈奏,能夠發(fā)出幾個(gè)聲音,大家就已經(jīng)覺(jué)得非常厲害。隨著計(jì)算機(jī)技術(shù)的發(fā)展,從80年代到90年代再到現(xiàn)階段,技術(shù)的迭代更新也越來(lái)越快。

90年代,計(jì)算機(jī)已經(jīng)可以支持幾百兆甚至上G的內(nèi)存,硬盤也足以支持幾十G的內(nèi)存,能夠?qū)崿F(xiàn)存儲(chǔ)大量的數(shù)據(jù)并進(jìn)行較為復(fù)雜的處理。上圖展示的系統(tǒng)框架就是在這一階段產(chǎn)生的,并且直到前幾年還有很多商務(wù)系統(tǒng)仍舊使用這套框架。 在框架中,訓(xùn)練階段我們會(huì)針對(duì)音庫(kù)的數(shù)據(jù)以及對(duì)應(yīng)的標(biāo)注文本進(jìn)行建模(包括基頻的提取、譜特征提取,以及時(shí)長(zhǎng)提取等),訓(xùn)練成時(shí)長(zhǎng)模型、基頻模型、譜模型等。合成階段則存在拼接合成、參數(shù)合成兩種主流的方案。 拼接合成:用戶輸入的文本將通過(guò)文本分析,并結(jié)合訓(xùn)練好的模型生成對(duì)應(yīng)參數(shù)。該參數(shù)可以指導(dǎo)拼接系統(tǒng)進(jìn)行單元挑選。所謂單元挑選,即從之前錄制好的音庫(kù)片段中挑選最合適的部分,將其拼接起來(lái),使得整個(gè)聲音更加流暢,接近于真人。單元挑選的優(yōu)點(diǎn)是音質(zhì)還原度非常好,而缺點(diǎn)是其音級(jí)單元之間有時(shí)會(huì)產(chǎn)生一些跳躍和不連貫,通常表現(xiàn)為在聽(tīng)感上會(huì)感覺(jué)有些地方不流暢、不舒服。 參數(shù)合成:即不使用原始的聲音片段,通過(guò)聲碼器對(duì)聲學(xué)參數(shù)進(jìn)行轉(zhuǎn)換,生成聲音。這種方案由于其統(tǒng)計(jì)特性、以及聲碼器性能的影響,在音質(zhì)方面會(huì)相對(duì)弱一些。

近些年,隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的發(fā)展,統(tǒng)計(jì)模型方面受到很大影響。之前許多基于高斯混合模型的統(tǒng)計(jì),我們可以直接通過(guò)神經(jīng)網(wǎng)絡(luò)模型來(lái)實(shí)現(xiàn)。當(dāng)前階段我們將它命名為 — 自學(xué)習(xí)階段。 神經(jīng)網(wǎng)絡(luò)具有很強(qiáng)的自我學(xué)習(xí)能力,有非常多的權(quán)重,可以通過(guò)數(shù)據(jù),學(xué)習(xí)到許多連專家都難以總結(jié)出來(lái)的特點(diǎn)。因此,當(dāng)前階段大家會(huì)更多的選擇使用神經(jīng)網(wǎng)絡(luò)。 2016年,WaveNet的出現(xiàn)徹底改變了聲音生成的方式,它將逐幀生成,即以幀為單位的聲音生成變成了逐點(diǎn)生成波形。所帶來(lái)的好處是聲音還原度變得非常高,在一定程度上可以說(shuō)是接近于原始聲音。盡管其仍存在計(jì)算量復(fù)雜的缺點(diǎn),但此缺點(diǎn)在近兩年也已通過(guò)一系列的改造,例如并行的WaveNet等等,逐漸變得可以接受,同時(shí)優(yōu)勢(shì)的體現(xiàn)也越來(lái)越充分。

2017年,Tacotron以及后續(xù)Tacotron2等一系列的變體,為我們提供了一種端到端的語(yǔ)音合成方式。端到端雖然更多的是一個(gè)學(xué)術(shù)概念,但就整體系統(tǒng)來(lái)說(shuō)是非常漂亮的。它利用核心的Attention機(jī)制,將輸入和輸出之間的關(guān)聯(lián)度,通過(guò)模型很好的表述出來(lái)。在此之前我們通常是先做一個(gè)時(shí)長(zhǎng)模型,然后再做其它譜模型、基頻的模型,而通過(guò)端到端的模型,我們就可以跳過(guò)時(shí)長(zhǎng)模型,直接針對(duì)整句話進(jìn)行建模。Tacotron的出現(xiàn),對(duì)于合成語(yǔ)音的韻律,節(jié)奏方面都有很大的提升(更接近真人)。

2018年,大家將兩種網(wǎng)絡(luò)結(jié)合在一起,即將端到端與神經(jīng)網(wǎng)絡(luò)的聲碼器結(jié)合形成一個(gè)更逼真的語(yǔ)音合成系統(tǒng)。并且對(duì)Attention的結(jié)構(gòu)也進(jìn)行了一些改造,使得系統(tǒng)整體性能更優(yōu)。所以在2018年以后,我們所見(jiàn)到的語(yǔ)音合成系統(tǒng)大多是基于Tacotron或Tacotron2實(shí)現(xiàn)。 02 情感合成 2.1 情感合成是什么?

以上簡(jiǎn)單介紹了語(yǔ)音合成近些年的一些變化,那么為什么在經(jīng)歷了這一系列變化后,大家覺(jué)得還是不夠?一般來(lái)說(shuō)合成的數(shù)據(jù)我們都會(huì)考慮追求平穩(wěn),因此在情感和表達(dá)方面也就不會(huì)太豐富。但近些年大家對(duì)情感合成以及個(gè)性化合成的興趣與需求越來(lái)越高。 關(guān)于情感合成,我們可以想象一下,假如我們?cè)诤蜋C(jī)器交流時(shí)能夠像和一個(gè)真正的人交談一樣,它可以用平淡的聲音、高興的聲音、悲傷的聲音,甚至不同的情感有不同的強(qiáng)度,比如說(shuō)微微有點(diǎn)不高興、非常不高興、非常憤怒。那么可想而知這種場(chǎng)景會(huì)給我們的生活帶來(lái)多大改變。

情感合成作為一項(xiàng)技術(shù),當(dāng)然也離不開(kāi)神經(jīng)網(wǎng)絡(luò)的三要素:算法、算力和數(shù)據(jù)。而對(duì)于語(yǔ)音合成領(lǐng)域來(lái)說(shuō),算力實(shí)際上是不太重要的,我們可以通過(guò)一些GPU 的卡來(lái)解決算力的問(wèn)題,因此需要我們重點(diǎn)關(guān)注的是算法和數(shù)據(jù)的問(wèn)題。 情感合成的算法在最初使用HTS技術(shù)時(shí),已經(jīng)有很多學(xué)者進(jìn)行過(guò)一些探索。但是由于模型的描述能力,以及模型本身自學(xué)習(xí)能力較弱,實(shí)用性會(huì)差一些。 2.2 情感標(biāo)簽的使用

大家可以發(fā)現(xiàn),在有了神經(jīng)網(wǎng)絡(luò)之后,目前情感合成的方案基本上都是在一個(gè)很好的框架之上來(lái)進(jìn)行一些不同的改造,下面簡(jiǎn)單介紹幾種不同的解決方案。 在這篇端到端的情感合成的文章里,提到用情感做標(biāo)簽(在原有網(wǎng)絡(luò)基礎(chǔ)上增加一個(gè)情感標(biāo)簽),通過(guò)一個(gè)prenet 把這些信息引入到Attention的decoder中。這樣情感的信息自然會(huì)通過(guò)網(wǎng)絡(luò)得到一定的學(xué)習(xí),在合成的時(shí)候,如果能賦予合適的情感標(biāo)簽,也就能合成出有一定情感表達(dá)力的聲音。 2.3情感合成的實(shí)現(xiàn) 2.3.1 說(shuō)話人嵌入的使用

除情感標(biāo)簽之外,比如說(shuō)這篇文章,提到用說(shuō)話人入嵌Encoder 的方式。也就是將說(shuō)話人的聲音特征,通過(guò)編碼器得到speaker embedding,并將其結(jié)合到Attention的網(wǎng)絡(luò)中,實(shí)現(xiàn)不同說(shuō)話人聲音合成的效果。 我們其實(shí)可以從另外一個(gè)角度考慮,情感是什么?或者不同的變化是什么?它可以是情感本身、不同說(shuō)話人、以及語(yǔ)言風(fēng)格等等。所以上述說(shuō)話人嵌入的方式,其實(shí)對(duì)整個(gè)情感合成也會(huì)有一定的借鑒作用。 2.3.2 風(fēng)格嵌入的使用

這篇文章介紹的是通過(guò)一個(gè)稍微復(fù)雜些的子網(wǎng)絡(luò)實(shí)現(xiàn)風(fēng)格的嵌入,其整體核心框架也同樣是Tacotron系列。方法是在子網(wǎng)絡(luò)中構(gòu)建一個(gè)風(fēng)格的分類,在進(jìn)行風(fēng)格分類embedding之后,與之前文本的encoder 結(jié)果一同加入到網(wǎng)絡(luò)當(dāng)中去。在推理的時(shí)候,通過(guò)風(fēng)格的控制來(lái)改變整體合成的效果。 2.3.3 聲學(xué)特征&說(shuō)話人嵌入的使用

這篇文章也是類似的思路,除文本特征之外,再通過(guò)look up table 來(lái)做說(shuō)話人的嵌入,通過(guò)譜的片段進(jìn)行韻律的嵌入,最后將三種嵌入合成起來(lái),作為影響整個(gè)系統(tǒng)的控制因素。 2.3.4 VAE的使用

除了上述提到的情感嵌入、說(shuō)話人嵌入、風(fēng)格嵌入之外,還有一種VAE的方法。它將譜的特征通過(guò)一個(gè)唯一的網(wǎng)絡(luò) — 子網(wǎng),在學(xué)習(xí)到特征之后,與文本特征一同輸入到Attention的網(wǎng)絡(luò)(在這里選擇的是Tacotron2的網(wǎng)絡(luò))。 綜上可知我們的網(wǎng)絡(luò)主體基本上是一個(gè)Attention 機(jī)制的網(wǎng)絡(luò)(如Tacotron或Tacotron2),在這個(gè)主體之上,我們會(huì)加入一些特征,這個(gè)特征可以是各種各樣的標(biāo)簽作為輸入。也就相當(dāng)于把風(fēng)格、情感等變量單一或者組合使用,引入到整個(gè)系統(tǒng)當(dāng)中。 以上就是當(dāng)前可以看到的文獻(xiàn)中出現(xiàn)的一些情感合成方案。 2.3.5 情感合成數(shù)據(jù)

數(shù)據(jù)是另外一個(gè)制約系統(tǒng)整體表現(xiàn)力的因素,在情感合成數(shù)據(jù)方面,我們面臨著很多的問(wèn)題。 比如我們需要數(shù)據(jù)有情感表現(xiàn)力,所謂情感表現(xiàn)力是指在聽(tīng)到一段聲音后,能夠明顯感知到說(shuō)話人是高興的、生氣的、還是憂傷的,這也是我們現(xiàn)階段希望能夠解決的一個(gè)問(wèn)題。還有就是情感控制,說(shuō)話人情感表現(xiàn)的程度,有的比較輕微,有的是比較強(qiáng)烈,我們做數(shù)據(jù)的時(shí)候,應(yīng)該選擇哪一種?前景網(wǎng)絡(luò)如果情感過(guò)于強(qiáng)烈,并且波動(dòng)范圍很大的話,對(duì)于建模的要求就會(huì)非常高。那么我們就希望能夠在數(shù)據(jù)層面,對(duì)情感的控制有一個(gè)度量。 第三點(diǎn),也就是數(shù)據(jù)的規(guī)模,我們知道對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),數(shù)據(jù)規(guī)模越大,則整體效果越好,當(dāng)然這是一個(gè)理想的情況。而現(xiàn)實(shí)是,我們?cè)趯?duì)情感表現(xiàn)力和情感控制方面要求比較嚴(yán)格時(shí),往往只能采用同一個(gè)人的不同情感聲音數(shù)據(jù),那么數(shù)據(jù)規(guī)模本身就會(huì)受到一定限制,因此數(shù)據(jù)規(guī)模也是制約情感合成技術(shù)發(fā)展的一個(gè)關(guān)鍵點(diǎn)。

接下來(lái)介紹下我們所做的一些工作,標(biāo)貝科技專注于提供人工智能數(shù)據(jù)的服務(wù),同時(shí)也提供高音質(zhì),多場(chǎng)景,多類別語(yǔ)音合成的整體解決方案。我們希望在做高質(zhì)量語(yǔ)音合成數(shù)據(jù)的同時(shí),能夠?yàn)橹行⌒推髽I(yè)提供更多優(yōu)質(zhì)的解決方案,幫助解決他們的問(wèn)題。 同樣,我們也希望能夠?yàn)檎麄€(gè)語(yǔ)音行業(yè)提供一些基礎(chǔ)的數(shù)據(jù)支持。比如2017年,我們就將一個(gè)10000句話規(guī)模的高質(zhì)量語(yǔ)音合成庫(kù)共享給了整個(gè)行業(yè)進(jìn)行學(xué)術(shù)研究,希望能夠跟大家一起將語(yǔ)音技術(shù)做的越來(lái)越好。

在數(shù)據(jù)方面,我們擁有包括識(shí)別自有庫(kù),合成自有庫(kù),歌曲音庫(kù)、明星IP音庫(kù)、以及方言音庫(kù)等在內(nèi)的多種不同類型的語(yǔ)音數(shù)據(jù)庫(kù),語(yǔ)音數(shù)據(jù)時(shí)長(zhǎng)累計(jì)超過(guò)十萬(wàn)小時(shí),這些數(shù)據(jù)有很多也應(yīng)用到了我們的情感合成實(shí)踐當(dāng)中。 03 標(biāo)貝科技情感合成實(shí)踐

在情感合成實(shí)踐當(dāng)中,我們主要應(yīng)用到了三類數(shù)據(jù)。 第一類是多人的數(shù)據(jù)庫(kù),規(guī)模并不是特別大,在使用時(shí)大概是100人左右的規(guī)模。這100人里,每個(gè)人會(huì)說(shuō)500句話,其中300句話是相同的,200句話是不同的。在不同人之間,實(shí)際上也會(huì)有一些共性的東西,有一些不同的東西。在發(fā)言人方面,覆蓋了從兒童、青年、老年等不同年齡段,這樣做的好處是它可以讓我們學(xué)習(xí)到不同年齡段人說(shuō)話的特點(diǎn)。這些特點(diǎn)可能是受說(shuō)話人自己的知識(shí)背景、生活環(huán)境影響,或者是生理因素(比如聲帶的發(fā)育階段,聲帶的老化情況等)影響而形成。 第二類數(shù)據(jù),用到了一些中大規(guī)模的合成數(shù)據(jù)庫(kù)。這些數(shù)據(jù)庫(kù)有的是男生的、有的是女生的,數(shù)據(jù)規(guī)模比多人數(shù)據(jù)庫(kù)要大很多,基本上都是幾千句的,幾萬(wàn)句的規(guī)模。 第三類數(shù)據(jù)庫(kù)是情感數(shù)據(jù)庫(kù)。情感數(shù)據(jù)庫(kù)中包含六種情感形式,悲傷、憤怒、驚訝、恐懼、喜悅和厭惡。除此之外,還包括同說(shuō)話人的中性聲音,即不帶情感比較平穩(wěn)的聲音。所以實(shí)際上這個(gè)情感數(shù)據(jù)庫(kù),包括六種情感和一種中性的聲音,七種聲音都是同一個(gè)發(fā)音人。

上述三類數(shù)據(jù)的用途各不相同:100人數(shù)據(jù)庫(kù),主要用來(lái)做說(shuō)話人嵌入的網(wǎng)絡(luò)。假如我們通過(guò)一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)刻畫(huà)每個(gè)人,用向量表示的話應(yīng)該是什么樣?在這里我們用了一個(gè)神經(jīng)網(wǎng)絡(luò)來(lái)專門做說(shuō)話人嵌入的向量訓(xùn)練。 第二個(gè)階段,中大規(guī)模的數(shù)據(jù)庫(kù)做平均模型。我們將說(shuō)話人的嵌入與數(shù)據(jù)結(jié)合起來(lái),做了一個(gè)平均模型。因?yàn)檩斎氲奈谋竞桶l(fā)音之間有一定的對(duì)應(yīng)關(guān)系,所以平均模型相對(duì)來(lái)說(shuō)比較穩(wěn)定。 最后,我們就可以利用情感數(shù)據(jù)庫(kù)結(jié)合平均模型,實(shí)現(xiàn)情感語(yǔ)音合成的模型。

這是一個(gè)情感合成的樣音,不同的情感是存在明顯差別的,我們能從聲音里感受到情感的變化。這里我們并沒(méi)有采用WaveNet或者復(fù)雜度比較高的聲碼器,因?yàn)槲覀兿胱龅氖且粋€(gè)能夠在線上提供大規(guī)模并發(fā)服務(wù)的系統(tǒng),所以選擇的是LPC Net,在音質(zhì)方面還不是最好的。

隨著情感合成技術(shù)的發(fā)展,接下來(lái)還會(huì)有哪些應(yīng)用場(chǎng)景?例如剛才聽(tīng)到的語(yǔ)音故事,我們就可以將它應(yīng)用到有聲讀物上。還有就是語(yǔ)音助手,近年來(lái)隨著NLP技術(shù)的發(fā)展,語(yǔ)音助手開(kāi)始逐漸走進(jìn)大家的生活中,幫助人們完成一些簡(jiǎn)單的工作。虛擬形象近年來(lái)發(fā)展的也比較好,例如虛擬主持人、虛擬歌手、虛擬的形象,能夠具有一定的情感表現(xiàn)能力。 除此之外,抖音、快手等UGC創(chuàng)作平臺(tái),其中不乏有意思的故事、視頻,但部分內(nèi)容配音需要找一些專業(yè)的人員錄制,很多內(nèi)容創(chuàng)作者并沒(méi)有這個(gè)條件。最近我們發(fā)現(xiàn)有許多創(chuàng)作者開(kāi)始將語(yǔ)音合成(成本更低)結(jié)合到內(nèi)容創(chuàng)作中,讓內(nèi)容變得更加生動(dòng)、有趣。 那么更進(jìn)一步,例如游戲和影視動(dòng)畫(huà)等領(lǐng)域,在具有一定情感表達(dá)能力后,對(duì)于一些非實(shí)時(shí)的產(chǎn)品,我們可以通過(guò)WaveNet的高質(zhì)量生成器合成更高質(zhì)量的語(yǔ)音內(nèi)容,同樣具有一定潛力。 04 情感合成技術(shù)展望

但在進(jìn)行這些場(chǎng)景的廣泛應(yīng)用之前,我們還需要解決如下問(wèn)題: 首先是NLP相關(guān)的問(wèn)題,例如我們想要表達(dá)一個(gè)情感,需要知道這個(gè)情感是什么,不能用高興的聲音去說(shuō)一件悲哀的事情,反之亦然。這就需要NLP有非常準(zhǔn)確的情感分析與表達(dá)能力,不是60%、70%,我們希望至少是90%及以上,這樣用戶的接受度才會(huì)更好。 同樣,剛剛提到的有聲讀物。例如一本小說(shuō),小說(shuō)里的角色眾多,如果每個(gè)人用不同的聲音去表現(xiàn),每個(gè)人又都有其自己的感情,那這本小說(shuō)就可以通過(guò)聽(tīng)的方式表現(xiàn)的活靈活現(xiàn),這也就要求NLP具有更高的角色分析能力。 還有涉及到語(yǔ)音合成的挑戰(zhàn):不同說(shuō)話人之間的情感遷移,例如對(duì)于沒(méi)有情感的聲音,可不可以通過(guò)一些類比或者遷移技術(shù),把別人的情感和非情感的差異,在一個(gè)沒(méi)有情感數(shù)據(jù)的聲音上進(jìn)行呈現(xiàn);小數(shù)據(jù)量的個(gè)性化情感合成,我們前段時(shí)間推出了標(biāo)貝留聲機(jī)的一個(gè)小數(shù)據(jù)的個(gè)性化合成,這里面并沒(méi)有涉及到情感。如果我們還是在這個(gè)數(shù)據(jù)規(guī)模下,每種情感加上一句話,是不是可以實(shí)現(xiàn)? 涉及到交互,如果想讓其更有深度,我們是不是能夠感知到與機(jī)器進(jìn)行交互的人的情感。比如現(xiàn)在的一些心靈電臺(tái)等,有些人遇到挫折、困難的時(shí)候跟他聊聊天,講個(gè)故事安慰一下,我覺(jué)得對(duì)社會(huì)來(lái)說(shuō)是一件非常有意義的事情。 另外就是聲音和形象的組合,例如我們現(xiàn)在看到的虛擬形象,在口型與聲音對(duì)應(yīng)一致性上,已經(jīng)有明顯的進(jìn)步,甚至已經(jīng)能夠完成一些虛擬動(dòng)作的實(shí)現(xiàn)。如果能夠加上有情感的聲音以及有表現(xiàn)力的表情,就可以應(yīng)用到影視、動(dòng)畫(huà)等這些高難度的場(chǎng)景了。 所以,在情感合成方面,實(shí)際上我們只是進(jìn)行了一些初步的探索,距離實(shí)現(xiàn)大范圍的快速、廣泛應(yīng)用,仍需繼續(xù)努力。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    39

    文章

    1778

    瀏覽量

    114080
  • 語(yǔ)音合成
    +關(guān)注

    關(guān)注

    2

    文章

    92

    瀏覽量

    16464

原文標(biāo)題:情感語(yǔ)音合成技術(shù)難點(diǎn)突破與未來(lái)展望

文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    大模型時(shí)代的新燃料:大規(guī)模擬真多風(fēng)格語(yǔ)音合成數(shù)據(jù)集

    以大模型技術(shù)為核心驅(qū)動(dòng)力的人工智能變革浪潮中,語(yǔ)音交互領(lǐng)域正迎來(lái)廣闊的成長(zhǎng)空間,應(yīng)用場(chǎng)景持續(xù)拓寬與延伸。 其中,數(shù)據(jù)作為驅(qū)動(dòng)語(yǔ)音大模型進(jìn)化的關(guān)鍵要素,重要性愈發(fā)凸顯。豐富多樣的高質(zhì)量數(shù)據(jù)能夠讓
    的頭像 發(fā)表于 04-30 16:17 ?241次閱讀

    智能收銀語(yǔ)音交互新標(biāo)桿—WT3000T8語(yǔ)音合成芯片TTS技術(shù)應(yīng)用解析

    一、行業(yè)應(yīng)用背景在零售業(yè)態(tài)智能化轉(zhuǎn)型的浪潮中,收銀設(shè)備正經(jīng)歷從功能型向服務(wù)型轉(zhuǎn)變的關(guān)鍵階段。WT3000T8語(yǔ)音合成芯片應(yīng)運(yùn)而生,專為滿足新零售場(chǎng)景下智能收銀終端的語(yǔ)音交互需求而設(shè)計(jì)。該芯片通過(guò)創(chuàng)新
    的頭像 發(fā)表于 04-24 08:45 ?215次閱讀
    智能收銀<b class='flag-5'>語(yǔ)音</b>交互新標(biāo)桿—WT3000T8<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>芯片TTS<b class='flag-5'>技術(shù)</b>應(yīng)用解析

    WT3000TX語(yǔ)音合成芯片介紹V1

    WT3000TX是一系列功能強(qiáng)大的高品質(zhì)語(yǔ)音芯片,采用了高性能32位處理器、最高頻率可達(dá)240MHz。WT3000TX高集成度的語(yǔ)音合成芯片,可實(shí)現(xiàn)中文、英文字母或中英文語(yǔ)音
    發(fā)表于 04-17 08:43 ?0次下載

    【CW32模塊使用】語(yǔ)音合成播報(bào)模塊

    SYN6288E 中文語(yǔ)音合成芯片是北京宇音天下科技有限公司在 2010 年初推出的一款性/價(jià)比更高的 SYN6288 芯片的基礎(chǔ)上更改封裝方式的,效果更自然的一款中高端語(yǔ)音合成芯片
    的頭像 發(fā)表于 03-29 17:25 ?606次閱讀
    【CW32模塊使用】<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>播報(bào)模塊

    芯資訊|WT3000T8語(yǔ)音合成芯片:高性價(jià)比語(yǔ)音交互解決方案

    在智能終端設(shè)備快速普及的當(dāng)下,語(yǔ)音交互已成為提升用戶體驗(yàn)的關(guān)鍵功能。廣州唯創(chuàng)電子推出的WT3000T8語(yǔ)音合成芯片,憑借其卓越的語(yǔ)音處理能力、靈活的控制模式及超低功耗設(shè)計(jì),成為工業(yè)控制
    的頭像 發(fā)表于 03-24 09:05 ?357次閱讀
    芯資訊|WT3000T8<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>合成</b>芯片:高性價(jià)比<b class='flag-5'>語(yǔ)音</b>交互解決方案

    可以在OpenVINO?工具套件的視覺(jué)處理單元上推斷語(yǔ)音合成模型嗎?

    無(wú)法確定是否可以在 VPU 上推斷語(yǔ)音合成模型
    發(fā)表于 03-06 08:29

    敏捷合成器的技術(shù)原理和應(yīng)用場(chǎng)景

    敏捷合成器,作為一種高性能的信號(hào)發(fā)生器,其技術(shù)原理和應(yīng)用場(chǎng)景值得深入探討。技術(shù)原理敏捷合成器的技術(shù)原理主要基于先進(jìn)的頻率
    發(fā)表于 02-20 15:25

    超薄時(shí)代的選擇:0.025mm合成石墨片如何重塑消費(fèi)電子散熱格局

    合成石墨片的技術(shù)突破 1.極薄厚度與高效散熱的完美結(jié)合0.025mm合成石墨片的最大技術(shù)突破
    發(fā)表于 02-15 15:28

    MCU在車載系統(tǒng)中的展望

    MCU在車載系統(tǒng)中的展望 以下是MCU在車載系統(tǒng)中的展望技術(shù)發(fā)展趨勢(shì) 高性能與低功耗并重 :智能座艙等車載系統(tǒng)對(duì)MCU的計(jì)算能力和內(nèi)存資源要求不斷提高,以支持復(fù)雜的控制算法和高速數(shù)據(jù)處理。同時(shí)
    發(fā)表于 01-17 12:11

    risc-v芯片在電機(jī)領(lǐng)域的應(yīng)用展望

    電機(jī)芯片以較低制程的成本實(shí)現(xiàn)高性能的控制,從而滿足電機(jī)控制對(duì)高精度、高穩(wěn)定性和高可靠性的要求。 展望未來(lái),RISC-V芯片在電機(jī)領(lǐng)域的應(yīng)用將更加廣泛。隨著電動(dòng)汽車、智能家居和工業(yè)自動(dòng)化等領(lǐng)域的快速發(fā)展
    發(fā)表于 12-28 17:20

    移動(dòng)機(jī)器人的技術(shù)突破未來(lái)展望

    移動(dòng)機(jī)器人已經(jīng)成為現(xiàn)代社會(huì)不可或缺的一部分,在各個(gè)領(lǐng)域發(fā)揮著越來(lái)越重要的作用。在這個(gè)過(guò)程中,富唯智能機(jī)器人以其卓越的技術(shù)突破,引領(lǐng)著移動(dòng)機(jī)器人領(lǐng)域的發(fā)展潮流。
    的頭像 發(fā)表于 12-13 17:57 ?611次閱讀
    移動(dòng)機(jī)器人的<b class='flag-5'>技術(shù)</b><b class='flag-5'>突破</b>和<b class='flag-5'>未來(lái)</b><b class='flag-5'>展望</b>

    ASR語(yǔ)音識(shí)別技術(shù)應(yīng)用

    ASR(Automatic Speech Recognition)語(yǔ)音識(shí)別技術(shù),是計(jì)算機(jī)科學(xué)與人工智能領(lǐng)域的重要突破,能將人類語(yǔ)音轉(zhuǎn)換為文本,廣泛應(yīng)用于智能家居、醫(yī)療、交通等多個(gè)領(lǐng)域。
    的頭像 發(fā)表于 11-18 15:12 ?2005次閱讀

    全球人工智能認(rèn)知與情感交織的2024年:益普索Ipsos報(bào)告揭示未來(lái)趨勢(shì)

    未來(lái)展望的生動(dòng)圖景。這份基于32個(gè)市場(chǎng)深入調(diào)研的報(bào)告,不僅揭示了AI技術(shù)的普及現(xiàn)狀,還反映了公眾對(duì)于這一變革性技術(shù)的復(fù)雜情感
    的頭像 發(fā)表于 07-24 16:35 ?952次閱讀

    面向手機(jī)直連的星載相控陣:關(guān)鍵技術(shù)未來(lái)展望

    電子發(fā)燒友網(wǎng)站提供《面向手機(jī)直連的星載相控陣:關(guān)鍵技術(shù)未來(lái)展望.pdf》資料免費(fèi)下載
    發(fā)表于 07-23 12:39 ?0次下載

    Transformer模型在語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì)

    自然語(yǔ)言處理、語(yǔ)音識(shí)別、語(yǔ)音生成等多個(gè)領(lǐng)域展現(xiàn)出強(qiáng)大的潛力和廣泛的應(yīng)用前景。本文將從Transformer模型的基本原理出發(fā),深入探討其在語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì),并
    的頭像 發(fā)表于 07-03 18:24 ?2118次閱讀
    主站蜘蛛池模板: 常州市| 金湖县| 定兴县| 五原县| 兰州市| 灌云县| 武乡县| 弋阳县| 洮南市| 博爱县| 娱乐| 永安市| 巧家县| 隆林| 四子王旗| 本溪| 白山市| 淮南市| 武夷山市| 江陵县| 常德市| 象州县| 通江县| 璧山县| 丹棱县| 临武县| 庆云县| 庆元县| 来安县| 海门市| 疏勒县| 林周县| 洛川县| 潞西市| 富民县| 兴山县| 和平区| 屏东县| 得荣县| 上蔡县| 奉贤区|