您的位置:首頁 >生活 >

標(biāo)貝科技TTS4.0 大模型時(shí)代的個(gè)性化語音合成定制方案

2023-08-23 10:24:17 來源:億歐網(wǎng)

說到語音合成,大家都不陌生。從語音導(dǎo)航到智能客服,從智能手機(jī)到智能家居,基于AI的合成語音無處不在。特別是今年以來,以GPT大模型為代表的AIGC技術(shù)迅猛發(fā)展,AI語音生成作為其中的重要一環(huán),正受到越來越多人的關(guān)注和探索。

語音合成 (Text-to-speech, TTS) 是將文本轉(zhuǎn)換為自然語音,服務(wù)于人機(jī)智能語音交互場景的核心技術(shù)。過去十年,通過神經(jīng)網(wǎng)絡(luò)和端到端建模技術(shù)的發(fā)展,語音合成技術(shù)也取得了巨大突破,自然度和音質(zhì)得到了極大提升。


(資料圖片)

伴隨大模型時(shí)代的到來,引發(fā)了新一輪的AI革命浪潮,更自然、更智能的人機(jī)交互逐漸進(jìn)入到我們的生活中。人們越來越需要機(jī)器給予“情感”回饋,越來越多的企業(yè)開始致力于追求語音合成在情感、韻律、高保真等方面的高表現(xiàn)力。

標(biāo)貝科技深耕AI語音交互領(lǐng)域多年,致力于語音交互技術(shù)的創(chuàng)新研發(fā)和商業(yè)化應(yīng)用,推出高品質(zhì)通用語音方案和特色語音定制服務(wù),能夠滿足虛擬人、有聲閱讀、短視頻、智能客服等多種場景需求。

為了賦予聲音更多的情感表現(xiàn)力和個(gè)性化風(fēng)格, 標(biāo)貝科技依托于先進(jìn)的深度學(xué)習(xí)技術(shù)和多情感風(fēng)格大語言模型,在情感生成、風(fēng)格拓展等方面的取得重要突破,實(shí)現(xiàn)了合成效果的全面提升,讓新一代語音合成系統(tǒng)適配到各種標(biāo)準(zhǔn)化和個(gè)性化場景中。 最終的合成音色保真度更高,情感更真實(shí)豐富,合成效率更快更穩(wěn)定,有效提升用戶對生成聲音的“粘性”。

全面升級 打造極致聲音體驗(yàn)

支持多情感、歌聲合成

標(biāo)貝科技基于成熟的深度神經(jīng)網(wǎng)絡(luò)技術(shù)及全新的高音質(zhì)合成系統(tǒng),可提供商業(yè)級情感合成以及歌聲合成方案。

情感合成支持超過20余種情緒和風(fēng)格的音色表達(dá),同時(shí)我們還引入細(xì)粒度控制能力,通過對情感強(qiáng)弱、語速、停頓,音量等關(guān)鍵音色屬性的控制調(diào)節(jié),使得合成的情感聲音更具表現(xiàn)力,適應(yīng)不同情境下的語意表達(dá)。

歌曲合成方案支持用戶自由填詞,然后選擇合適的音色,利用成熟的AI歌唱合成技術(shù)實(shí)現(xiàn)歌曲合成。用戶一鍵即可體驗(yàn)短視頻填詞成曲的玩梗樂趣,適用于短視頻、廣告配音等各種泛娛樂場景。

合成效果更優(yōu)

標(biāo)貝科技采用全新的深度神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型架構(gòu)和聲碼器結(jié)構(gòu),與上一代語音技術(shù)相比,聲音質(zhì)量再創(chuàng)新高,MOS得分可以達(dá)到以上,主要體現(xiàn)在發(fā)音更準(zhǔn)確、韻律更自然、高保真效果更完美。

合成效率更快更穩(wěn)定

通過算法和模型優(yōu)化,標(biāo)貝科技對于硬件算力的要求更低,可以大大縮短訓(xùn)練時(shí)間,提高合成效率。據(jù)介紹,首包合成時(shí)間提升至少50%,實(shí)現(xiàn)更快的響應(yīng)速度。在語音聊天、語音助手等實(shí)時(shí)應(yīng)用場景下,給帶來用戶更加流暢的交互體驗(yàn)。

此外,標(biāo)貝科技面向私部署場景下提供了不同類型的高可用部署方案。既支持少量服務(wù)器的輕量級多機(jī)高可用,也支持實(shí)現(xiàn)彈性擴(kuò)容的大規(guī)模容器集群的部署。讓應(yīng)用程序開發(fā)和部署變得更加簡單和可靠,確保語音合成系統(tǒng)平穩(wěn)順滑。

功能更豐富

(1)長文本、短文本支持流式合成:用戶輸入文本的同時(shí),可以逐段生成并輸出相應(yīng)的語音數(shù)據(jù),讓用戶實(shí)時(shí)聽到合成內(nèi)容。例如在實(shí)時(shí)交互的虛擬人場景下,需要虛擬人對用戶指令快速做出應(yīng)答,否則會消耗用戶的耐心、降低用戶體驗(yàn)。此時(shí)就需要流式語音合成系統(tǒng),在保障合成質(zhì)量的同時(shí)提高響應(yīng)速度。

(2)更多類型時(shí)間戳:標(biāo)貝科技支持字級別、音素級別和句子級別等不同顆粒度的時(shí)間戳輸出,滿足多場景展示和口型呈現(xiàn)需求,給用戶帶來更便捷的畫音同步體驗(yàn)。

多層級音色定制,適應(yīng)不同業(yè)務(wù)場景需求

基于成熟的語音合成技術(shù),標(biāo)貝科技上線了上百種覆蓋不同語言和場景的可商用音色,支持西語、韓語、日語、英語、美語、維語、東北話、粵語等多語言,影視配音、賽事解說、直播帶貨、自然對話、老年人等多風(fēng)格的場景音色,快速匹配各業(yè)務(wù)場景需求。

為進(jìn)一步拓寬語音使用場景,滿足各行業(yè)客戶的多元化需求,標(biāo)貝科技也在不斷探索新的服務(wù)和能力。 在產(chǎn)品日益同質(zhì)化的當(dāng)下,標(biāo)貝科技提供一站式TTS音色定制服務(wù),包括普通聲音復(fù)刻、精品聲音復(fù)刻、標(biāo)準(zhǔn)化音色定制等方案,為企業(yè)打打造專屬IP音色,實(shí)現(xiàn)品牌價(jià)值的最大化。

普通聲音復(fù)刻

僅需5分鐘音頻數(shù)據(jù),無需開發(fā)人員,機(jī)器自動進(jìn)行音頻標(biāo)注,對聲音進(jìn)行快速的模型訓(xùn)練,即可實(shí)現(xiàn)與真人語氣音調(diào)基本接近的合成音色。

精品聲音復(fù)刻

基于30-60分鐘的音頻數(shù)據(jù),提取說話人的音色和發(fā)音特征,然后人工對標(biāo)注結(jié)果進(jìn)行檢測。經(jīng)過2-3天的模型訓(xùn)練及效果調(diào)優(yōu),實(shí)現(xiàn)客戶個(gè)性化的情感音色定制。適用于虛擬數(shù)字人音色定制場景,賦予數(shù)字人更加鮮明的人格化魅力。

標(biāo)準(zhǔn)音色定制

專業(yè)錄音棚采集不少于4小時(shí)的高質(zhì)量語音數(shù)據(jù),并通過人工進(jìn)行專業(yè)的聲學(xué)層面的精細(xì)化標(biāo)注,2-3周的優(yōu)化定制,生成高度還原發(fā)音人聲音的情感合成音色,滿足不同層面客戶的定制需求。

實(shí)際上,在智能語音產(chǎn)業(yè)中,AI語音定制的能力始終被報(bào)以高度期待。音色,是每個(gè)人獨(dú)有的聲音特色,也是機(jī)器人表達(dá)情感、對外溝通不可或缺的部分。強(qiáng)大的音色定制能力能夠賦予機(jī)器人擁有媲美真人的聲音屬性,個(gè)體形象更為鮮活。

然而,當(dāng)前市場上傳統(tǒng)人工合成音色定制服務(wù)通常流程較為復(fù)雜,高昂的定制成本與定制周期,遠(yuǎn)遠(yuǎn)無法滿足高頻應(yīng)用的需求。

標(biāo)貝科技支持聲音自選或提供語料定制,提供全鏈路深度語音合成定制服務(wù),讓AI語音定制不再需耗費(fèi)過多時(shí)間和資源,滿足不同層面企業(yè)用戶的個(gè)性化需求,以更普惠的方式賦能千行百業(yè)。 同時(shí),標(biāo)貝科技不忘支持國家信創(chuàng)產(chǎn)業(yè)發(fā)展,當(dāng)前,語音合成系列產(chǎn)品已經(jīng)完成全棧的國產(chǎn)化ARM服務(wù)器適配。

專注AI語音技術(shù)探索 引領(lǐng)行業(yè)變革

在AIGC蓬勃發(fā)展的關(guān)鍵時(shí)期,語音合成扮演著不可或缺的重要角色,賦能機(jī)器的語言更逼真、自然、流暢,全面提升用戶體驗(yàn)。

成立多年來,標(biāo)貝科技始終將技術(shù)引領(lǐng)作為發(fā)展第一要位,專注于產(chǎn)品的研發(fā)與創(chuàng)新。如今,標(biāo)貝科技正利用全新推出的多情感、多風(fēng)格、多語種的語音合成技術(shù)助力各領(lǐng)域企業(yè)快速擁有更具競爭力的語音產(chǎn)品,為用戶創(chuàng)造更加逼真、個(gè)性化的語音體驗(yàn)。

目前,標(biāo)貝科技TTS產(chǎn)品已覆蓋智能客服、語音交互、有聲閱讀、導(dǎo)航播報(bào)等眾多應(yīng)用場景,并助力中國銀行、人民日報(bào)、湖南電信、恒生電子等多家行業(yè)頭部企業(yè)實(shí)現(xiàn)AI語音能力的應(yīng)用與拓展。未來,隨著語音技術(shù)的進(jìn)一步迭代發(fā)展,標(biāo)貝科技將持續(xù)釋放自己的勢能,引領(lǐng)行業(yè)變革。

關(guān)鍵詞: