在线观看日韩中文|1024成人网色www|日韩欧美高清一区二区三区|亚洲精华国产欧美,色婷婷综合久久久久中文一区二区,亚洲精品1区2区,久草在线

音頻評價(jià)模型訓(xùn)練方法、音頻評價(jià)方法、設(shè)備及程序產(chǎn)品與流程

文檔序號(hào):43006121發(fā)布日期:2025-09-15 12:24閱讀:5來源:國知局

本發(fā)明涉及人工智能領(lǐng)域,特別涉及一種音頻評價(jià)模型訓(xùn)練方法、音頻評價(jià)方法、設(shè)備及程序產(chǎn)品。


背景技術(shù):

1、隨著人工智能生成內(nèi)容技術(shù)的發(fā)展,用戶逐漸習(xí)慣使用音樂生成模型生成所需的音樂音頻。為提升音頻生成質(zhì)量,對音樂生成模型產(chǎn)生的生成音頻進(jìn)行有效評價(jià),并根據(jù)評價(jià)對音樂生成模型進(jìn)行微調(diào),具有十分重要的意義。

2、相關(guān)技術(shù)中,可訓(xùn)練一個(gè)音頻評價(jià)模型來自動(dòng)評價(jià)生成音頻的質(zhì)量。然而,訓(xùn)練該模型所需的訓(xùn)練數(shù)據(jù)嚴(yán)重依賴于人工標(biāo)注,需要耗費(fèi)大量人力物力,不利于音頻評價(jià)模型的訓(xùn)練。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的是提供一種音頻評價(jià)模型訓(xùn)練方法、音頻評價(jià)方法、設(shè)備及程序產(chǎn)品,可采取半監(jiān)督對比學(xué)習(xí)的方式訓(xùn)練音頻評價(jià)模型,控制音頻評價(jià)模型自主學(xué)習(xí)歌曲特征,并可降低對人工標(biāo)注數(shù)據(jù)的依賴,從而可提升模型訓(xùn)練效果和音頻評價(jià)效果。

2、為解決上述技術(shù)問題,本發(fā)明提供一種音頻評價(jià)模型訓(xùn)練方法,包括:

3、獲取音樂生成模型產(chǎn)生的生成音頻;所述生成音頻包括標(biāo)注音頻、未標(biāo)注音頻,所述標(biāo)注音頻的標(biāo)注值包括音頻質(zhì)量評分;

4、對所述未標(biāo)注音頻進(jìn)行局部掩碼處理,得到掩碼后音頻;

5、利用初始音頻評價(jià)模型分別對所述標(biāo)注音頻、所述未標(biāo)注音頻、所述掩碼后音頻進(jìn)行特征提取,得到第一音頻表征向量、第二音頻表征向量、第三音頻表征向量;

6、基于所述第一音頻表征向量確定所述標(biāo)注音頻的預(yù)測質(zhì)量評分;

7、利用每個(gè)未標(biāo)注音頻對應(yīng)的第二音頻表征向量和第三音頻表征向量間的特征距離、每種音頻質(zhì)量評分對應(yīng)的第一音頻表征向量間的特征距離、每個(gè)標(biāo)注音頻的預(yù)測質(zhì)量評分與對應(yīng)音頻質(zhì)量評分間的差值生成第一損失值;

8、根據(jù)所述第一損失值對所述初始音頻評價(jià)模型進(jìn)行訓(xùn)練,得到音頻評價(jià)模型。

9、可選地,所述初始音頻評價(jià)模型包含預(yù)訓(xùn)練音樂表征模型和第一全連接模塊;

10、所述利用初始音頻評價(jià)模型分別對所述標(biāo)注音頻、所述未標(biāo)注音頻、所述掩碼后音頻進(jìn)行特征提取,得到第一音頻表征向量、第二音頻表征向量、第三音頻表征向量,包括:

11、對所述標(biāo)注音頻、所述未標(biāo)注音頻、所述掩碼后音頻進(jìn)行音頻特征提取,得到第一音頻特征、第二音頻特征、第三音頻特征;

12、利用所述預(yù)訓(xùn)練音樂表征模型分別對所述第一音頻特征、所述第二音頻特征、所述第三音頻特征進(jìn)行特征提取,得到第一初始表征向量、第二初始表征向量、第三初始表征向量;

13、利用所述第一全連接模塊分別對所述第一初始表征向量、所述第二初始表征向量、所述第三初始表征向量進(jìn)行全連接處理,得到所述第一音頻表征向量、所述第二音頻表征向量、所述第三音頻表征向量;

14、所述根據(jù)所述第一損失值對所述初始音頻評價(jià)模型進(jìn)行訓(xùn)練,包括:

15、根據(jù)所述第一損失值對所述第一全連接模塊進(jìn)行參數(shù)更新。

16、可選地,還包括:

17、獲取所述生成音頻對應(yīng)的指令文本;所述音樂生成模型根據(jù)所述指令文本產(chǎn)生所述生成音頻;

18、利用預(yù)訓(xùn)練文本表征模型對所述指令文本進(jìn)行文本特征提取,得到初始文本表征向量;

19、利用第二全連接模塊分別對所述初始文本表征向量、各所述生成音頻的初始音頻表征向量進(jìn)行全連接處理,得到文本表征向量、第四音頻表征向量;所述初始音頻表征向量為所述第一初始表征向量、所述第二初始表征向量;

20、對于每對生成音頻和指令文本,確定對應(yīng)的第四音頻表征向量和文本表征向量間的第一特征距離,并利用各所述第一特征距離生成第二損失值;

21、所述根據(jù)所述第一損失值對所述初始音頻評價(jià)模型進(jìn)行訓(xùn)練,包括:

22、根據(jù)所述第一損失值、所述第二損失值得到總損失值;

23、根據(jù)所述總損失值對所述第一全連接模塊、所述第二全連接模塊進(jìn)行參數(shù)更新。

24、可選地,在利用預(yù)訓(xùn)練文本表征模型對所述指令文本進(jìn)行文本特征提取,得到初始文本表征向量之前,還包括:

25、對所述指令文本進(jìn)行文本擾動(dòng)處理,得到所述指令文本對應(yīng)的至少兩個(gè)擾動(dòng)指令文本;

26、所述利用預(yù)訓(xùn)練文本表征模型對所述指令文本進(jìn)行文本特征提取,得到初始文本表征向量,包括:

27、利用所述預(yù)訓(xùn)練文本表征模型對各所述擾動(dòng)指令文本進(jìn)行特征提取,得到各擾動(dòng)指令文本的初始文本表征向量;

28、對同一指令文本對應(yīng)的各所述擾動(dòng)指令文本的初始文本表征向量進(jìn)行融合處理,得到所述指令文本的初始文本表征向量。

29、可選地,還包括:

30、利用預(yù)訓(xùn)練節(jié)拍點(diǎn)提取模型對所述生成音頻進(jìn)行節(jié)拍點(diǎn)提取,得到節(jié)拍點(diǎn)時(shí)間序列;

31、利用預(yù)訓(xùn)練和弦提取模型對所述生成音頻進(jìn)行和弦提取,得到和弦序列;

32、利用第三全連接模塊分別對所述節(jié)拍點(diǎn)時(shí)間序列、所述和弦序列進(jìn)行全連接處理,得到節(jié)拍點(diǎn)表征向量、和弦表征向量;

33、確定各所述生成音頻的節(jié)拍點(diǎn)表征向量與具有最佳音頻質(zhì)量評分的標(biāo)注音頻的節(jié)拍點(diǎn)表征向量間的第二特征距離,確定各所述生成音頻的和弦表征向量與具有最佳音頻質(zhì)量評分的標(biāo)注音頻的和弦表征向量間的第三特征距離,并利用各所述第二特征距離、各所述第三特征距離構(gòu)造第三損失值;

34、所述根據(jù)所述第一損失值對所述初始音頻評價(jià)模型進(jìn)行訓(xùn)練,包括:

35、根據(jù)所述第一損失值、所述第三損失值得到總損失值;

36、根據(jù)所述總損失值對所述第一全連接模塊、所述第三全連接模塊進(jìn)行參數(shù)更新。

37、可選地,所述獲取音樂生成模型產(chǎn)生的生成音頻,包括:

38、獲取所述音樂生成模型產(chǎn)生的原始生成音頻,并劃分為待標(biāo)注音頻和所述未標(biāo)注音頻;

39、獲取每個(gè)所述待標(biāo)注音頻的多個(gè)初始音頻質(zhì)量評分;

40、在每個(gè)所述待標(biāo)注音頻的多個(gè)初始音頻質(zhì)量評分中,將出現(xiàn)次數(shù)最多的初始音頻質(zhì)量評分作為所述待標(biāo)注音頻的音頻質(zhì)量評分,得到所述標(biāo)注音頻。

41、可選地,所述對所述未標(biāo)注音頻進(jìn)行局部掩碼處理,得到掩碼后音頻,包括:

42、按照預(yù)設(shè)比例從所述未標(biāo)注音頻中隨機(jī)選取音頻信息,并對選出的音頻信息進(jìn)行掩碼處理,得到所述掩碼后音頻。

43、本發(fā)明還提供一種音頻評價(jià)方法,包括:

44、獲取待評價(jià)音頻;

45、利用音頻評價(jià)模型對所述待評價(jià)音頻進(jìn)行特征提取得到音頻表征向量,并基于所述音頻表征向量確定所述待評價(jià)音頻對應(yīng)的預(yù)測質(zhì)量評分;所述音頻評價(jià)模型利用如上所述的音頻評價(jià)模型訓(xùn)練方法訓(xùn)練得到。

46、本發(fā)明還提供一種電子設(shè)備,包括:

47、存儲(chǔ)器,用于存儲(chǔ)計(jì)算機(jī)程序;

48、處理器,用于執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的音頻評價(jià)模型訓(xùn)練方法和/或如上所述的音頻評價(jià)方法。

49、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,所述計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的音頻評價(jià)模型訓(xùn)練方法和/或如上所述的音頻評價(jià)方法。

50、本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令被處理器加載并執(zhí)行時(shí),實(shí)現(xiàn)如上所述的音頻評價(jià)模型訓(xùn)練方法和/或如上的音頻評價(jià)方法。

51、本發(fā)明提供一種音頻評價(jià)模型訓(xùn)練方法,包括:獲取音樂生成模型產(chǎn)生的生成音頻;所述生成音頻包括標(biāo)注音頻、未標(biāo)注音頻,所述標(biāo)注音頻的標(biāo)注值包括音頻質(zhì)量評分;對所述未標(biāo)注音頻進(jìn)行局部掩碼處理,得到掩碼后音頻;利用初始音頻評價(jià)模型分別對所述標(biāo)注音頻、所述未標(biāo)注音頻、所述掩碼后音頻進(jìn)行特征提取,得到第一音頻表征向量、第二音頻表征向量、第三音頻表征向量;基于所述第一音頻表征向量確定所述標(biāo)注音頻的預(yù)測質(zhì)量評分;利用每個(gè)未標(biāo)注音頻對應(yīng)的第二音頻表征向量和第三音頻表征向量間的特征距離、每種音頻質(zhì)量評分對應(yīng)的第一音頻表征向量間的特征距離、每個(gè)標(biāo)注音頻的預(yù)測質(zhì)量評分與對應(yīng)音頻質(zhì)量評分間的差值生成第一損失值;根據(jù)所述第一損失值對所述初始音頻評價(jià)模型進(jìn)行訓(xùn)練,得到音頻評價(jià)模型。

52、本發(fā)明的有益效果在于:本發(fā)明可采取半監(jiān)督對比學(xué)習(xí)的方式訓(xùn)練音頻評價(jià)模型。具體的,本發(fā)明可獲取音樂生成模型產(chǎn)生的生成音頻,該生成音頻包括標(biāo)注音頻、未標(biāo)注音頻,標(biāo)注音頻的標(biāo)注值包含音頻質(zhì)量評分。隨后,本發(fā)明可對未標(biāo)注音頻進(jìn)行局部掩碼處理得到掩碼后音頻,并可利用初始音頻評價(jià)模型分別對標(biāo)注音頻、未標(biāo)注音頻、掩碼后音頻進(jìn)行特征提取,得到標(biāo)注音頻對應(yīng)的第一音頻表征向量、未標(biāo)注音頻對應(yīng)的第二音頻表征向量、掩碼后音頻對應(yīng)的第三音頻表征向量。隨后,本發(fā)明可以基于第一音頻表征向量確定標(biāo)注音頻的預(yù)測質(zhì)量評分,并可利用每個(gè)未標(biāo)注音頻對應(yīng)的第二音頻表征向量和第三音頻表征向量間的特征距離、每種音頻質(zhì)量評分對應(yīng)的第一音頻表征向量間的特征距離、每個(gè)標(biāo)注音頻的預(yù)測質(zhì)量頻分與對應(yīng)音頻質(zhì)量評分間的差值生成第一損失值。通過縮小第一損失值,本發(fā)明能夠縮小未標(biāo)注音頻對應(yīng)的第二音頻表征向量和第三音頻表征向量間的特征距離,使得初始音頻評價(jià)模型通過掩碼復(fù)原方式,更深層次地挖掘音頻特征;此外,還可縮小每種音頻質(zhì)量評分對應(yīng)的第一音頻表征向量間的特征距離,使得同種質(zhì)量的第一音頻表征向量相互靠近;最后,還可縮小標(biāo)注音頻的預(yù)測質(zhì)量評分與對應(yīng)音頻質(zhì)量評分間的差值,使得預(yù)測質(zhì)量評分可用作音質(zhì)評價(jià)。最后,本發(fā)明可根據(jù)第一損失值對初始音頻評價(jià)模型進(jìn)行訓(xùn)練,得到音頻評價(jià)模型,能夠通過半監(jiān)督對比學(xué)習(xí)方式降低對標(biāo)注音頻的需求,并可控制模型自主學(xué)習(xí)、挖掘音頻特征,從而可提升模型訓(xùn)練效果,并可提升音頻評價(jià)效果。

53、本發(fā)明還提供一種音頻評價(jià)方法、電子設(shè)備、計(jì)算機(jī)程序產(chǎn)品、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),具有上述有益效果。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1