影視配音是一項(xiàng)對(duì)專業(yè)能力要求很高的工作。配音演員需要觀看、分析視頻中任務(wù)的表演,并用適當(dāng)?shù)捻嵚?例如重音、語調(diào)和節(jié)奏)重新錄制每一句臺(tái)詞,讓配音和畫面同步,并且具備豐富的情感和前后一致性,目前的人工智能配音還不能勝任這種工作。然而,近日發(fā)表在機(jī)器學(xué)習(xí)和計(jì)算神經(jīng)科學(xué)領(lǐng)域頂級(jí)會(huì)議NeurIPS2021上的一項(xiàng)前沿研究表明,可以媲美專業(yè)配音演員的人工智能技術(shù)是有望實(shí)現(xiàn)的。
論文內(nèi)容表明,清華大學(xué)交叉信息研究院趙行研究組(MARS Lab)聯(lián)合字節(jié)跳動(dòng)提出了神經(jīng)網(wǎng)絡(luò)配音器概念,旨在解決自動(dòng)視頻配音任務(wù)。它能夠合成與給定視頻同步的高質(zhì)量語音,并利用視頻中的嘴部運(yùn)動(dòng)來控制生成語音的韻律,以達(dá)到語音和視頻同步的目的。此外,該工作還針對(duì)多說話人場(chǎng)景開發(fā)了基于圖像的說話人嵌入模塊,讓神經(jīng)網(wǎng)絡(luò)配音器能夠根據(jù)說話人的面部生成具有合理音色的語音。
“配音的主要應(yīng)用場(chǎng)景有兩個(gè)。一是替換拍攝時(shí)錄制的對(duì)話,如拍攝場(chǎng)景下錄制的語音音質(zhì)不佳,又或者出于某種原因演員只是對(duì)了口型,聲音需要事后配上;二是對(duì)譯制片進(jìn)行配音。例如,為了便于中國(guó)觀眾欣賞,將其他語言的視頻翻譯并配音為中文。我們主要關(guān)注的是第一個(gè)場(chǎng)景。”在接受科技日?qǐng)?bào)記者采訪時(shí),論文的第一作者、清華大學(xué)交叉信息研究院博士生胡晨旭解釋說。
實(shí)驗(yàn)中的定性和定量評(píng)估結(jié)果都說明,神經(jīng)網(wǎng)絡(luò)配音器可以通過視頻控制合成語音的韻律,并生成與視頻同步的高質(zhì)量語音。“不過,我們的技術(shù)還處于起步階段,模型需要在真實(shí)電影數(shù)據(jù)上進(jìn)行訓(xùn)練,也暫時(shí)還沒有開始中文配音應(yīng)用。”胡晨旭補(bǔ)充說。
“我們的研究還在繼續(xù),請(qǐng)期待我們下一版本的模型。”胡晨旭說。(實(shí)習(xí)記者 孫明源)
標(biāo)簽: 人工智能技術(shù) 專業(yè)配音演員 影視配音 人工智能配音
關(guān)于我們 廣告服務(wù) 手機(jī)版 投訴文章:39 60 2 914 2@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日?qǐng)?bào)網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:39 60 2 914 2@qq.com