影視配音是一項對專業(yè)能力要求很高的工作。配音演員需要觀看、分析視頻中任務(wù)的表演,并用適當(dāng)?shù)捻嵚?例如重音、語調(diào)和節(jié)奏)重新錄制每一句臺詞,讓配音和畫面同步,并且具備豐富的情感和前后一致性,目前的人工智能配音還不能勝任這種工作。然而,近日發(fā)表在機器學(xué)習(xí)和計算神經(jīng)科學(xué)領(lǐng)域頂級會議NeurIPS2021上的一項前沿研究表明,可以媲美專業(yè)配音演員的人工智能技術(shù)是有望實現(xiàn)的。
論文內(nèi)容表明,清華大學(xué)交叉信息研究院趙行研究組(MARS Lab)聯(lián)合字節(jié)跳動提出了神經(jīng)網(wǎng)絡(luò)配音器概念,旨在解決自動視頻配音任務(wù)。它能夠合成與給定視頻同步的高質(zhì)量語音,并利用視頻中的嘴部運動來控制生成語音的韻律,以達(dá)到語音和視頻同步的目的。此外,該工作還針對多說話人場景開發(fā)了基于圖像的說話人嵌入模塊,讓神經(jīng)網(wǎng)絡(luò)配音器能夠根據(jù)說話人的面部生成具有合理音色的語音。
“配音的主要應(yīng)用場景有兩個。一是替換拍攝時錄制的對話,如拍攝場景下錄制的語音音質(zhì)不佳,又或者出于某種原因演員只是對了口型,聲音需要事后配上;二是對譯制片進(jìn)行配音。例如,為了便于中國觀眾欣賞,將其他語言的視頻翻譯并配音為中文。我們主要關(guān)注的是第一個場景。”在接受科技日報記者采訪時,論文的第一作者、清華大學(xué)交叉信息研究院博士生胡晨旭解釋說。
實驗中的定性和定量評估結(jié)果都說明,神經(jīng)網(wǎng)絡(luò)配音器可以通過視頻控制合成語音的韻律,并生成與視頻同步的高質(zhì)量語音。“不過,我們的技術(shù)還處于起步階段,模型需要在真實電影數(shù)據(jù)上進(jìn)行訓(xùn)練,也暫時還沒有開始中文配音應(yīng)用。”胡晨旭補充說。
“我們的研究還在繼續(xù),請期待我們下一版本的模型。”胡晨旭說。(實習(xí)記者 孫明源)
標(biāo)簽: 人工智能技術(shù) 專業(yè)配音演員 影視配音 人工智能配音
關(guān)于我們 廣告服務(wù) 手機版 投訴文章:39 60 2 914 2@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:39 60 2 914 2@qq.com