這個(gè)春節(jié),《狂飆》這部口碑好劇引發(fā)了全網(wǎng)“現(xiàn)象級(jí)追劇”。但昨天,有細(xì)心的觀眾發(fā)現(xiàn),劇情人物突然出現(xiàn)臺(tái)詞“亂飆”的情況——大量后期配音,使孟德海這個(gè)角色“說(shuō)話和口型對(duì)不上”。于是,一些鐵桿粉絲努力讀唇語(yǔ)對(duì)口型,試圖找回原本的臺(tái)詞。
“看個(gè)劇,還得會(huì)唇語(yǔ)了?”雖是劇情需要,臺(tái)詞或許做出了適當(dāng)改變,但也因此讓一些好奇的觀眾突發(fā)奇想學(xué)唇語(yǔ)。
(資料圖片)
事實(shí)上,人工唇讀學(xué)習(xí)很難,那么AI唇讀能不能助觀眾一臂之力呢?2月1日,天目新聞?dòng)浾卟稍L了浙江大學(xué)教授、視覺(jué)感知教育部-微軟重點(diǎn)實(shí)驗(yàn)室副主任宋明黎。
電視劇《狂飆》劇集截圖
AI怎么識(shí)別唇語(yǔ)呢?唇語(yǔ)識(shí)別是怎么實(shí)現(xiàn)的呢?
那首先要了解下唇語(yǔ)識(shí)別(lip-reading)——先從圖像中識(shí)別出人臉,提取人說(shuō)話時(shí)口型變化的特征,通過(guò)嘴型特征來(lái)識(shí)別音素。
“目前,AI唇讀肯定還達(dá)不到語(yǔ)音識(shí)別接近百分之百的準(zhǔn)確率,但它的準(zhǔn)確率也能達(dá)到了百分之八十多?!彼蚊骼璞硎荆谧R(shí)別過(guò)程中,很可能會(huì)出現(xiàn)同音不同字的情況,但人們可以根據(jù)唇語(yǔ)翻譯的文字,做進(jìn)一步糾正后,便可以知道句子真實(shí)的意思。也就是說(shuō),在理想的情況下,通過(guò)AI唇讀,觀眾們也是可以知道未經(jīng)配音的原來(lái)的主要臺(tái)詞內(nèi)容。
宋明黎表示,我們可以把視頻輸入通過(guò)人工智能已訓(xùn)練好的模型,這個(gè)模型可以提取嘴巴所在的位置,然后把嘴巴所在的位置框出來(lái),形成“嘴巴動(dòng)”的序列,“這個(gè)序列就是不同的字,把口型變化的序列當(dāng)成音頻一樣輸入模型,這個(gè)模型就會(huì)把它解析出來(lái),形成文字?!?/p>
目前,宋明黎所在的課題組發(fā)布了國(guó)際上最大的普通話唇語(yǔ)標(biāo)注數(shù)據(jù)集,“這個(gè)數(shù)據(jù)集是基于中央電視臺(tái)的新聞聯(lián)播來(lái)提取的,所以能夠識(shí)別的必須是‘字正腔圓’的普通話?!彼蚊骼枵f(shuō),接下來(lái),對(duì)于AI唇讀的研究主要是讓它更加適配于實(shí)際場(chǎng)景的數(shù)據(jù)。
即使是最先進(jìn)的系統(tǒng),也難以克服唇動(dòng)中的模糊性,使其性能無(wú)法超越基于音頻的語(yǔ)音識(shí)別。為了追求更高效的系統(tǒng),阿里巴巴、浙江大學(xué)和史蒂文斯理工學(xué)院的研究人員已經(jīng)設(shè)計(jì)了一種方法,利用從語(yǔ)音識(shí)別器中提取的特征作為補(bǔ)充線索。在衡量準(zhǔn)確性的在兩個(gè)唇語(yǔ)識(shí)別行業(yè)標(biāo)桿基準(zhǔn)測(cè)試上,以7.66% 和2.75%的字錯(cuò)誤率優(yōu)于已有技術(shù)。
此外,唇讀其實(shí)是聾校教學(xué)內(nèi)容之一,人們學(xué)習(xí)唇語(yǔ),需要的不僅是視覺(jué)感受能力和語(yǔ)言理解能力,還有培養(yǎng)判斷推理能力;而且需要注意力高度集中才能完成,難度可想而知,“學(xué)會(huì)人工的唇讀取決于個(gè)人的素質(zhì),但是AI如果做好的話,你就不用去刻意去學(xué)習(xí),普惠性會(huì)比較強(qiáng)。”宋明黎說(shuō)。
雖然目前AI讀唇語(yǔ)還在研究階段,但隨著未來(lái)技術(shù)成熟,會(huì)催生出更多的應(yīng)用場(chǎng)景,聾啞人群就是其中一個(gè)受益群體。
宋明黎團(tuán)隊(duì)曾經(jīng)做過(guò)一個(gè)研究項(xiàng)目,設(shè)計(jì)一款穿戴式的智能設(shè)備,專為聾啞人群使用,它裝有一個(gè)攝像頭。雖然聾啞人聽(tīng)不見(jiàn)他人說(shuō)話,但眼睛是好的,給他們佩戴一個(gè)AR眼鏡,利用唇語(yǔ)識(shí)別的功能把文字顯示在眼鏡屏幕上,這樣就起到一個(gè)增強(qiáng)現(xiàn)實(shí)的效果。
AI讀唇還有一些特殊的場(chǎng)景,也是在《狂飆》電視劇中多次出現(xiàn)的場(chǎng)景。
“比如說(shuō)公安或者是軍人,他們要去執(zhí)行任務(wù),偷偷打入敵方內(nèi)部,到了目標(biāo)地點(diǎn)人們可能無(wú)法出聲,但他可以用嘴型與隊(duì)友交流,利用AI讀唇就可以迅速識(shí)別出來(lái)?!彼蚊骼枵f(shuō),當(dāng)然,這些應(yīng)用場(chǎng)景的實(shí)現(xiàn),還面臨一些挑戰(zhàn)。我們想讓AI讀唇更加接近于實(shí)際的場(chǎng)景。之前我們數(shù)據(jù)的收集,大多來(lái)自新聞聯(lián)播主播播音,那樣的唇語(yǔ)條件太過(guò)苛刻。我們還是希望采用實(shí)際普通人說(shuō)話的場(chǎng)景,更具隨意性,比如說(shuō)話人的視角不是正對(duì)著聽(tīng)話人,可能角度有點(diǎn)偏,這種場(chǎng)景的實(shí)際意義更大。
“更重要的一點(diǎn)是,AI讀唇語(yǔ)的準(zhǔn)確率還要再提高,要達(dá)到非常接近語(yǔ)音識(shí)別程度的準(zhǔn)確率,AI讀唇才能真正被應(yīng)用起來(lái)。如果準(zhǔn)確率達(dá)不到要求,它推廣起來(lái)就會(huì)有些障礙。目前我們還需要在現(xiàn)實(shí)中積累大量數(shù)據(jù),用于訓(xùn)練人工智能?!彼蚊骼璞硎?,在可以預(yù)見(jiàn)的將來(lái),人工智能可以讀取更多信息,除了讀語(yǔ)音、讀人臉、讀唇語(yǔ),讀懂表情也是人們很感興趣的一個(gè)方向。
現(xiàn)在國(guó)內(nèi)外從事AI讀表情的相關(guān)研究很多。宋明黎介紹,表情識(shí)別分成兩種,一種是早期研究者把人的表情分成了6種情況,比如高興、悲傷、沮喪和驚訝等。依照這6種表情類別,目前AI讀表情技術(shù)基本可以做到百分之九十幾的準(zhǔn)確率,“但如今這個(gè)簡(jiǎn)單的分類已無(wú)法滿足要求了,在實(shí)際使用時(shí),人們更希望識(shí)別出人臉上的微表情。因?yàn)槿撕腿酥g交往溝通時(shí),面部的微表情更多、更復(fù)雜,而且微表情更能展示人內(nèi)心的真實(shí)想法。當(dāng)然,AI讀微表情的難度也更大。”
關(guān)鍵詞: 語(yǔ)音識(shí)別 人工智能 浙江大學(xué)
最新資訊
關(guān)于我們 廣告服務(wù) 手機(jī)版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛(ài)好者日?qǐng)?bào)網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:435 226 40@qq.com