網(wǎng)易易盾 AI Lab 論文入選 ICASSP 2023！黑科技讓語音識(shí)別越“聽”越準(zhǔn) 全球熱點(diǎn)

2023-06-07 18:55:50 來源：中關(guān)村在線

每個(gè)科幻迷都向往著在未來能像和老朋友對(duì)話一樣，用寥寥數(shù)語發(fā)動(dòng)星際飛船，征服星辰大海；或者擁有鋼鐵俠的人工智能管家賈維斯，幾句對(duì)話就能造出一套納米戰(zhàn)甲。其實(shí)這個(gè)畫面離我們并不遠(yuǎn)——就像 iPhone 中的 Siri 一樣同我們觸手可及。它的背后是自動(dòng)語言識(shí)別技術(shù)（Automatic Speech Recognition)。這項(xiàng)關(guān)鍵技術(shù)能將語音轉(zhuǎn)換為計(jì)算機(jī)可識(shí)別的文字或命令，實(shí)現(xiàn)便捷、高效、智能的人機(jī)交互體驗(yàn)。

(資料圖片僅供參考)

而隨著深度學(xué)習(xí)等 AI 技術(shù)的發(fā)展，語音識(shí)別技術(shù)已經(jīng)取得了巨大的進(jìn)步——不僅識(shí)別準(zhǔn)確度大大提高，而且能夠更好地處理口音、噪聲和背景音等問題。但隨著技術(shù)在生活和業(yè)務(wù)中的不斷應(yīng)用，仍會(huì)遇到一些瓶頸，畢竟從理論研究到實(shí)際應(yīng)用，從論文到產(chǎn)品，需要考慮太多的現(xiàn)實(shí)因素。如何讓語音識(shí)別更好地輔助內(nèi)容審核？如何讓識(shí)別動(dòng)作本身也能像人腦一樣，根據(jù)對(duì)語境的理解，以更低的成本給出更準(zhǔn)確的答案？網(wǎng)易智企旗下易盾 AI Lab 給出了新方法。

易盾又出黑科技，智企邁向全世界！

近日，全球語音、聲學(xué)會(huì)議ICASSP 2023 公布了論文入選名單，網(wǎng)易智企旗下易盾 AI Lab 提交的論文成功被錄用。今年是第 48 屆 ICASSP 大會(huì)，也是疫情后的第一屆線下大會(huì)，雖然大會(huì)官方還未公布最后錄用了多少篇論文，但論文投遞的數(shù)量相較往年上升了 50%，達(dá)到了驚人的 6,000+。

面對(duì)如此激烈的競(jìng)爭(zhēng)，網(wǎng)易智企易盾 AILab 團(tuán)隊(duì)?wèi){借一篇語音識(shí)別方向的論文《Improving CTC-based ASRModels with Gated Interplayer Collaboration（基于 CTC 的模型改進(jìn)，實(shí)現(xiàn)更強(qiáng)的模型結(jié)構(gòu)）》脫穎而出，成功拿到了前往希臘羅德島線下參會(huì)的門票。

“GIC”，助力語音識(shí)別更進(jìn)一步

語音識(shí)別本質(zhì)上是語音序列到文字序列的轉(zhuǎn)化，而要完成這樣的轉(zhuǎn)化，一般會(huì)用到三類模型，CTC、Attention-based 和 RNN-Transducer，它們?cè)谕瓿扇蝿?wù)的時(shí)候采用了不同的路徑：

CTC：基于神經(jīng)網(wǎng)絡(luò)模型，在訓(xùn)練過程中通過反向傳播來更新模型參數(shù)以最小化損失函數(shù)。該算法引入了“空白符”來表示無意義字符或者間隔符號(hào)。CTC 適合處理輸入輸出長度相差較大的數(shù)據(jù)，如語音識(shí)別中將聲學(xué)特征映射為文本；

Attention-based：注意力機(jī)制，也是基于神經(jīng)網(wǎng)絡(luò)模型，并且使用一種稱為“注意力”的技術(shù)來對(duì)輸入進(jìn)行加權(quán)匯聚。在每個(gè)時(shí)間步驟上，該模型會(huì)根據(jù)當(dāng)前狀態(tài)和所有輸入計(jì)算出一個(gè)分布式權(quán)重向量，并將其應(yīng)用于所有輸入以產(chǎn)生一個(gè)加權(quán)平均值作為輸出。這種方式可以使得模型更好地關(guān)注與當(dāng)前預(yù)測(cè)相關(guān)的部分信息；

RNN-Transducer：轉(zhuǎn)錄器，這個(gè)算法結(jié)合了編碼器-解碼器框架和自回歸建模思想，在生成目標(biāo)序列時(shí)同時(shí)考慮源語言句子和已生成部分目標(biāo)語言句子之間的交互作用。與其他兩種方法不同，RNN-Transducer 沒有明確區(qū)分編碼器和解碼器階段，并且直接從源語言到目標(biāo)語言進(jìn)行轉(zhuǎn)換，因此可以同時(shí)考慮源語言句子和已生成部分目標(biāo)語言句子之間的交互作用。

相比后兩者，雖然 CTC 具有天然的非自回歸解碼性質(zhì)，解碼速度相對(duì)快很多，但依然有著性能劣勢(shì)：

1. CTC 算法設(shè)置了條件獨(dú)立性假設(shè)，即 CTC 假設(shè)每個(gè)時(shí)間步的輸出之間是獨(dú)立的。這對(duì)語音識(shí)別任務(wù)來說并不合理，假如說“ji rou”這個(gè)發(fā)音，在不同的上下文中預(yù)測(cè)的文字內(nèi)容應(yīng)該不一樣的。如果上文是“我喜歡吃”，接下來“雞”的概率應(yīng)該更高，同理如果上文是“他手臂有”，接下來“肌”的概率應(yīng)該更高。如果通過 CTC 訓(xùn)練，很容易就會(huì)在忽略上文的前提下，輸出“我喜歡吃肌肉”這樣好笑的文本；

2.從建模的視角來看，Attention-based模型和 RNN-Transducer 模型根據(jù)輸入和之前時(shí)間步的輸出預(yù)測(cè)當(dāng)前時(shí)間步的輸出，而 CTC 模型僅僅利用輸入來預(yù)測(cè)當(dāng)下的輸出，在 CTC 模型的建模過程中，文本信息僅僅是作為一種監(jiān)督信號(hào)回傳給網(wǎng)絡(luò)，并沒有作為網(wǎng)絡(luò)的輸入顯式促進(jìn)模型的預(yù)測(cè)。

我們希望能在保留 CTC 解碼效率的同時(shí)，盡可能地解決以上兩點(diǎn)劣勢(shì)。于是，我們想從 CTC 模型本身出發(fā)，設(shè)計(jì)輕量級(jí)的模塊給基于 CTC 的模型引入文本信息，使得模型能夠整合聲學(xué)和文本信息，學(xué)習(xí)到文本序列上下文之間的相互作用，從而緩解 CTC 算法的條件獨(dú)立性假設(shè)。但過程中，我們碰到了兩個(gè)問題：如何在CTC模型（Encoder +CTC 結(jié)構(gòu)）里注入文本信息？如何自適應(yīng)地融合文本特征和聲學(xué)特征？

為了實(shí)現(xiàn)上述目標(biāo)，我們?cè)O(shè)計(jì)了 Gated Interlayer Collaboration（簡寫為GIC）機(jī)制。GIC 模塊主要包含一個(gè)嵌入層（embedding layer）和一個(gè)門控單元（gate unit）。其中，嵌入層用于生成每一音頻輸入幀的文本信息，門控單元用于自適應(yīng)地融合文本信息和聲學(xué)信息。

具體地，我們的方法基于多任務(wù)學(xué)習(xí)（Multi-taskLearning）框架，利用編碼器模塊（Encoder）中間層的輸出計(jì)算輔助 CTC loss，整個(gè)網(wǎng)絡(luò)的目標(biāo)函數(shù)是最后一層的 CTC loss 和中間層輔助 CTC loss 的加權(quán)和。GIC 將網(wǎng)絡(luò)中間層的預(yù)測(cè)，即 Softmax 輸出的概率分布作為每一幀的軟標(biāo)簽，點(diǎn)乘嵌入層矩陣之和作為每一幀的文本表征。最后，生成的文本表征和聲學(xué)表征通過一個(gè)門控單元自適應(yīng)地融合，成為一個(gè)新特征輸入到下一層。此時(shí)的新特征融合了文本特征和聲學(xué)特征，使得下一層的 Encoder 模塊可以學(xué)習(xí)到聲學(xué)序列上下文信息和文本序列上下文信息。整個(gè)模型的框架如下圖所示：

在 Conformer 和 Transformer 這兩個(gè)模型上的實(shí)驗(yàn)表明：

1. GIC 同時(shí)支持漢語和英語的場(chǎng)景識(shí)別，同時(shí)準(zhǔn)確度均取得了顯著的性能提升；

2. GIC 模型性能超過了同參數(shù)規(guī)模的Attention-based 和 RNN-transducer 模型，并且具有非自回歸解碼的優(yōu)勢(shì)，帶來數(shù)倍的解碼速度提升；

3. 相對(duì)原始的 CTC 模型，GIC 在多個(gè)開源數(shù)據(jù)集有遠(yuǎn)超 10% 的相對(duì)性能提升。

Conformer 模型下的結(jié)論

Transformer 模型下的結(jié)論

GIC 為 CTC 模型的性能帶來了很大的提升。相對(duì)原始的 CTC 模型，GIC 模塊大約帶來2M 的額外參數(shù)，其中，計(jì)算中間層輔助 CTC loss 所用的線性層與最后一層是共享的，不會(huì)帶來額外的參數(shù)。多個(gè)中間層共享嵌入層，帶來 256*5000 約等于 1.3M 的參數(shù)。除此之外，多個(gè)門控單元的參數(shù)是 256*256*2*k，合計(jì)約 0.6M 的額外參數(shù)量。

領(lǐng)先技術(shù)造就先進(jìn)業(yè)務(wù)

論文中的 GIC 已經(jīng)應(yīng)用在了網(wǎng)易易盾的內(nèi)容審核業(yè)務(wù)中。

作為網(wǎng)易智企旗下一站式數(shù)字內(nèi)容風(fēng)控品牌，易盾長期專注于數(shù)字內(nèi)容安全風(fēng)控和反垃圾信息的技術(shù)研發(fā)和創(chuàng)新。其中，針對(duì)以聲音作為載體的數(shù)字內(nèi)容，易盾提供了多種音頻內(nèi)容審核引擎，包括歌曲、廣播、電視節(jié)目、直播等各種類型的音頻內(nèi)容，及時(shí)檢測(cè)和過濾含有敏感、違規(guī)、低俗，廣告內(nèi)容的語音，從而減少不良內(nèi)容的社會(huì)影響，營造良好的網(wǎng)絡(luò)環(huán)境。

針對(duì)有具體語義內(nèi)容的音頻，易盾通過語音識(shí)別技術(shù)將音頻文件中的語音內(nèi)容轉(zhuǎn)寫為文字內(nèi)容，再利用檢測(cè)模塊分析和處理文本，從而實(shí)現(xiàn)對(duì)音頻內(nèi)容的自動(dòng)化審核和過濾。因此，語音識(shí)別的準(zhǔn)確率與音頻內(nèi)容的審核效率和準(zhǔn)確性是息息相關(guān)的，會(huì)直接影響到客戶開展業(yè)務(wù)的安全與穩(wěn)定。

論文中的 GIC 在內(nèi)容審核中的應(yīng)用取得了顯著的效果提升。在實(shí)際的應(yīng)用過程中，需要調(diào)試的超參數(shù)有兩個(gè)，分別是多任務(wù)學(xué)習(xí)系數(shù) lambda 和中間層層數(shù) k。在18 層編碼器結(jié)構(gòu)中我們發(fā)現(xiàn) k=5，lambda=0.5 有較好的實(shí)驗(yàn)效果。接著，我們會(huì)從這個(gè)設(shè)置開始嘗試，不斷微調(diào)以確定最優(yōu)的超參數(shù)。

幕后英雄：網(wǎng)易智企易盾 AI Lab

這不是易盾 AI Lab 團(tuán)隊(duì)第一次獲得這樣規(guī)格的榮譽(yù)。

作為網(wǎng)易智企下設(shè)的始終走在人工智能研究前沿的技術(shù)團(tuán)隊(duì)，易盾 AI Lab 致力于圍繞精細(xì)化、輕量化、敏捷化打造全面嚴(yán)謹(jǐn)、安全可信的 AI 技術(shù)能力，不斷提升數(shù)字內(nèi)容風(fēng)控服務(wù)水平。在這之前，團(tuán)隊(duì)曾獲得多項(xiàng) AI 算法競(jìng)賽冠軍及重要獎(jiǎng)勵(lì)榮譽(yù)：

2019 年第一屆中國人工智能大賽旗幟識(shí)別賽道最高級(jí) A 級(jí)證書

2020 年第二屆中國人工智能大賽視頻深度偽造檢測(cè)賽道最高級(jí) A 級(jí)證書

2021 年第三屆中國人工智能大賽視頻深度偽造檢測(cè)和音頻深度偽造檢測(cè)賽道兩項(xiàng)最高級(jí) A 級(jí)證書

2021 年中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟“創(chuàng)新之星”、“創(chuàng)新人物”

2021 年第十六屆全國人機(jī)語音通訊學(xué)術(shù)會(huì)議（NCMMSC2021）“長短視頻多語種多模態(tài)識(shí)別競(jìng)賽”—漢語長短視頻直播語音關(guān)鍵詞（VKW）雙賽道冠軍

2021 年獲得浙江省政府頒發(fā)的科學(xué)技術(shù)進(jìn)步獎(jiǎng)一等獎(jiǎng)

2022 年 ICPR 多模態(tài)字幕識(shí)別比賽（Multimodal Subtitle Recognition, 簡稱 MSR 競(jìng)賽，國內(nèi)首個(gè)多模態(tài)字幕識(shí)別大賽）賽道三“融合視覺和音頻的多模態(tài)字幕識(shí)別系統(tǒng)”冠軍

未來已來，AI 的 iPhone 時(shí)刻已至。今天，易盾成功登上了語音學(xué)的學(xué)術(shù)殿堂；未來，技術(shù)將成就業(yè)務(wù)的方方面面，而網(wǎng)易易盾將始終伴您左右。

關(guān)鍵詞：

无码一区二区三区爆白浆_国产原产精品影院_最新国产剧全集在线观看_黑人粗大爽天天视频_亚洲一区二区无码中字幕

網(wǎng)易易盾 AI Lab 論文入選 ICASSP 2023！黑科技讓語音識(shí)別越“聽”越準(zhǔn) 全球熱點(diǎn)