清華大學(xué)團隊研發(fā)出新穎唇語解讀系統(tǒng)
【科技前沿】
本報北京3月25日電人說話時嘴唇動作跟語音同步,可以通過識別唇動來進行語言交流。對于聲帶、喉舌損傷的失聲人群,唇語是一種不占用雙手的、日常無障礙交流的有效方式。但唇語對講話者友好,對解讀唇語的聽眾來說卻并不輕松。為降低唇語解讀難度,現(xiàn)有技術(shù)手段常采用磁場、視覺圖像、超聲波等方法。以最流行的非接觸式視覺圖像方法為例,盡管其唇語識別準確率較高,但依然容易受到面部角度、光強、頭動和遮擋等因素的干擾。特別是在新冠肺炎疫情期間,佩戴口罩給基于視覺的唇動解讀帶來全新挑戰(zhàn)。通過直接捕捉面部肌肉細微動作解讀唇語技術(shù)具有重要的科學(xué)研究價值與廣闊的應(yīng)用前景。
近日,清華大學(xué)機械工程系智能與生物機械團隊與中科院北京納米能源與系統(tǒng)研究所團隊合作,研發(fā)出了一種新穎的唇語解讀系統(tǒng)。相關(guān)研究成果在線發(fā)表在《自然·通訊》期刊上。
該系統(tǒng)包含低成本、自供電的柔性摩擦電傳感器和基于原型學(xué)習(xí)的深度學(xué)習(xí)模型。傳感器將唇部肌肉運動產(chǎn)生的電信號傳輸?shù)浇獯a系統(tǒng),翻譯成可溝通的語言。該研究測試分析了傳感器的機械與電氣性能,采集并提取了選定元音、單詞、短語、無聲語音和發(fā)聲語音的唇動信號特征。通過比較同步采集的唇動和聲音信號,證明了無論是否發(fā)聲,嘴唇運動信號都具有一致性。進一步分析了語速與唇動模式等不同參數(shù)對信號特征的影響規(guī)律。提出了一種基于原型學(xué)習(xí)的空洞循環(huán)神經(jīng)網(wǎng)絡(luò)模型,用于唇動信號的識別,在20個分類(100樣本/類)情況下,測試準確率達到94.5%。
值得注意的是,上述自供電傳感器由柔性聚合物薄膜與柔性電極組成,可提高人體佩戴的舒適性。研究團隊利用該系統(tǒng)進行了多種場景應(yīng)用展示,如解鎖大門的身份識別、移動模型車的方向控制、唇動/語音的實時轉(zhuǎn)換等,展示了該系統(tǒng)在唇動識別領(lǐng)域的可行性和應(yīng)用潛力。
面向失聲人群日常無障礙溝通需求,該工作為特殊場景下唇語翻譯應(yīng)用開拓了創(chuàng)新的研究方向。此外,該工作在機器人控制、個人身份驗證、人機界面、殘疾輔助、無聲語音、情報、反恐任務(wù)實施、康復(fù)、生物醫(yī)學(xué)工程和虛擬現(xiàn)實等諸多領(lǐng)域中都具有較大的潛在應(yīng)用價值。
團隊相關(guān)負責(zé)人表示,盡管該工作已展示了該技術(shù)的有效性和應(yīng)用前景,但仍然面臨系統(tǒng)可靠性、穩(wěn)定性等問題。研究團隊相信,隨著研究的深入,該技術(shù)有望切實為失聲人群服務(wù),提供無障礙語言交流的科技手段。
關(guān)鍵詞: 生物機械 同步采集 清華大學(xué)機械工程系 團隊合作
關(guān)于我們 廣告服務(wù) 手機版 投訴文章:39 60 2 914 2@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:39 60 2 914 2@qq.com