(相關(guān)資料圖)
微軟研究院近日公開了其最新研究項目——Project Rumi。該項目旨在通過結(jié)合文本、音頻和視頻數(shù)據(jù),運用多模態(tài)方法,提升人工智能系統(tǒng)的理解能力,使其更能理解人類的意圖。 近年來,人工智能系統(tǒng)在自然語言處理(NLP)領(lǐng)域取得了顯著的進步。然而,現(xiàn)有的NLP AI主要依賴于文本輸入輸出,忽略了人類在自然交流中的語調(diào)、面部表情、手勢和肢體語言等線索,這在一定程度上導致了其在理解方面的偏差。在AI專業(yè)術(shù)語中,這些線索被統(tǒng)稱為副語言。 為了解決這個問題,微軟研究院開發(fā)了Project Rumi。這是一個新穎的框架,旨在通過多模態(tài)副語言提示來增強人工智能的理解。該項目包括兩個主要部分:多模式副語言編碼器和多模式副語言解碼器。
關(guān)鍵詞:
推薦閱讀
關(guān)于我們 廣告服務(wù) 手機版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:435 226 40@qq.com