你想象過嗎?蘋果集團(tuán)創(chuàng)始人喬布斯“死而復(fù)生”,和播客主持人討論自己的大學(xué)時(shí)光、對(duì)計(jì)算機(jī)的看法、工作狀態(tài)以及信仰等等。如此賽博的場(chǎng)景,竟然真地在現(xiàn)實(shí)中發(fā)生了,它來自一檔名為Podcast.ai的播客的第一期節(jié)目。
(資料圖片)
這是一個(gè)完全由是一個(gè)完全由AI生成的播客。Podcast.ai通過喬布斯的傳記,和收集網(wǎng)絡(luò)上關(guān)于他的所有錄音,用Play.ht的語言模型大量訓(xùn)練,最終生成了一段美國知名播客主持人Joe Rogan采訪喬布斯的播客內(nèi)容。在這期播客里,喬布斯的各種語音、語調(diào)都模擬的非常相似。
某種程度上說,借由AI,我們的聲音就能實(shí)現(xiàn)“數(shù)字永生”,又或者,你可以聽到任何你想要的人聲。聽起來是不是非常誘人?
事實(shí)上,對(duì)于國內(nèi)用戶來說,擁有專屬于自己的AI聲音并不是遙遠(yuǎn)的夢(mèng)想。2022科大訊飛全球1024開發(fā)者節(jié)的技術(shù)發(fā)布會(huì)上,科大訊飛AI研究院副院長高建清分享了科大訊飛在語音合成技術(shù)領(lǐng)域的新突破——多風(fēng)格多情感合成系統(tǒng)SMART-TTS。
2月19日,科大訊飛官方微信視頻號(hào)中發(fā)布了一條關(guān)于節(jié)氣《雨水》的視頻。深沉厚重的男低音,自帶質(zhì)感,讓這段視頻的level至少上了一個(gè)等級(jí)。你肯定猜到了,這段配音由SMART-TTS系統(tǒng)合成,其語氣的變化、語句的停頓、聲音的細(xì)膩程度都和真人所差無幾。
最近大火的ChatGPT是AIGC+文字領(lǐng)域的產(chǎn)品,而SMART-TTS則是AIGC在聲音領(lǐng)域的應(yīng)用。在許多人潛意識(shí)中,語音合成往往帶著一股機(jī)器味兒,不僅生硬而且很容易分辨。為了讓機(jī)器聲音能媲美人類,專注語音技術(shù)20多年,訊飛始終堅(jiān)持源頭技術(shù)創(chuàng)新,持續(xù)進(jìn)行探索。2008年首次讓語音合成效果超過了普通人說話水平。2019年,科大訊飛在國際語音合成大賽的自然度、相似度兩項(xiàng)指標(biāo)榮獲第一,連續(xù)14年穩(wěn)坐冠軍寶座。訊飛在語音合成方面已實(shí)現(xiàn)人聲自然飽滿,逼真度高,富有表現(xiàn)力,人機(jī)交互更具真實(shí)感,同時(shí)提供適應(yīng)新聞播報(bào)、閱讀聽書、語音助手等多種場(chǎng)景的100+發(fā)音人。在線語音合成可支持37個(gè)語種、11種方言、2種民族語言。
而SMART-TTS在多情感、多風(fēng)格方面實(shí)現(xiàn)了新的突破。SMART-TTS系統(tǒng)可提供“高興、抱歉、撒嬌、嚴(yán)肅、悲傷、困惑、害怕、鼓勵(lì)、生氣、安慰、寵溺”等11種情感,每種情感具備40檔強(qiáng)弱度不同的調(diào)節(jié)能力;也能提供聲音的創(chuàng)造能力,如停頓、重音、語速等,可以根據(jù)自己喜好調(diào)節(jié),真正實(shí)現(xiàn)了合成系統(tǒng)媲美具備個(gè)性化特點(diǎn)的真人表達(dá)能力。
很多人想知道,在哪里定制屬于自己的AI聲音?訊飛有聲APP和訊飛開放平臺(tái)都開放了SMART-TTS語音合成系統(tǒng),開發(fā)者可以在訊飛有聲APP直接下載體驗(yàn),或在訊飛開放平臺(tái)進(jìn)行調(diào)用。另外,科大訊飛最新推出的AIGC內(nèi)容創(chuàng)作基地——訊飛智作,包括的各種AIGC工具中已上線了SMART-TTS聆系列主播,助力內(nèi)容創(chuàng)作者更高效地輸出優(yōu)質(zhì)的音視頻作品。
在訊飛智作中,已經(jīng)開放了訊飛配音、真人配音、虛擬人視頻、PPT生成視頻等功能。以訊飛配音為例,用戶可以在100多位合成主播中選擇適合的聲音,有性別、年齡、領(lǐng)域、風(fēng)格、語種等眾多選擇標(biāo)準(zhǔn),自由調(diào)節(jié)速度、語調(diào)、音量、情感系數(shù)等多重變量??梢灶A(yù)想到,AIGC在訊飛智作中的應(yīng)用能夠給音視頻生產(chǎn)領(lǐng)域帶來全新的變革,內(nèi)容生產(chǎn)者們以較低的成本獲得適合內(nèi)容的高質(zhì)量音視頻,創(chuàng)作的效率大大提高,還可以讓不能開口說話的事物配音,《假如國寶會(huì)說話》的跨年特別呈現(xiàn)中,SMART-TTS語音合成系統(tǒng)讓文物擁有了親切自然的音色,講述自己的風(fēng)姿與古人的智慧。
SMART-TTS語音合成系統(tǒng)已經(jīng)落地很多需要聲音的場(chǎng)景,也將有更多功能向用戶、企業(yè)開放,自然流暢、富有情感的合成語音將走進(jìn)千家萬戶。打開導(dǎo)航時(shí)它有力可靠、閱讀有聲書時(shí)它讓人身臨其境、疲憊時(shí)它溫柔甜美帶來力量......結(jié)合訊飛虛擬數(shù)字人技術(shù),還可以實(shí)現(xiàn)定制智能聊天對(duì)象,建立有具體形象的AI助手、AI伴侶不無可能,也許我們還可以與擁有自己聲音的AI進(jìn)行交互。這不就是我們?cè)?jīng)幻想過的美好未來嗎。
訊飛智作是人人都可觸碰到的AIGC應(yīng)用,如今AIGC的大時(shí)代正在到來。這個(gè)已經(jīng)開始的技術(shù)變革對(duì)我們來說意味著什么?這一波AI產(chǎn)品可能的應(yīng)用場(chǎng)景有哪些?未來可能會(huì)形成怎樣的新AI產(chǎn)業(yè)生態(tài)...這些問題暫且還沒有明晰的答案。但在大浪潮的初始,這些探索者值得被持續(xù)關(guān)注。
關(guān)鍵詞: 新聞資訊
最新資訊
關(guān)于我們 廣告服務(wù) 手機(jī)版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日?qǐng)?bào)網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:435 226 40@qq.com