新模型接連炸場(chǎng)AI視覺迎來GPT-3時(shí)刻，微美全息(WIMI.US)先聲奪人進(jìn)入爆發(fā)期-熱門看點(diǎn)

2023-04-24 12:48:46 來源：中關(guān)村在線

短短一周不到，視覺領(lǐng)域接連迎來新模型“炸場(chǎng)”，圖像識(shí)別門檻大幅降低——這場(chǎng)AI熱潮中鮮見動(dòng)靜的Meta(META.US)終于出手，推出Segment Anything工具，可準(zhǔn)確識(shí)別圖像中的對(duì)象，模型和數(shù)據(jù)全部開源。

據(jù)悉，Meta的項(xiàng)目包括模型Segment Anything Model(SAM)、數(shù)據(jù)集Segment Anything 1-Billion mask dataset(SA-1B)，公司稱后者是有史以來最大的分割數(shù)據(jù)集。

引起業(yè)內(nèi)轟動(dòng)的便是這一SAM模型，正如名字“Segment Anything”一樣，該模型可以用于分割圖像中的一切對(duì)象，包括訓(xùn)練數(shù)據(jù)中沒有的內(nèi)容。

(資料圖片僅供參考)

在交互方面，SAM可使用點(diǎn)擊、框選、文字等各種輸入提示(prompt)，指定要在圖像中分割的內(nèi)容，這也意味著，用于自然語言處理的Prompt模式也開始被應(yīng)用在計(jì)算機(jī)視覺領(lǐng)域。并且對(duì)于視頻中物體，SAM也能準(zhǔn)確識(shí)別并快速標(biāo)記物品的種類、名字、大小，并自動(dòng)用ID為這些物品進(jìn)行記錄和分類。

AI視覺迎來GPT-3時(shí)刻

對(duì)于SAM工具，英偉達(dá)(NVDA.US)人工智能科學(xué)家Jim Fan將Meta的這項(xiàng)研究稱作計(jì)算機(jī)視覺領(lǐng)域的“GPT-3時(shí)刻”之一——其分割方法可以通用，可對(duì)不熟悉的物體和圖像進(jìn)行零樣本泛化，初步驗(yàn)證了多模態(tài)技術(shù)路徑及其泛化能力。

進(jìn)一步來說，SAM可以靈活集成于更大的AI系統(tǒng)。例如，理解網(wǎng)頁的視覺和文本內(nèi)容;在AR/VR領(lǐng)域，將頭顯用戶視線作為提示來選擇對(duì)象，然后將其“提升”到3D中;對(duì)于內(nèi)容創(chuàng)作者，SAM可提取圖像區(qū)域以進(jìn)行拼貼或視頻編輯;SAM還可通過定位動(dòng)物或物體在視頻中進(jìn)行研究和跟蹤。

AI視覺有望飛躍式提升

公開資料顯示，計(jì)算機(jī)視覺模擬大腦完成對(duì)圖像的處理和解釋，實(shí)現(xiàn)對(duì)相應(yīng)場(chǎng)景的多維理解。以圖像、視頻為代表的視覺數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代信息的主要載體之一，賦以人工智能模型感知并理解這些海量的視覺數(shù)據(jù)的能力，有助于提高人工智能自主適應(yīng)環(huán)境的能力。

作為人工智能(AI)和深度學(xué)習(xí)的子領(lǐng)域，計(jì)算機(jī)視覺可訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(CNN)，以便針對(duì)各種應(yīng)用場(chǎng)合開發(fā)仿人類視覺功能，利用圖像和視頻進(jìn)行數(shù)據(jù)分割、分類和檢測(cè)。

國(guó)盛證券預(yù)計(jì)，預(yù)計(jì)1-5年內(nèi)，多模態(tài)發(fā)展將帶來AI泛化能力提升，通用視覺、通用機(jī)械臂、通用物流搬運(yùn)機(jī)器人、行業(yè)服務(wù)機(jī)器人、真正的智能家居會(huì)進(jìn)入生活;5-10年內(nèi)，結(jié)合復(fù)雜多模態(tài)方案的大模型有望具備完備的與世界交互的能力，在通用機(jī)器人、虛擬現(xiàn)實(shí)等領(lǐng)域得到應(yīng)用。

首創(chuàng)證券翟煒在研報(bào)中指出，META發(fā)布了視覺大模型SAM，緊接著智源研究院視覺團(tuán)隊(duì)也推出通用分割模型SegGPT，通用視覺大模型之戰(zhàn)也打響。視覺大模型能把任意圖像從像素陣列解析為視覺結(jié)構(gòu)單元，像人類視覺那樣理解各類場(chǎng)景，這對(duì)自動(dòng)駕駛、安防、智能家居、工業(yè)視覺等眾多行業(yè)都將帶來飛躍式提升。

西部證券指出，Meta此次推出SAM，預(yù)示著大模型在多模態(tài)發(fā)展方面更進(jìn)一步，布局計(jì)算機(jī)視覺/視頻的廠商有望持續(xù)受;還有券商補(bǔ)充稱，SAM模型突破了機(jī)器視覺底層技術(shù)。

微美全息(WIMI.US)有望進(jìn)入爆發(fā)期

目前，中國(guó)計(jì)算機(jī)視覺廠商具有基于基礎(chǔ)算法進(jìn)行改進(jìn)和優(yōu)化并形成各自特有算法的技術(shù)能力，而作為全球領(lǐng)先的AI視覺解決方案提供商微美全息(WIMI.US)將成為受益者之一，據(jù)悉，該公司專注于計(jì)算機(jī)視覺全息云服務(wù)，為全球規(guī)模、覆蓋產(chǎn)業(yè)鏈、業(yè)績(jī)等方面較優(yōu)秀的全息云產(chǎn)業(yè)綜合實(shí)體之一，目標(biāo)是成為有潛力、有國(guó)際影響力的全息云平臺(tái)。

公開資料顯示，微美全息(WIMI.US)目前已經(jīng)將計(jì)算機(jī)視覺技術(shù)與虛擬現(xiàn)實(shí)技術(shù)相結(jié)合，開發(fā)了基于計(jì)算機(jī)視覺的三維人機(jī)交互系統(tǒng)。在人機(jī)之間構(gòu)建自然直觀的三維交互環(huán)境，并構(gòu)造三維用戶界面，實(shí)現(xiàn)和諧的、“以人為中心”的人機(jī)交互界面。

在微美全息的三維人機(jī)交互系統(tǒng)中，采用了視覺作為有效的輸入模態(tài)。計(jì)算機(jī)視覺是一種引導(dǎo)系統(tǒng)并與視覺世界交互的人工智能技術(shù)，其從獲取的輸入中識(shí)別對(duì)象并提供最終結(jié)果。計(jì)算機(jī)視覺中包含了獲取、轉(zhuǎn)換和分析數(shù)字圖像等任務(wù)，可協(xié)助人類完成識(shí)別任務(wù)、啟用交互等，并基于訓(xùn)練數(shù)據(jù)集進(jìn)行評(píng)估。使人機(jī)通訊信息交換量更大、形式更豐富，發(fā)揮人機(jī)彼此不同的認(rèn)知潛力。

在AI視覺算法技術(shù)能力方面，微美全息開發(fā)了聚和聚類算法，用于支持新一代互聯(lián)網(wǎng)的算法處理需求。聚類算法是一種機(jī)器學(xué)習(xí)算法，它將相似的數(shù)據(jù)點(diǎn)組合在一起形成簇(Cluster)，聚合聚類新型算法能夠自適應(yīng)地根據(jù)圖像特征進(jìn)行聚類，能夠處理不同類型、尺寸和分辨率的圖像，并且能夠結(jié)合機(jī)器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)，實(shí)現(xiàn)更高級(jí)別的圖像處理和分析。

隨著深度學(xué)習(xí)、計(jì)算機(jī)視覺算法和虛擬現(xiàn)實(shí)技術(shù)的迅猛發(fā)展，微美全息開發(fā)的AI視覺相關(guān)應(yīng)用在許多行業(yè)中都有廣泛的應(yīng)用，如金融、醫(yī)療、制造業(yè)、社交網(wǎng)絡(luò)、市場(chǎng)營(yíng)銷等。同時(shí)，由于市場(chǎng)需求也在不斷擴(kuò)大，微美全息的AI視覺應(yīng)用前景將進(jìn)入新的爆發(fā)期。

AI視覺市場(chǎng)規(guī)?？焖僭鲩L(zhǎng)

國(guó)海證券陳夢(mèng)竹在研報(bào)中表示，2021年中國(guó)計(jì)算機(jī)視覺技術(shù)核心產(chǎn)品、帶動(dòng)相關(guān)產(chǎn)業(yè)市場(chǎng)規(guī)模達(dá)990億元、3079億元，預(yù)計(jì)2025年分別達(dá)1873億元、5771億元。

從全球來看，2022年全球視覺人工智能市場(chǎng)銷售額達(dá)到了113.51億美元，預(yù)計(jì)2029年將達(dá)到218.10億美元，年復(fù)合增長(zhǎng)率(CAGR)為10.51%(2023-2029)。中國(guó)市場(chǎng)在過去幾年變化較快，2022年市場(chǎng)規(guī)模為28.12億美元，約占全球的24.77%，預(yù)計(jì)2029年將達(dá)到61.72億美元，屆時(shí)全球占比將達(dá)到28.30%。

總之，隨著視覺技術(shù)、深度學(xué)習(xí)、高精度成像等技術(shù)的持續(xù)發(fā)展，視覺人工智能的應(yīng)用場(chǎng)景將持續(xù)擴(kuò)展。視覺人工智能無論在速度、精度、還是環(huán)境要求方面都存在著顯著優(yōu)勢(shì)，能夠替代人類視覺，更好的助力工業(yè)自動(dòng)化、各行各業(yè)智能化的發(fā)展。

關(guān)鍵詞：

无码一区二区三区爆白浆_国产原产精品影院_最新国产剧全集在线观看_黑人粗大爽天天视频_亚洲一区二区无码中字幕

新模型接連炸場(chǎng)AI視覺迎來GPT-3時(shí)刻，微美全息(WIMI.US)先聲奪人進(jìn)入爆發(fā)期-熱門看點(diǎn)

新模型接連炸場(chǎng)AI視覺迎來GPT-3時(shí)刻，微美全息(WIMI.US)先聲奪人進(jìn)入爆發(fā)期-熱門看點(diǎn)