2020 年 GPT-3 模型的參數(shù)量首次突破千億大關(guān),達(dá)到了 1750 億,堪稱“大力出奇跡”。今日凌晨,萬眾矚目的大型多模態(tài)模型 GPT-4 正式發(fā)布!GPT-4 是多模態(tài)的,同時支持文本和圖像輸入功能。該版本“更強(qiáng)大”,模型精度隨著模型尺寸及訓(xùn)練數(shù)據(jù)的增加而顯著提升。
訓(xùn)練巨量模型需要巨大的算力,但隨著數(shù)據(jù)集和模型規(guī)模不斷增加,應(yīng)用程序載入數(shù)據(jù)所花費(fèi)的時間變得越長,進(jìn)而影響了應(yīng)用程序的性能,緩慢的 I/O 嚴(yán)重拖累GPU 的強(qiáng)大算力。如何大幅提升GPU載入大型數(shù)據(jù)集的速度將是計算和存儲系統(tǒng)共同面臨的最大挑戰(zhàn)。為更加完美地滿足大規(guī)模計算集群對于存儲系統(tǒng)的數(shù)據(jù)訪問需求,進(jìn)一步發(fā)揮強(qiáng)大的 GPU 計算能力,將性能發(fā)揮到極致,焱融技術(shù)團(tuán)隊歷時6個月的時間完成對NVIDIA GPUDirect Storage(GDS)的適配開發(fā),實(shí)現(xiàn)以直接內(nèi)存的存取方式,將數(shù)據(jù)傳輸至GPU內(nèi)存上,顯著降低I/O延遲,提升數(shù)據(jù)帶寬。
(資料圖片)
GDS簡述
現(xiàn)代 AI 和數(shù)據(jù)科學(xué)工作是由大量數(shù)據(jù)驅(qū)動的,隨著人工智能以及高性能運(yùn)算的數(shù)據(jù)集規(guī)模不斷增加,GPU 計算和數(shù)據(jù)中心存儲系統(tǒng)之間的快速通信變得至關(guān)重要。數(shù)據(jù)從 NVMe 磁盤傳輸?shù)?GPU 內(nèi)存的標(biāo)準(zhǔn)路徑,傳統(tǒng)的方式是由 CPU 控制的,使用系統(tǒng)內(nèi)存中的回彈緩存(Bounce Buffer)做數(shù)據(jù)的中轉(zhuǎn)。這種操作過程會產(chǎn)生額外的數(shù)據(jù)拷貝工作,造成很大的系統(tǒng)開銷。當(dāng)數(shù)據(jù)集的規(guī)模不斷增加,應(yīng)用程序載入數(shù)據(jù)花費(fèi)的時間會變得越來越長,進(jìn)而影響了應(yīng)用運(yùn)行的性能。
NVIDIA GPUDirect Storage(GDS) 技術(shù)通過 DMA 引擎將硬盤數(shù)據(jù)直接寫入 GPU 顯存,這種以直接內(nèi)存的存取方式,避免了內(nèi)存 bounce buffers 所帶來的額外數(shù)據(jù)拷貝,從而實(shí)現(xiàn) CPU 和主存的 IO 旁路,使 IO 吞吐能力不再受限于系統(tǒng)總線的帶寬壓力。近來,由于高速 RDMA 網(wǎng)絡(luò)的普及,GPUDirect storage 可以高效地直接訪問遠(yuǎn)端存儲設(shè)備,諸如一些 NVMe的 target 方案和一些企業(yè)級分布式存儲產(chǎn)品,它能有效減輕 CPU I/O 瓶頸,提升數(shù)據(jù)傳輸?shù)?I/O 帶寬的同時,降低I/O延遲。
支持GPUDirect技術(shù)的性能收益
英偉達(dá)開發(fā)的 GPUDirect Storage 技術(shù),大幅提升 GPU 載入大型數(shù)據(jù)集的速度。GDS 通過更快、更直接的數(shù)據(jù)路徑提高了存儲和 GPU 之間數(shù)據(jù)移動的效率。數(shù)據(jù)直接從主機(jī)上的網(wǎng)卡(NIC)傳輸?shù)?GPU,而不需要經(jīng)過系統(tǒng)內(nèi)存和 CPU。這種方式消除了系統(tǒng)架構(gòu)中 IO 路徑瓶頸,減少了不必要的數(shù)據(jù)復(fù)制,降低了延遲,同時,釋放出來的計算資源還可用于深度學(xué)習(xí)中諸如圖形處理等其他業(yè)務(wù)。NVIDIA 表示通過支持 GPUDirect 技術(shù)能夠帶來多方面的性能收益:
? GDS 在存儲和 GPU 之間提升 2~8 倍的數(shù)據(jù)傳輸帶寬。
? 避免了 CPU 在內(nèi)存中的 bounce buffers 拷貝,在某些場景下端到端傳輸?shù)难舆t能夠?qū)崿F(xiàn) 3.8x 的降低。
? 當(dāng) GPU 并發(fā)度增加時,GDS 仍然保持穩(wěn)定的低延遲輸出。
? GPU 不僅作為實(shí)現(xiàn)最高帶寬的計算引擎,同時也作為實(shí)現(xiàn)最高 IOPS 的計算引擎。
? 在某些場景的實(shí)測數(shù)據(jù)表明,如果單純使用 CPU,吞吐率僅能達(dá)到 50GB/s;而在使用 GPU 之后,吞吐率可達(dá)到 215 GB/s。因此,能支持GDS的存儲系統(tǒng)更能充分匹配前端的異構(gòu)計算能力。
GPUDirect Storage 架構(gòu)圖
焱融分布式文件存儲系統(tǒng) YRCloudFile 支持 GDS 的大體流程:
YRCloudFile 客戶端向 nvidia-fs 注冊后,cuFile 打開一個 YRCloudFile 集群文件,會將 nvidia-fs 和 YRCloudFile 的特定接口進(jìn)行綁定,當(dāng) io 下發(fā)到 client 中,client 檢測該 IO 是否是 GDS 的請求,如果是,則回調(diào) nvidia-fs 的 map 接口,獲得 sglist 請求的 dma 地址,借助底層驅(qū)動能力,實(shí)現(xiàn)數(shù)據(jù)的RMDA 傳輸。
NVIDIA?Magnum IO GPUDirect? 技術(shù),能夠顯著降低 GPU 服務(wù)器內(nèi)的 CPU 占用率,增加存儲帶寬并減少延遲。焱融科技是國內(nèi)支持 GPUDirect? 功能的首家分布式文件存儲廠商,能夠更好地管理數(shù)據(jù)路徑。焱融文件存儲系統(tǒng)與 GDS 的組合使得數(shù)據(jù)在應(yīng)用程序和存儲之間通過更短、更有效的路徑傳輸,實(shí)現(xiàn) 1+1>2 的功能效果。從而使支持 GDS 的應(yīng)用程序能夠充分釋放 GPU 計算能力,為人工智能和機(jī)器學(xué)習(xí)(AI/ML)以及數(shù)據(jù)分析等業(yè)務(wù)加速。
2022 年,焱融追光全閃文件一體機(jī)單存儲節(jié)點(diǎn)達(dá)到 40GB/s+ 帶寬和 200萬+ IOPS 性能,并應(yīng)用于人工智能、智能汽車、智能制造、教育等行業(yè)生產(chǎn)環(huán)境中,為企業(yè)用戶成功構(gòu)建高性能存儲平臺。在服務(wù)全球 500 強(qiáng)制造業(yè)的客戶中,完成國內(nèi)首個雙 200Gb 網(wǎng)絡(luò)聚合分布式文件存儲集群部署,實(shí)現(xiàn) AI 計算平臺破千萬 IOPS 性能實(shí)踐。
關(guān)鍵詞:
關(guān)于我們 廣告服務(wù) 手機(jī)版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:435 226 40@qq.com