算力改變世界,算力讓世界更美好。
這幅懸掛在聯(lián)泰集群(北京)科技有限責任公司(以下簡稱:聯(lián)泰集群)辦公區(qū)的標語讓人印象深刻。“我們成立初就提供高性能計算集群產品與服務”,聯(lián)泰集群軟件產品中心總監(jiān)孫建軍介紹說?!安贿^伴隨著近些年算力崛起和多種應用需求的迭代,如今的聯(lián)泰集群也提供了包括大數(shù)據(jù)、深度學習、人工智能、云計算等眾多領域的算力產品”。
聯(lián)泰集群軟件體系
當筆者問到“聯(lián)泰集群的軟件也是服務于這些產品嗎?孫建軍笑著說:“可以這么理解,不過從廣義來說,高性能計算集群服務本身就是軟硬件一體的模式,聯(lián)泰集群輸出的也是整體化的、軟硬件協(xié)同的解決能力。特別是伴隨著AI應用的興起,如今我們的軟件產品和服務也更為豐富;在很多專業(yè)的豎直應用領域我們的軟件產品有著很深的經(jīng)驗積累”。
的確,高性能計算本身就是軟硬件結合的學科。與許多人印象中冷冰冰的機器不同,高性能計算一方面需要強大的硬件基礎設施支持,但另一方面也需要配套的軟件調度支持;而軟件層面的算力優(yōu)化和優(yōu)良的運維交互能力,同樣會體現(xiàn)出不同品牌的差異化價值。就好比我們每個人用的手機,即便是相同的處理器規(guī)格、相同的運存容量,不同的操作系統(tǒng)創(chuàng)造了不同的應用環(huán)境,也帶給了用戶不同的體驗,這一點許多人都有感受——即便是同一部手機,在安裝不同的操作系統(tǒng)后,性能和體驗表現(xiàn)也會不同。
這也正是孫建軍所在中心的價值體現(xiàn)。近些年,我國在高性能計算領域成績斐然,我們在硬件領域的實力已經(jīng)得到驗證,但是在軟件適配性上,我們依然有很長的路要走。從這個角度來說,要想實現(xiàn)中國從“高性能計算大國”到“高性能計算強國”的轉變,硬件與軟件應用缺一不可,這也同樣需要包括產學研用在內各方面的共同努力。而聯(lián)泰集群作為中國高性能計算領域的“應用先鋒”,這一點也是責無旁貸。
“先鋒”一詞這并非是對聯(lián)泰集群的刻意夸獎。早在2019年的HPCChina全國高性能計算學術年會上,聯(lián)泰集群便榮獲了“推動高性能集群應用普及先鋒獎”,而在隨后的2020年和2021年中國超級算力大會(ChinaSC)上,聯(lián)泰集群同樣憑借出色的性能在AIPerf500人工智能性能排行榜中排名靠前,展現(xiàn)了強大的整體實力。能夠在競爭激烈的高性能計算市場獲得這樣的成就已經(jīng)難能可貴,也證明聯(lián)泰集群是一家深耕技術與應用的公司。
“我們服務過很多的客戶,我們把相應的服務技術能力和服務經(jīng)驗固化為最佳實踐,最終通過聯(lián)泰集群軟硬件一體化的形式交付給客戶”,孫建軍介紹說。相對于其他高性能解決方案提供商來說,聯(lián)泰集群最特別的就是有10余年的高性能計算豎直應用領域的行業(yè)積淀;同時不斷用工匠精神打磨優(yōu)化軟件產品。眾所周知,科研領域一直是高性能計算應用的重點,而包括流體力學、分子動力學等專業(yè)中聯(lián)泰集群都有豐富的解決能力與技術經(jīng)驗的沉淀,可以為客戶提供包括計算、調度與綜合管理等功能的軟件在內的整套解決方案?!笆褂寐?lián)泰集群的軟件產品,不論客戶是做高性能科學計算,還是私有云、深度學習等方面的應用,平臺級的優(yōu)化與軟件支持我們已經(jīng)幫客戶解決掉了,客戶只需專注于自己的作業(yè)代碼編寫、業(yè)務模型、算法本身的優(yōu)化等工作就可以了,這樣大大提升了客戶的算力效率”。
在深度學習方面,聯(lián)泰集群提供一站式的LtAI異構資源管理平臺;在云計算方面,聯(lián)泰集群提供LtCloud云資源管理平臺,在高性能HPC應用方面,聯(lián)泰集群提供LtHCS高性能計算集群系統(tǒng)。各個軟件都從算力效率與用戶體驗輸出最佳實踐。在我們提到的LtHCS高性能計算集群系統(tǒng)中,產品采用了可視化的方式,可以讓用戶通過易用的Web圖形操作界面,高效的使用HPC計算集群中的各種計算資源。相對于傳統(tǒng)的代碼管理來說,這種圖形界面的好處就在于簡化使用者的應用難度,降低了操作的繁瑣性,也提升了用戶團隊的管理效率。與此同時,該系統(tǒng)還可以針對計算資源提供核心指標的監(jiān)控統(tǒng)計數(shù)據(jù),以方便用戶進一步優(yōu)化作業(yè)任務、高效的調度計算資源。
結合當下行業(yè)自動化運維、智能運維等應用特性,這套系統(tǒng)也提供了許多智能化的管理功能。比如,自動化作業(yè)管理功能可以幫助用戶自動將作業(yè)腳本分發(fā)到特定分區(qū)的計算節(jié)點,按約定時間啟動作業(yè)任務。使用者直接在管理平臺就可以查看實時的作業(yè)計算結果,并隨時查看作業(yè)的運行狀態(tài);節(jié)點自動SSH管理功能可以幫助管理員直接通過Web端連接到具體的計算節(jié)點做節(jié)點運維,不需輸入計算節(jié)點服務器的帳號數(shù)據(jù)。對于大型的集群環(huán)境來說也能極大的提升了運維效率等等。
除了智能化之外,異構適配也是當下高性能計算平臺架構的重要發(fā)展方向,比如GPU計算、FPGA加速等等,再比如對于ARM、RISC-V等平臺的支持。以往,高性能計算大多使用的是x86架構,而要進行這種異構支撐則需要進行代碼遷移,這是一項耗時耗力的工作,也會因此延誤客戶的應用進度,進而影響作業(yè)項目的交付周期。
為了解決這一問題,聯(lián)泰集群的軟件團隊經(jīng)過技術攻關,提供了一種類似于“樂高積木”的混搭方案。在最初規(guī)劃階段,就設計了異構平臺復用架構,并實現(xiàn)了代碼不同應用層的“解耦”。這樣一來,針對不同的硬件架構的適配調優(yōu)就會變得簡單,而上層代碼就可以無縫遷移,大大提升了效率,縮短了開發(fā)周期?!拔覀冊谠O計的時候就考慮到了復用和重構的問題,留有充足的空間”。
如今,聯(lián)泰集群已經(jīng)深入科研、企業(yè)、互聯(lián)網(wǎng)等多個領域當中,我們熟悉的清華大學、北京大學、北京航空航天大學等諸多名校都是聯(lián)泰集群的優(yōu)質客戶。不僅如此,在于這些客戶合作的過程中,聯(lián)泰集群還開發(fā)出一種“產學研聯(lián)動”的服務模式,與高校的科研力量進行合作技術開發(fā),并攜手清華大學、中科院、英偉達、北京協(xié)同創(chuàng)新研究院等多家單位共同推動高性能計算應用的發(fā)展。
當然聯(lián)泰集群的未來之路還遠不止如此。伴隨著當下企業(yè)級市場云應用的大趨勢,聯(lián)泰集群也在積極探索算力云應用的新方式,也計劃攜手合作伙伴提供開放的云算力平臺,實現(xiàn)私有云與公有云的雙重服務體系。在談到2022年發(fā)展的時候,孫建軍表示伴隨著算力需求的不斷提升,伴隨著人工智能應用的逐漸繁榮,未來聯(lián)泰集群也將幫助更多的客戶解決更多的實際問題,推動產業(yè)的快速發(fā)展;聯(lián)泰集群也將一如既往,協(xié)助各位合作伙伴們提升算力能力,為算力賦能。
正如聯(lián)泰集群墻上的標語那樣:“做最好的聯(lián)泰(集群),做最好的自己”。
關鍵詞: 聯(lián)泰集群
關于我們 廣告服務 手機版 投訴文章:39 60 2 914 2@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報網(wǎng) 版權所有 聯(lián)系網(wǎng)站:39 60 2 914 2@qq.com