超算管理平臺采用先進的技術(shù)架構(gòu),將集群計算節(jié)點資源劃分到HPC和AI兩個分區(qū),兩個分區(qū)資源區(qū)別對待,統(tǒng)一納管,做到了兩個分區(qū)的計算資源既相互獨立又相互融合。兩個分區(qū)的計算節(jié)點可以實現(xiàn)一鍵分區(qū)間相互遷移,靈活調(diào)配,滿足用戶在不同時段對AI和HPC業(yè)務(wù)資源的不同需求。為用戶提供了一套既能保證HPC作業(yè)性能無損,又能兼顧HPC和AI操作習慣的集群管理平臺。
超算管理平臺的管理模塊和登錄模塊基于CloudOS云平臺運行,共享頭節(jié)點的硬件資源。頭節(jié)點不再被人為區(qū)分為管理節(jié)點和登錄節(jié)點,做到了硬件資源的拉通使用,提高了資源的利用率,在相同的資源條件下提供了更加穩(wěn)定地冗余備份。云平臺可以根據(jù)管理模塊和登錄模塊的負載情況動態(tài)調(diào)節(jié)兩個模塊所占用的資源,具有極高的可靠性和可擴展性。云平臺實時監(jiān)控管理模塊和登錄模塊的運行狀態(tài),發(fā)生故障時系統(tǒng)可以在秒量級內(nèi)完成故障的發(fā)現(xiàn)和業(yè)務(wù)的恢復(fù)。
超算管理平臺管理員和普通用戶的操作均可在Web上完成,管理員通過Web、WebSSH進行集群部署、集群監(jiān)控等管理工作,普通用戶可以通過Web、WebSSH和noVNC提交作業(yè)、查看作業(yè)結(jié)果、上傳和下載文件、創(chuàng)建和編輯應(yīng)用模板。
管理員可以在計算節(jié)點上同時安裝環(huán)境層同一軟件的不同版本,通過模塊管理實現(xiàn)對軟件版本的管理。用戶可以通過運行環(huán)境選擇模塊管理中的軟件版本,為自己的應(yīng)用構(gòu)建運行環(huán)境。運行環(huán)境可以保存、編輯和分享。