北京2026年4月23日 /美通社/ -- 摘要:上海開赟數字技術有限公司(下文簡稱開赟)聯手IBM,基于IBM Spectrum LSF(下文簡稱LSF)高性能作業調度和資源管理平臺,針對內存資源優化,推出了一套 "預、調、控、監"深度組合拳,助力企業在算力成本風暴中實現降本增效。
在半導體供應鏈劇烈波動的今天,服務器內存等核心硬件價格一路走高。對于依賴高性能計算(HPC)的企業而言,以往那種"硬件不夠就繼續堆硬件"的粗放模式,已經難以為繼。成本壓力之下,如何在不盲目采購新設備的前提下,充分挖掘現有每一根內存條的潛力,已成為關乎企業核心競爭力的關鍵課題。
上海開赟數字技術有限公司(下文簡稱開赟)聯手IBM,基于IBM Spectrum LSF(下文簡稱LSF)高性能作業調度和資源管理平臺,針對內存資源優化,推出了一套 "預、調、控、監"深度組合拳,助力企業在算力成本風暴中實現降本增效。
用戶提交作業時,常因無法準確預估內存消耗而采取"寧多勿少"的策略。這種做法看似穩妥,實則導致大量內存資源被申請后長期閑置,集群無法接納新作業,整體利用率低下。
LSF Predictor結合IBM watsonx的機器學習能力,有效的解決了這一問題,系統會自動分析歷史作業的特征(用戶、提交命令、輸入數據等),訓練出高精度的預測模型。當用戶再次提交作業時,系統會智能預測出作業所需要的內存資源和運行時間,從源頭上打破資源虛標,讓集群內存利用率實現質的飛躍。
簡單的調度策略容易造成內存碎片化,大作業進不來,小作業填不滿,集群利用率始終徘徊在低位。就像俄羅斯方塊堆砌不整,需要經過智能編排,才能合理利用空間、減少資源浪費。
開赟利用 LSF 的高效調度算法,實現對內存資源的"顆粒級"掌控。以回填調度機制為例,當系統為高優先級的大作業預留內存時,調度器會自動尋找時間縫隙,安排短小作業利用等待空窗期運行,確保內存始終處于滿載狀態。而親和性調度則確保計算核心優先訪問最近的本地內存,通過提升作業運行速度來縮短內存占用周期,變相提高資源周轉率。類似這樣提升內存利用率的調度策略,在LSF中還有很多。開赟基于LSF,已經積累了豐富的實踐經驗。
某些異常作業或存在內存泄露的程序,可能會吞噬整臺服務器的資源,導致系統宕機,影響其他作業。為此,LSF 提供了多維度的機制,來確保內存資源得到合理利用。
LSF提供了兩種內存限制策略:軟限制和硬限制。軟限制相當于一條"預警線",系統會盡量將作業的內存消耗控制在此范圍內,但允許短暫超出,給予一定的緩沖。而硬限制則是一條不可逾越的"紅線",一旦作業觸及,LSF會立即將其終止,防止單個作業拖垮整個節點。同時LSF可與Linux底層容器技術深度集成,為每個作業構建多層次的內存防護體系,確保集群整體穩定。與此同時,動態搶占機制還允許核心業務在資源緊張時,"借用"低優先級作業的內存,保障關鍵任務優先運行。通過這種"軟硬兼施"的策略組合,集群能夠在穩定運行的前提下,最大化內存資源的有效利用。
實時"監"控讓浪費無處藏身
如果沒有精細的監控,管理員往往難以直觀發現集群中哪些作業占用了大量資源卻幾乎沒有實際計算貢獻,優化工作也就缺乏明確的數據支撐。
借助LSF監控平臺,系統能實時識別申請了高額內存、但負載極低的作業,并自動生成按部門、項目組、用戶等多維度劃分的詳細資源消耗報告。還可以借助開赟ICP智能算力平臺,以IBM LSF為底層核心引擎,進一步實現調度、監控、分析與優化的一體化,為企業提供從算力分配到資源優化的全生命周期管理。
這些報告清晰展示了每一部分資源的實際使用效率,幫助管理員快速定位浪費源頭,及時回收閑置內存。同時,這些數據也為日常調度策略的調整提供了客觀依據,并為未來的硬件采購、集群擴容或架構優化構建了科學的決策閉環,讓每一次資源投入都有據可查、有數可依。
以某國內領先的芯片設計企業為例,該客戶在EDA仿真場景下面臨嚴重的內存資源浪費問題,集群整體內存利用率長期不足50%,即便持續擴容硬件,作業排隊現象依然嚴重。
開赟基于上述的LSF的"預、調、控、監"組合拳,為該客戶構建了精準的內存資源管理體系。上線后,集群內存利用率提升至78%以上,作業平均等待時間縮短超過30%,這意味著,在不新增硬件的情況下,變相釋放出數十臺服務器的算力容量,每年為客戶節省硬件采購成本數百萬元。
用戶對內存的使用率越來越重視,為了響應需求,LSF 即將發布的新版本中,將新增一項內存報告功能,大幅增強對作業內存使用情況的統計能力。該功能不僅可以從作業粒度查看內存數據(如申請的內存、實際使用的峰值和平均值,以及 swap 用量),還能提供衍生指標(包括內存浪費或不足、使用壓力、風險等級、峰值與均值的對比),并支持按運行時長加權計算整體內存使用效率。在統計總覽中,還可以看到平均內存用量、作業申請的合理性、風險分布,以及整體內存預留、使用、浪費與不足的累計情況,便于全面評估集群的內存利用率和作業申請的合理性。
在硬件價格持續高漲的當下,"精耕細作"已不再是錦上添花,而是HPC持續發展的必然選擇。上海開赟與IBM聯合打造的這套組合方案,將AI的智能預測、調度的精細控制、風控的嚴密邊界與監控的透明可視融為一體,形成了一套完整的資源優化閉環。通過技術手段,讓企業每一分硬件投入都轉化為實實在在的科研產出與生產效率,實現真正意義上的"降本增效"。
上海開赟數字技術有限公司副總經理楊杰表示:"在硬件成本持續高企的背景下,HPC集群的內存利用率,直接決定了企業的研發效率與競爭力。開赟基于LSF打造的‘預、調、控、監'方案,從AI預測到精細化調度,再到多層次透明監控,真正幫助企業用好每一字節內存。這不僅是技術升級,更是算力管理理念的革新。"
IBM中國科技事業部架構師何金池表示:"LSF的核心優勢不僅在于其強大的調度能力,更在于它能夠與AI等前沿技術深度融合,讓資源預測從‘憑經驗'變成‘靠數據',解決用戶最真實的痛點。此外,LSF通過智能的數據管理機制,進一步優化了作業執行過程中的數據訪問與遷移效率。LSF還有非常豐富的調度策略,全方位保障集群的高效運行。
IBM大中華區自動化業務總經理許偉杰表示:"當前,算力已成為企業數智化轉型的核心承載力,提效的關鍵在于資源的精細化管理。我們攜手開赟,基于LSF打造了從調度、預測到監控的閉環方案,幫助企業在不增購硬件的前提下,充分釋放現有算力潛力。未來,IBM將持續深耕HPC領域的技術創新,助力企業真正實現降本增效與業務增長的雙贏。"
上海開赟數字技術有限公司,是一家高科技數字技術創新企業,專精特新企業,小巨人企業。我們專注于「先進信息技術服務」和「智能制造場景軟件研發」兩個核心業務,為廣大客戶提供先進生產力建設、數字化轉型、大數據和人工智能技術。在「先進信息技術服務」領域,開赟提供包括智能算力、AI、大數據、云計算、信息安全等眾多技術場景的應用、構建、運維;在「智能制造場景軟件研發」領域,開赟通過開赟ICP智能算力平臺、CMES智能制造軟件、CCLab-WorkFlow智能工作流軟件等相關產品,為客戶創造業務價值。
IBM 是全球領先的混合云、人工智能及企業服務提供商,幫助超過 175個國家和地區的客戶,從其擁有的數據中獲取商業洞察,簡化業務流程,降低成本,并獲得行業競爭優勢。金融服務、電信和醫療健康等關鍵基礎設施領域的超過 4000家政府和企業實體依靠 IBM 混合云平臺和紅帽 OpenShift 快速、高效、安全地實現數字化轉型。IBM 在人工智能、量子計算、行業云解決方案和企業服務方面的突破性創新為我們的客戶提供了開放和靈活的選擇。對企業誠信、透明治理、社會責任、包容文化和服務精神的長期承諾是 IBM 業務發展的基石。
IBM 媒體聯絡人:陳赟,chychen@cn.ibm.com