一、任職資格:
1、本科及以上學歷;
2、具備4年及以上主流物理服務器、操作系統(tǒng)維護經(jīng)驗;
3、精通GPU服務器、通算服務器主要部件的基本工作原理,具備GPU復雜故障的獨立排查能力,并進行故障復盤和預防;
4、精通Linux操作系統(tǒng)的日常維護、復雜問題排查,具備shell腳本編程;
5、具備服務器及操作系統(tǒng)相關認證證書人員優(yōu)先,服務器及操作系統(tǒng)相關認證證書包含:RHCA、RHCE、RHCSA、ACP、VCP、VCAP、MCP、CKA、UCP、KYCP、HCIP-openEuler、NCA-AIIO認證等(英偉達認證助理-AI基礎設施與運維)。
二、工作內(nèi)容:
1、負責使用監(jiān)控工具實現(xiàn)GPU服務器、通用算力服務器、操作系統(tǒng)、中間件等軟硬件的性能監(jiān)控、巡檢、配置、升級、安全加固等工作,確保穩(wěn)定運行;
2、負責服務器和操作系統(tǒng)等軟硬件日志分析、性能監(jiān)控、容量規(guī)劃,及時發(fā)現(xiàn)并解決潛在問題,同時編寫和完善服務器和操作系統(tǒng)運維文檔,包括操作手冊、應急預案等;
3、負責GPU算力服務器、通算服務器和操作系統(tǒng)故障處理,快速定位問題和恢復業(yè)務;
4、負責監(jiān)控服務器和操作系統(tǒng)性能指標,分析性能瓶頸,提出優(yōu)化建議,實施服務器和操作系統(tǒng)性能優(yōu)化方案,提升系統(tǒng)性能和資源利用率,跟蹤服務器和操作系統(tǒng)新技術發(fā)展,評估新技術應用價值,推動系統(tǒng)升級改造。