職位描述:
1. 負(fù)責(zé)私有云平臺的7*24小時日常監(jiān)控、告警處理、告警派單和故障調(diào)度工作,確保系統(tǒng)穩(wěn)定運行;
2. 負(fù)責(zé)告警執(zhí)行質(zhì)量跟蹤、分析和總結(jié),優(yōu)化告警閾值和監(jiān)控策略,減少誤報和漏報;
3. 負(fù)責(zé)平臺缺陷分析與修復(fù),推動系統(tǒng)可靠性提升,保障業(yè)務(wù)連續(xù)性;
4. 負(fù)責(zé)運維文檔編制、更新及流程優(yōu)化,制定運維管理策略(包括服務(wù)流程、SLA管理、安全合規(guī)),提升團隊工作效率和標(biāo)準(zhǔn)化水平;
5. 規(guī)劃云平臺服務(wù)架構(gòu)與網(wǎng)絡(luò)架構(gòu),主導(dǎo)部署上線、擴容及遷移工作,實施云平臺資源全生命周期管理(申請、開通、運行、回收),進行資源容量規(guī)劃與優(yōu)化,確保平臺安全與數(shù)據(jù)安全合規(guī);
6. 負(fù)責(zé)大數(shù)據(jù)平臺(Hadoop、Spark、Flink、Kafka等)及大模型平臺的日常運維、性能調(diào)優(yōu)、故障排查,保障高可用性,實施平臺安全加固與數(shù)據(jù)安全策略,持續(xù)優(yōu)化資源利用率;
7. 負(fù)責(zé)客戶溝通與技術(shù)支持,提供場景化運維服務(wù)方案,培養(yǎng)客戶自主運維能力,確保運維服務(wù)SLA達標(biāo);
8. 協(xié)同研發(fā)團隊推動產(chǎn)品問題閉環(huán),分析客戶需求驅(qū)動平臺迭代優(yōu)化,參與資源規(guī)劃與成本控制。
職位要求:
1. 本科及以上學(xué)歷,計算機及相關(guān)專業(yè),3年以上云運維或IT基礎(chǔ)設(shè)施運維經(jīng)驗;
2. 熟悉主流操作系統(tǒng)(Linux/UNIX/Windows)的基本操作與日常維護;
3. 熟悉網(wǎng)絡(luò)、存儲、服務(wù)器、數(shù)據(jù)庫等IT基礎(chǔ)設(shè)施運維知識,具備扎實的Troubleshooting能力;
4. 工作認(rèn)真、細(xì)心、耐心,具備強烈責(zé)任感和抗壓能力;
5. 具備良好溝通能力與團隊協(xié)作精神,能有效跨部門協(xié)作;
6. 熟悉主流云平臺(如阿里云/騰訊云/私有云)運維操作,有云平臺規(guī)劃、部署、遷移經(jīng)驗;熟悉云平臺資源全生命周期管理流程,具備資源容量規(guī)劃與優(yōu)化經(jīng)驗;具備平臺安全與數(shù)據(jù)安全實施經(jīng)驗,了解安全合規(guī)要求(如等保、GDPR);
7. 熟悉Hadoop、Spark、Flink、Kafka等大數(shù)據(jù)生態(tài)組件運維,有深度調(diào)優(yōu)經(jīng)驗;熟悉Docker、Kubernetes等容器技術(shù),具備大模型平臺部署與推理優(yōu)化經(jīng)驗;熟悉Golang/Python腳本開發(fā),有Ansible/Saltstack自動化工具經(jīng)驗;
8. 有大型IT系統(tǒng)實施或大模型項目落地經(jīng)驗者優(yōu)先。