運維行(xíng)業 IT 工程師(shī)分類
1、辦公網MIS工程師(shī)
2、機房(fáng)IDC支持工程師(shī)
3、系統工程師(shī)
4、應用運維工作(zuò)師(shī)
5、網絡工程師(shī)
6、安全工程師(shī)
7、DB工程師(shī)
8、大(dà)數(shù)據工程師(shī)
9、SRE工程師(shī)
10、運維開(kāi)發工程師(shī)
11、虛拟化工程師(shī)(KVM、Docker、k8s、Openstack等)
12、機房(fáng)弱電(diàn)工程師(shī)等等
運維工程師(shī)職責
運維工程師(shī)的職責,就是領導安排你(nǐ)的任務,能夠按時(shí)完成,不能給領導找麻煩,并且領導還(hái)會(huì)要求你(nǐ)負責的服務要保證4個(gè)9或者5個(gè)9,那(nà)麽這裏服務的提供商指的是誰?其實就是我們運維同學、沒有(yǒu)其他人(rén),就是在我們提供的服務與用戶(RD、QA、或者外部用戶等)之間(jiān)定義的一種雙方認可(kě)的協定,一旦協定達成、目标确認後直接挂勾你(nǐ)的KPI,當然有(yǒu)些(xiē)工種,不太适合使用SLA來(lái)定義,但(dàn)大(dà)部分運維工作(zuò)都适用SLA,為(wèi)了完成KPI,你(nǐ)就會(huì)主動的提升服務可(kě)用性、穩定性、為(wèi)部門(mén)減少(shǎo)成本、提高(gāo)工作(zuò)效率,今天簡單介紹下運維工程師(shī)的行(xíng)為(wèi)準則。
1年 = 365天 = 8760小(xiǎo)時(shí)
99.9 = 8760 * 0.1% = 8.76小(xiǎo)時(shí)
99.99 = 8760 * 0.01% = 52.6分鍾
99.999 = 8760 * 0.001% = 5.26分鍾
這裏說明(míng)一下,一定不要再沒有(yǒu)數(shù)據支撐的情況下,向領導承諾4個(gè)9或者5個(gè)9,切忌!!要用數(shù)據說話(huà),說過就要做(zuò)到。
穩定性
1、敬畏之心
(1)操作(zuò)之前能備份的,一定要備份,不要省略,往往它能快速救你(nǐ)一命;
(2)線上(shàng)操作(zuò)必須得(de)到授權,并在測試環境驗證過,或者有(yǒu)多(duō)數(shù)人(rén)共同決策後操作(zuò),别自做(zuò)主張;
(3)能用工具操作(zuò)的事情,别手動上(shàng)去敲所謂高(gāo)大(dà)上(shàng)的命令,能提前寫成腳本操作(zuò)的、不要手動操作(zuò);
(4)對線上(shàng)有(yǒu)影(yǐng)響的操作(zuò),需要評估流量低(dī)峰時(shí)間(jiān)段、錯開(kāi)流量高(gāo)峰(前提得(de)到授權、腳本準備、回退步驟、驗證腳本等等);
(5)未加基礎報警前,請(qǐng)不要上(shàng)線,一定要報警先用業務上(shàng)線;
(6)做(zuò)為(wèi)運維工程師(shī)對報警系統的敬畏之心,早上(shàng)的例行(xíng)巡檢,對曆史故障歸納總結等;
線上(shàng)事故基本上(shàng)都源于以上(shàng)幾條,大(dà)部分故障都源于未經授權、未在測試環境驗證、RD所謂的免測、運維人(rén)員的自信、報警無人(rén)關注等導緻人(rén)為(wèi)事故;
2、故障
(1)故障發生(shēng),優先恢複業務,而不是在哪裏定位問題;
(2)對棘手故障需要有(yǒu)故障升級通(tōng)道(dào),由 Leader 協調一切可(kě)利用資源;
(3)運維工程師(shī)按流程操作(zuò)導緻的故障,不記錄該員工KPI考核中,記錄在Leader KPI考核中,推進流程整改;
(4)沒有(yǒu)按流程操作(zuò)、導緻線上(shàng)重大(dà)故障的,記錄在該工程師(shī)與 Leader KPI 考核中,共同對故障負責;
故障不可(kě)怕、怕相同故障多(duō)次發生(shēng),不以發生(shēng)故障為(wèi)恥、而為(wèi)發生(shēng)相同故障為(wèi)恥;
3、故障casestudy
(1)故障發生(shēng)渠道(dào)、發現時(shí)間(jiān)點、參與人(rén)、故障定位過程、解決過程、故障根因分析,是否需要形成應急預案;
(2)故障是臨時(shí)解決,還(hái)是永久解決、現有(yǒu)環境中是否有(yǒu)類似隐患;
(3)臨時(shí)解決的需要給出整改計(jì)劃,整改計(jì)劃中需要設置跟進人(rén)員(PMO)、驗收人(rén)員(Leader);
很(hěn)多(duō)公司的casestudy都流于形式,并沒有(yǒu)切實執行(xíng)落地,所以需要增加 Leader 驗收,下次再有(yǒu)類似故障,Leader全責。
4、變更
(1)配置代碼必須遵循藍(lán)綠發布原則,測試環境确認無問題後,再上(shàng)線;
(2)備份的重要性、回滾機制(zhì)的建立;
(3)操作(zuò)步驟命令或者工具化、而不是模棱兩可(kě)的文字描述;
(4)QA 自動化測試用例、變更失敗後的回滾機制(zhì)等;
故障的發生(shēng)70%以上(shàng)是變更造成的,對變更要有(yǒu)敬畏之心。
5、輪值
(1)運維人(rén)員在輪值期間(jiān)、一定要保證7*24小(xiǎo)時(shí)待命和(hé)報警的随時(shí)響應,電(diàn)腦(nǎo)和(hé)網絡随時(shí)可(kě)用,缺一不可(kě);
(2)值班期間(jiān)做(zuò)好故障處理(lǐ)、日常工作(zuò)進度記錄,故障用于後續分析,工作(zuò)進度用于把未處理(lǐ)完成的事務交接給下一周期值班人(rén)跟進;
(3)當值過程中出現棘手故障,不能簡單交接下一值班人(rén),需要根據實際情況确認是否有(yǒu)當值人(rén)員處理(lǐ)完後,再下班;
(4)需要把輪值期間(jiān)發現的故障問題,定期組織輪值人(rén)員進行(xíng)學習。
沒有(yǒu)參與過輪值的運維工程師(shī),是另人(rén)羨慕的。
6、業務交接
(1)沒有(yǒu)完整交接文檔的業務不要接手,接手之後沒有(yǒu)完全弄明(míng)白前,不要說交接完成;
(2)業務接手後,需要根據實際情況進行(xíng)故障演練,确保有(yǒu)可(kě)能的故障點;
(3)尤其是離職人(rén)員的業務交接,更需要認真負責、簽字,一旦簽字,你(nǐ)要承擔起所有(yǒu)責任,KPI 中需要有(yǒu)明(míng)确關于業務交接的獎懲措施;
部分公司業務交接基本流于形式,沒有(yǒu)認真履行(xíng)職責。
安全意識
安全是運維工作(zuò)開(kāi)展的前提和(hé)必要條件,有(yǒu)同行(xíng)描述這是一種唇亡齒寒的關系,實為(wèi)貼切。安全上(shàng)出了問題,造成的影(yǐng)響以及後續的修複工作(zuò)都将有(yǒu)運維來(lái)承擔,公司到了一定規模都會(huì)将安全和(hé)運維劃分為(wèi)兩個(gè)獨立團隊,這樣做(zuò)事更專注,也容易做(zuò)好。
1、切忌安全無小(xiǎo)事原則,任何一個(gè)安全小(xiǎo)事,都有(yǒu)可(kě)能造成不可(kě)挽回的局面;
2、運維工程師(shī)應該主動配合安全部門(mén)整改、配合完成各種策略、雖然有(yǒu)的時(shí)候感覺這種策略會(huì)造成一些(xiē)不必要的時(shí)間(jiān),如果站(zhàn)在安全的角度,其實是很(hěn)有(yǒu)必要的。
效率和(hé)成本意識
1、有(yǒu)效率優化意識,瑣事不可(kě)避免,但(dàn)要盡可(kě)能減少(shǎo)瑣事,對重複性、手工性的操作(zuò)能夠工具化的,必須開(kāi)發一些(xiē)自動化工具;
2、由手動操作(zuò)到腳本工具、到平台工具、到産品,這樣即能提高(gāo)效率、降低(dī)成本;
3、節約資源也是減少(shǎo)成本的重要體(tǐ)現,雖然決定不了産品營收多(duō)少(shǎo),但(dàn)可(kě)以通(tōng)過資源整合、彈性伸縮、服務混合部署、架構優化、無流量服務主動下線等手段将有(yǒu)限資源最大(dà)化利用,節省基礎設施資源成本,同時(shí),通(tōng)過效率的提升也可(kě)以優化人(rén)力資源成本。