發布時(shi)間:2021-01-21
默(mo)不作(zuo)聲的小“工匠(jiang)”
2021年(nian)1月(yue)18日晚(wan)上8點22分(fen),北方廣電(dian)網(wang)絡公司(si)運(yun)行保障(zhang)中心(xin)(xin)IT支撐組負(fu)責人楊健(jian)離開核心(xin)(xin)機房后,終(zhong)于松了(le)一(yi)口氣。當天,他(ta)在(zai)不(bu)依賴廠家技術人員指(zhi)導的情況下,獨立(li)排除硬件(jian)故障(zhang)并成功(gong)修復了(le)損壞系(xi)統(tong),為公司(si)節省(sheng)15000余元的修復費用。說起這次(ci)系(xi)統(tong)故障(zhang),時間(jian)還要倒退到11個小時之前(qian)。
1月(yue)18日上午9點,北(bei)方廣電網(wang)絡公(gong)(gong)司(si)(si)(si)運(yun)營(ying)支(zhi)撐監控系統(tong)突(tu)然報警(jing),供(gong)(gong)應商管理系統(tong)出現故障。作(zuo)為公(gong)(gong)司(si)(si)(si)官(guan)方網(wang)站一級(ji)頁面的重要組成內容,供(gong)(gong)應商系統(tong)停止(zhi)工(gong)作(zuo)會導致公(gong)(gong)司(si)(si)(si)網(wang)站部分(fen)功能缺失,影響(xiang)(xiang)公(gong)(gong)司(si)(si)(si)采購項目信(xin)息的公(gong)(gong)告公(gong)(gong)示,使(shi)供(gong)(gong)應商無法按時上傳審核材料。如果(guo)不(bu)及時修(xiu)復(fu)故障,會對公(gong)(gong)司(si)(si)(si)品(pin)牌(pai)形象造成嚴重的負(fu)面影響(xiang)(xiang)。
“從系統的(de)損壞程(cheng)度(du)判(pan)斷(duan),已經(jing)不具備遠程(cheng)服(fu)務(wu)的(de)條件。”楊(yang)健說(shuo),受(shou)新冠疫情(qing)及換(huan)修硬(ying)件采購時(shi)間等因素(su)影響(xiang),廠(chang)家提供有償上門維(wei)(wei)修服(fu)務(wu)至少要一天以(yi)后才(cai)能進行。此時(shi),面對緊迫(po)的(de)搶修任務(wu),他決定先自行開展維(wei)(wei)修工作。
楊健(jian)根據(ju)(ju)多(duo)年的(de)(de)運(yun)維工(gong)作經驗判斷,故障初步(bu)原因是硬(ying)件(jian)(jian)RAID板(ban)卡(ka)損(sun)壞(huai)。如果(guo)直(zhi)接(jie)更(geng)換RAID板(ban)卡(ka),需要聯系廠家進行(xing)(xing)購買,采(cai)購周期(qi)時間較長(chang),服務器內的(de)(de)數(shu)據(ju)(ju)也會(hui)有丟失的(de)(de)風險。為(wei)了盡(jin)快完成(cheng)維修,確保數(shu)據(ju)(ju)安(an)全,首選方案(an)是修復(fu)RAID板(ban)卡(ka)。楊健(jian)先從其它(ta)備件(jian)(jian)中拆卸并更(geng)換了RAID板(ban)卡(ka)中損(sun)壞(huai)的(de)(de)原件(jian)(jian),將修復(fu)好的(de)(de)RAID板(ban)卡(ka)安(an)裝在其它(ta)測試服務器上運(yun)行(xing)(xing),成(cheng)功(gong)恢(hui)復(fu)了5塊硬(ying)盤(pan)(pan)的(de)(de)正(zheng)常陣(zhen)列(lie)信息。通過系統安(an)裝光(guang)盤(pan)(pan)引導計算(suan)機,訪問到(dao)硬(ying)盤(pan)(pan)陣(zhen)列(lie)中的(de)(de)原始數(shu)據(ju)(ju)。他(ta)深知(zhi)數(shu)據(ju)(ju)的(de)(de)重要性(xing),不能(neng)莽撞行(xing)(xing)事。為(wei)避免給(gei)公司造(zao)成(cheng)更(geng)大的(de)(de)損(sun)失,他(ta)用(yong)最原始的(de)(de)外部(bu)存儲(chu)方式備份數(shu)據(ju)(ju)。受單線程命令及外部(bu)存儲(chu)接(jie)口速(su)率的(de)(de)限制,全部(bu)文件(jian)(jian)的(de)(de)分析及備份工(gong)作歷時6個多(duo)小時。
數據(ju)安全了,懸著的(de)(de)心終于落地。但在(zai)隨后的(de)(de)檢(jian)查中楊健(jian)再次發現新(xin)問題:服務器操作系統(tong)(tong)文(wen)件(jian)損壞(huai)非常(chang)嚴(yan)重(zhong),已無法(fa)正常(chang)運行。“操作系統(tong)(tong)核心數據(ju)損壞(huai),最有效(xiao)的(de)(de)方式就(jiu)是重(zhong)新(xin)安裝系統(tong)(tong),但這需要廠商(shang)的(de)(de)配合(he)才能完成(cheng)。”而此時并不具備這樣的(de)(de)條件(jian),楊健(jian)只能在(zai)現場獨立修復(fu)受損的(de)(de)系統(tong)(tong)。系統(tong)(tong)文(wen)件(jian)相互調用(yong),結構復(fu)雜(za),楊健(jian)在(zai)摸索中一點(dian)點(dian)進行。
歷時11個小(xiao)時,當日(ri)晚上8點,楊(yang)健終于排除硬件(jian)故障并成(cheng)功修復(fu)了損(sun)壞系(xi)統(tong),供應商管理系(xi)統(tong)重新恢復(fu)運行。
打破廠商技術限制,自主完成設備優化
楊健(jian)2008年入職(zhi)于(yu)北方(fang)廣電網絡(luo)公司,先后就職(zhi)于(yu)運營支撐(cheng)部(bu)、運行保障(zhang)中心(xin),長(chang)期從事硬件架構設計、軟件開發(fa)部(bu)署、設備運行維護等工(gong)(gong)作。他(ta)責任心(xin)強,不懼困(kun)難(nan),樂于(yu)專(zhuan)研(yan)。不滿足只做好本職(zhi)工(gong)(gong)作的(de)楊健(jian),通過堅(jian)持不懈的(de)努力學(xue)習和在技(ji)術一線的(de)工(gong)(gong)作實踐(jian),使他(ta)對運維工(gong)(gong)作有了更全面和深入的(de)認識。
楊健工作照
對(dui)(dui)于運維(wei)工(gong)作(zuo)來說,“穩(wen)”是(shi)工(gong)作(zuo)的(de)(de)核心,而“變”意味著(zhu)要(yao)打(da)破(po)常規(gui),突破(po)規(gui)則,“穩(wen)”和“變”看似是(shi)對(dui)(dui)立矛盾。但(dan)在楊健(jian)看來,“穩(wen)”和“變”并不(bu)(bu)矛盾。隨著(zhu)公(gong)司5G業(ye)務(wu)的(de)(de)逐步開(kai)展(zhan),對(dui)(dui)運維(wei)人員技(ji)術(shu)能力、管理水(shui)平等多方面都(dou)提出了(le)更高的(de)(de)要(yao)求,如果運維(wei)工(gong)作(zuo)按部(bu)就班,不(bu)(bu)以發展(zhan)趨勢而創新(xin),在技(ji)術(shu)上止(zhi)步不(bu)(bu)前,習慣依賴(lai)于外部(bu)的(de)(de)技(ji)術(shu)支持,那么我們只能為此付出高額(e)的(de)(de)“學費”。“公(gong)司作(zuo)為創新(xin)技(ji)術(shu)型企(qi)業(ye),更需要(yao)穩(wen)中應變,變中求進,牢牢掌握(wo)工(gong)作(zuo)的(de)(de)主動權。”楊健(jian)說。
幾年前,全省BOSS系(xi)統(tong)整合后遇到(dao)了性能瓶頸。如果按照廠(chang)商(shang)提供的(de)技(ji)術改造方案,公司(si)將付出高額(e)的(de)服務費用(yong)。為了打破廠(chang)商(shang)技(ji)術和(he)價(jia)格的(de)壟斷,經公司(si)領導商(shang)議(yi)后決定(ding)自(zi)主進行升級改造。當時國內可供參考的(de)技(ji)術資(zi)(zi)料非常有(you)限(xian),僅有(you)兩三(san)篇技(ji)術資(zi)(zi)料和(he)廠(chang)商(shang)提供的(de)宣傳(chuan)技(ji)術概念(nian)。楊(yang)健根據豐富(fu)的(de)知識儲備和(he)多年從事運維系(xi)統(tong)維護(hu)的(de)經驗,悉心研究(jiu)架構(gou),最終達到(dao)了既定(ding)優化(hua)目(mu)的(de),成功實施了BOSS系(xi)統(tong)的(de)優化(hua)和(he)割接。每年為公司(si)節省系(xi)統(tong)服務費50余(yu)萬(wan)元(yuan),系(xi)統(tong)運行至今(jin)未購買維保服務,間(jian)接節省運維成本200余(yu)萬(wan)元(yuan)。
北方廣電網絡公司多(duo)功能(neng)展(zhan)廳(ting)是公司舉辦大型活(huo)動、對外展(zhan)示公司前(qian)沿業務和產品的重(zhong)要場所(suo)。楊健深知(zhi)保障多(duo)功能(neng)展(zhan)廳(ting)各項設備平穩運行,即是工作任(ren)務,也(ye)是政治責任(ren)。
楊健接手展廳設(she)備維護工(gong)作時,距展廳建成已有4年的時間,部分(fen)設(she)備早以(yi)過了維保期,故障率較高(gao)。在一次高(gao)規格接待(dai)任(ren)務前夕,展廳OTN網沙盤展示區播放控制端主機發生故障,送(song)修后(hou)被告知無(wu)法修復。楊健通過逆向分(fen)析控制端程序了解其運行機制,將其移(yi)植到(dao)一臺筆(bi)記本電腦上,實現(xian)了控制功能。
還有(you)一次(ci),他在調試(shi)投(tou)(tou)影(ying)設備(bei)(bei)時(shi)發現5臺投(tou)(tou)影(ying)設備(bei)(bei)中有(you)1臺投(tou)(tou)影(ying)發生(sheng)故障,導致投(tou)(tou)影(ying)畫面(mian)不完整。這種高(gao)端投(tou)(tou)影(ying)設備(bei)(bei)單價(jia)高(gao)達20萬元,沈陽當地沒有(you)授權(quan)維修(xiu)(xiu)機構,只能送修(xiu)(xiu)北(bei)京。為(wei)確(que)保第二天的(de)接待工作順利(li)進行,楊健連夜加(jia)班,查找問題,最(zui)終修(xiu)(xiu)復了設備(bei)(bei),圓滿(man)的(de)完成(cheng)了當次(ci)接待任務。
以上只是(shi)(shi)他平(ping)凡工作中的縮影。楊健就是(shi)(shi)這樣一(yi)位秉承(cheng)工匠精(jing)(jing)神、嚴謹(jin)認真、精(jing)(jing)益求精(jing)(jing)、有(you)責任心(xin)、有(you)專業技能、肯(ken)鉆研的運保人(ren)。作為一(yi)名共產黨員,他時(shi)刻不忘發揮(hui)先鋒模范作用、任勞任怨,突破傳統思維在其工作中做(zuo)出了卓越的貢獻(xian)。
(運行保障(zhang)中心)