當前背景下,推進交通大數據發展已經成為新時代交通運輸信息化發展的核心內容。大數據時代的數據中心應該如何建設?又應如何運營?福建省高速公路信息科技有限公司運營部主任王陽生在第22屆中國高速公路信息化大會上表達了自己的觀點,他認為,大數據時代數據中心建設需要包括電力系統保障、網絡系統保障、網絡與信息安全保障、虛擬化技術應用、災備系統應用、配套系統應用、智能化運行監測平臺。
電力系統保障需要六套互相備份的電源接入供電保護方案。在日常運維中需要做到以下幾點:定期檢查、保養柴油發電機、應急發電車;
定期檢查外供電線路桿塔情況;
定期檢查UPS運行情況;
互聯網區所有安全設備都配置主模式且橋接到網絡中,所有設備都做了接口聯動。由外而內首先經過出口防火墻,在出口防火墻上做了大量的策略,只放行必要的業務、服務、端口和應用,剩下的訪問全部拒絕;接著經過入侵防御設備,入侵防御設備能夠過濾和抵擋各種網絡攻擊,并統計相關的數據。WAF的作用就是網頁安全檢測、防網頁篡改;最后到達互聯網核心,在互聯網核心交換會將所有流量鏡像到天眼探針和分析平臺,進行流量分析和攻擊分析。同時設置VPN設備和漏洞掃描設備確保授權訪問和定期掃描及時發現操作系統、中間件、數據庫、應用系統漏洞。各網之間設置網閘物理隔離,設置必要的放行策略。數據中心還有綜合網、視頻網和收費網三張專網,且三張專網通過OTN設備連接各地市管理公司。
三張專網的網絡拓撲基本一致,這里以收費網為例,收費網已經通過安全等保三級測評,所有安全設備都符合國標要求。
收費網防火墻處于數據中心收費網邊界,目前以堆疊主主橋接的方式接入網絡只放行相關的端口和業務,其它一律拒絕訪問。
收費網VPN設備、漏掃設備、日志審計設備、數據庫審計設備、堡壘機、天眼探針和分析平臺旁掛到收費網核心下,實現相關設備的功能,具體功能和作用和互聯網區安全設備一致。
相關業務應用系統都部署運行在虛擬化系統中的虛擬機之上。而用戶數據的存儲和管理則使用各類數據庫系統。對數據中心的容災需求總體來說分為兩大部分,即數據容災和應用容災,分別對數據中心進行數據庫的容災和虛擬化應用的容災。在容災架構中,建議同城雙中心有條件的異地雙中心的災備方案。配套系統應用包括空調系統、消防系統、門禁系統、監控系統、綜合布線、監控室。機房環境監控系統是一個綜合利用計算機網絡技術、數據庫技術、通信技術、自動控制技術、新型傳感技術等構成的計算機網絡,提供集中管理監控模式的自動化、智能化和高效率的技術手段,系統監控對象主要是機房動力和環境設備等。配電系統:主要對配電系統的三相相電壓、相電流、線電壓、線電流、有功無功、頻率、功率因數等參數和配電開關的狀態監視進行監視。當一些重要參數超過危險界限后進行報警。UPS電源:通過由UPS廠家提供的通訊協議及智能通訊接口對UPS內部整流器、逆變器、電池、旁路、負載等各部件的運行狀態進行實時監視,一旦有部件發生故障,機房動力環境監控系統自動報警。系統中對于UPS的監控一律采用只監視,不控制的模式。空調設備:通過實時監控,能夠全面診斷空調運行狀況,監控空調各部件(如壓縮機、風機、加熱器、加濕器、去濕器、濾網等)的運行狀態與參數,并能夠通過機房動力環境監控系統管理功能遠程修改空調設置參數(溫度、濕度、溫度上下限、濕度上下限等),以及對精密空調的重啟。空調機組即便有微小的故障,也可以通過機房動力環境監控系統檢測出來,及時采取措施防止空調機組進一步損壞。機房溫濕度:在機房的各個重要位置,需要裝設溫濕度檢測模塊,記錄溫濕度曲線供管理人員查詢。一旦溫濕度超出范圍,即刻啟動報警,提醒管理人員及時調整空調的工作設置值或調整機房內的設備分布情況。漏水檢測:漏水檢測系統分定位和不定位兩種。所謂定位式,就是指可以準確報告具體漏水地點的測漏系統。不定位系統則相反,只能報告發現漏水,但不能指明位置。系統由傳感器和控制器組成。控制器監視傳感器的狀態,發現水情立即將信息上傳給監控PC。測漏傳總器有線檢測和面檢測兩類,機房內主要采用線檢測。煙霧報警:煙霧探測器內置微電腦控制,故障自檢,能防止漏報誤報。當有煙塵進入電離室會破壞煙霧探測器的電場平衡關系,報警電路檢測到濃度超過設定的閾值進行報警。視頻監控:機房環境監控系統集成了視頻監控,圖像采用MPEG4視頻壓縮方式,集多畫面測覽、錄像回放、視頻遠傳、觸發報警、云臺控制、設備聯動于一體,視頻系統還可與其他的輸入信號進行聯動,視頻一旦報警,可同時與其它設備進行聯動如雙鑒探頭、門磁進行錄像。門禁監控:門禁系統由控制器、感應式讀卡器、電控鎖和開門按鈕等組成(聯網系統外加通訊轉換器。讀卡方式屬于非接觸讀卡方式,系統對出人人員進行有效監控管理。防雷系統:通過開關量采集模塊來實現對防雷模塊工作情況的實時監測,通常只有開和關兩種監測狀態。消防系統:對消防系統的監控主要是消防報警信號、氣體噴灑信號的采集,不對消防系統進行控制。監測目標主要包括對系統不間斷的實時監控、實時反饋系統當前狀態、保證服務可靠性安全性、保證業務持續穩定運行。數據采集:通過SNMP、Agent、ICMP、SSH、IPMI等協議對系統進行數據采集。
數據存儲:數據存儲在MySQL上,也可以存儲在其他數據庫服務。
數據分析:當我們事后需要復盤分析故障時,能給我們提供圖形以及時間等相關信息,方面我們確定故障所在。
數據展示:Web界面展示、移動APP。
監控報警:電話報警、郵件報警、短信報警、報警升級機制等。
- 報警處理:當接收到報警,我們需要根據故障的級別進行處理,比如:緊急、一般等。根據故障的級別,配合相關的人員進行快速處理。
硬件監控:早期我們通過機房巡檢的方式,查看硬件設備燈光閃爍情況判斷是否故障,這樣非常浪費人力,并且是重復性無技術含量的工作。系統監控:通過服務器遠程管理口IPMI等,對硬件詳細情況進行監控,并對CPU、內存、磁盤、溫度、風扇、電壓等設置報警設置報警閾值(自行對監控報警內容編寫合理的報警范圍) 。應用監控:硬件監控和系統監控部署后,我們進一步操作是需要登陸到服務器上查看服務器運行了哪些服務,都需要監控起來。應用服務監控也是監控體系中比較重要的內容,例如:Oracle、MySQL、JBoss、Tomcat、Nginx、Redis、RabbitMQ等,相關的服務根據具體應用系統部署情況都需要監控起來。網絡監控:網絡監控是我們構建監控平臺是必須要考慮的,作為下連各地市路段收費站,上連接交通部聯網中心的聯網收費系統,需要時刻掌握各地市到數據中心機房的網絡狀態。尤其是針對移動支付、閩通寶、ETC門戶等使用場景,其互聯網出口多路由鏈路的網絡狀態都是我們需要重點關注的對象。日志監控:通常情況下,隨著系統的運行,操作系統會產生系統日志,應用程序會產生應用程序的訪問日志、錯誤日志,運行日志,網絡日志,我們對這些日志進行收集、過濾、存儲、查詢、展示,通過日志監控分析發現系統潛在問題。安全監控:安全監控是數據中心系統監控重中之重,我們主要通過接入第三方服務廠商,第三方廠商提供全面的漏洞庫,涵蓋服務、后門、數據庫、配置檢測、CGI、SMTP等多種類型。全面檢測主機、Web應用漏洞自主挖掘和行業共享相結合第一時間更新0-day漏洞,杜絕最新安全隱患。性能監控:全面監控網頁性能,DNS響應時間、HTTP建立連接時間、頁面性能指數、響應時間、可用率、元素大小等。網頁性能主要應用在集團公司外網門站、ETC門戶、協同辦公門戶、12122路網監測系統等。業務監控:重要的業務指標進行監控,并設置閾值進行告警通知。比如驛佳購服務區零售系統:每分鐘產生多少訂單、每天有多少活躍用戶、每天有多少推廣活動、推廣活動引入多少用戶、推廣活動引入多少流量、推廣活動引入多少利潤等,重要指標都可以加入業務監控系統上,然后通過大屏展示。一般報警后故障如何處理,首先我們可以通過告警升級機制先自動處理,比如Nginx服務down了,可以設置告警升級自動啟動Nginx。但是如果一般業務出現了嚴重故障,我們通常根據故障的級別、業務,來指派不同的運維人員進行處理。當然不同業務形態、不同架構、不同服務可能采用的方式都不同,這個沒有一個固定的模式套用。