在今日召開的首屆“全球數據系統(tǒng)穩(wěn)定性峰會”上,中國信通院云計算與大數據研究所所長何寶宏對中國信通院數據系統(tǒng)穩(wěn)定性工作體系進行了介紹。
何寶宏稱,中國信通院于2021年啟動穩(wěn)定性相關工作,依托分布式系統(tǒng)穩(wěn)定性實驗室,面向供給側機構、監(jiān)管機構及應用側機構,形成面向產品、工具、服務商、系統(tǒng)、災備和保障體系等對象的“STAR”評估體系,助力我國各領域系統(tǒng)穩(wěn)定性保障工作。
系統(tǒng)穩(wěn)定性保障關鍵問題凸出
在2021年全球發(fā)生了多起嚴重的信息系統(tǒng)宕機事件,其中不乏有互聯網基礎設施、金融核心業(yè)務系統(tǒng)等,這些關鍵系統(tǒng)的宕機事件不僅造成了大量經濟損失,也影響了社會的平穩(wěn)運行,同時也給其他系統(tǒng)建設運營者、監(jiān)管機構敲響警鐘,系統(tǒng)的穩(wěn)定性保障成為當前熱點問題。
何寶宏指出,在我國,保障關鍵系統(tǒng)的平穩(wěn)運行受到國家層面高度重視,《關鍵信息基礎設施安全保護條例》自2021年9月1日起正式實施,明確要求關鍵基礎設施的運營者要依照條例和有關法律法規(guī)保障關鍵信息基礎設施的安全穩(wěn)定運行。
隨著數字技術的更新,信息化系統(tǒng)的重要性突顯,系統(tǒng)穩(wěn)定性面臨著新的挑戰(zhàn)。互聯網等數字原生企業(yè)為提升數字能力、滿足用戶需求,不斷擴大系統(tǒng)規(guī)模,引入敏捷開發(fā)流程,導致信息系統(tǒng)復雜性直線上升,穩(wěn)定性風險點增多,金融、電信等科技密集型行業(yè),系統(tǒng)在線化程度不斷提升,新技術不斷引入,信息系統(tǒng)功能范圍和復雜度不斷升級。而政務、能源等傳統(tǒng)行業(yè)也在政策推動下,將服務模式從原來的5×8的線下模式升級成7×24小時的線上模式,導致系統(tǒng)穩(wěn)定性壓力激增。
何寶宏表示,當前信息系統(tǒng)穩(wěn)定性保障領域在技術、管理等方面都存在不足,比如技術方面隨著新技術新架構應用存在異構軟硬件兼容問題,分布式架構普及集群規(guī)模擴大導致硬件故障更普遍、通信交互更不穩(wěn)定。在管理方面,由于系統(tǒng)涉及的部門機構增多,帶來大量的溝通成本,導致穩(wěn)定性保障鏈路變長,跨團隊協作更加困難。
中國信通院穩(wěn)步推進相關工作
據悉,因運營行程卡系統(tǒng),中國信通院在系統(tǒng)保障方面積累了大量的實踐經驗,行程卡至今已經運行了近2年,累計查詢突破458億次,近期單日查詢量維持在3億次以上,其使用量隨著全國疫情變化波動,成為了疫情防控重要工具。為保障行程卡系統(tǒng)長期平穩(wěn)運行,行程卡團隊實施很多保障穩(wěn)定性的措施:
首先,通過優(yōu)化技術架構,對不同訪問渠道的服務資源進行隔離,將三大運營商的服務通道解耦,實現各渠道及各運營商之間服務互不影響。
其次,對服務器負載均衡、帶寬、數據庫等資源進行多次擴容,已滿足不斷增長的訪問請求,目前系統(tǒng)峰值容量較去年已經提升10倍以上,并通過周期性壓測隨時確認系統(tǒng)的容量情況。
第三,行程碼建立了備份容災系統(tǒng),開展了多次應急演練,可以隨時進行主備切換。團隊開發(fā)了全鏈路監(jiān)控系統(tǒng),能夠監(jiān)控各環(huán)節(jié)流量變化。為應對流量高峰,團隊建立了突發(fā)情況的限流機制,保障系統(tǒng)不中斷服務。
最后,行程卡還建立健全了運營維護的管理制度,形成了日常運維、重點保障、應急處置三位一體的運維保障體系。
何寶宏表示,基于以上背景,為助力我國各領域數據系統(tǒng)穩(wěn)定性提升,中國信通院于2020年啟動穩(wěn)定性相關工作,依托分布式系統(tǒng)穩(wěn)定性實驗室,面向供給側、監(jiān)管機構、應用側等三類角色,形成產品穩(wěn)定性、穩(wěn)定性支撐工具、服務商、系統(tǒng)自身、系統(tǒng)災備能力、系統(tǒng)穩(wěn)定性體系等六條工作主線,統(tǒng)一構成了STAR評估系統(tǒng)。
其中,分布式系統(tǒng)穩(wěn)定性實驗室的定位是要打造行業(yè)平臺,匯聚系統(tǒng)穩(wěn)定性相關方的智慧,共同定義、梳理、研究、推廣系統(tǒng)穩(wěn)定性相關工作和成果。由中國信通院牽頭,自2021年4月成立以來,目前共計50余家成員單位,并且已組建包括23位技術專家的專家團,形成強大的研究和服務能力。實驗室通過定期舉辦技術沙龍,集中編制穩(wěn)定性相關標準和、研究報告和實踐指南等方式,持續(xù)推動穩(wěn)定性各項工作。
詳解STAR評估六條主線
在會上,何寶宏詳細介紹了STAR評估體系的六條主線工作。其中,STAR-A為穩(wěn)定性保障體系評估,STAR-R為系統(tǒng)災備能力評估,STAR-S為系統(tǒng)壓測/撥測服務,STAR-E為服務商能力評估,STAR-T為穩(wěn)定性保障工具測評,STAR-P為軟件產品穩(wěn)定性測試。STAR評估體系完整涵蓋數據系統(tǒng)穩(wěn)定性相關工作中涉及的各類對象,可以全方位衡量各環(huán)節(jié)的相關能力。
1、STAR-A,穩(wěn)定性保障體系評估。當前系統(tǒng)技術迭代快,架構復雜,理論上來說,“沒有絕對穩(wěn)定的系統(tǒng),只有相對完善的保障體系”。由此,本部分工作主要是針對如何通過各類保障手段,最大限度確保系統(tǒng)穩(wěn)定性。因此,信通院聯合行業(yè)力量共同編制了一套評估體系——《分布式系統(tǒng)穩(wěn)定性保障能力分級要求》,以及兩本實踐方法論——《混沌工程實踐指南》和《系統(tǒng)穩(wěn)定性保障能力建設指南1.0》。同時,依據評估標準,開展首批數據系統(tǒng)穩(wěn)定性保障能力評估,首批共有12個信息系統(tǒng)通過。
2、STAR-R,系統(tǒng)災備能力評估。數據系統(tǒng)出現故障是不可避免的,災備系統(tǒng)能夠在數據盡量少丟失的情況下,保持業(yè)務系統(tǒng)盡快恢復甚至不間斷運行,是現代數據系統(tǒng)不可或缺的基礎設施。為衡量數據系統(tǒng)災備能力,中國信通院聯合行業(yè)編制了《數據系統(tǒng)災備能力成熟度模型》,從五大能力域、30個能力項全方位衡量系統(tǒng)的災備能力。標準的發(fā)布,一方面可以為應用方建設災備系統(tǒng)提供參考,另一方面,也可以評估已經建成災備系統(tǒng)的實際能力。
3、STAR-S,向數據系統(tǒng)提供壓測/撥測服務。系統(tǒng)穩(wěn)定性的真實情況一定要通過合理的測試和持續(xù)的監(jiān)測才能獲得,因此,圍繞如何衡量系統(tǒng)實際的穩(wěn)定性狀況,中國信通院同相關的專業(yè)技術公司合作,開展面向各類系統(tǒng)的壓測/撥測服務。
系統(tǒng)實踐承載能力只有通過全鏈路壓測才能準確獲得,壓測結果是運營方預估系統(tǒng)容量、儲備額外資源、實施應急舉措的重要參考依據。針對各類系統(tǒng)聯合專業(yè)技術公司提供第三方全鏈路壓測服務,此外,針對小程序聯合支付寶和微信推出小程序端到端全鏈路壓測服務,準確衡量系統(tǒng)容量。同時,系統(tǒng)實際運行狀況需要持續(xù)不斷的監(jiān)測才能夠加以確認,相對人工觀察,通過技術手段更能提升監(jiān)測的及時性、準確性。信通院聯合專業(yè)技術公司,通過模擬真實用戶訪問形式,為數據系統(tǒng)提供撥測服務。
4、STAR-E,提供穩(wěn)定性保障的服務商能力評估。隨著穩(wěn)定性工作重要性的提升,業(yè)內已經涌現出眾多專業(yè)提供穩(wěn)定性保障服務的企業(yè),在這一方面,當前中國信通院正在研制《系統(tǒng)穩(wěn)定性保障服務商能力分級要求》,對服務過程、人員、技術工具等進行規(guī)范,也將依托該標準對產業(yè)內提供穩(wěn)定性保障服務的服務商進行評估,引導行業(yè)規(guī)范化發(fā)展。
5、STAR-T,穩(wěn)定性保障工具測試。系統(tǒng)穩(wěn)定性提升離不開專業(yè)技術工具支撐,工具好壞顯著影響著系統(tǒng)穩(wěn)定性的保障能力。當前,中國信通院已完成《系統(tǒng)穩(wěn)定性保障平臺能力要求》這一標準,對支撐系統(tǒng)穩(wěn)定性工作的各類平臺工具應具備的能力進行了全方位梳理,并形成階梯化分級要求,后續(xù)將繼續(xù)完善各類支撐工具標準的研制,并開展相應評測工作。
6、STAR-P,數據產品穩(wěn)定性測試工作。各類數據產品尤其是分布式軟件已成為各行業(yè)數據系統(tǒng)的重要組成部分,其自身的穩(wěn)定性是系統(tǒng)整體穩(wěn)定性的重要前提。因此,中國信通院開展了面向數據產品自身穩(wěn)定性的測試。為了能夠對各類數據產品進行標準化穩(wěn)定性測試,中國信通院基于Ansible和ChaosBlade自主研發(fā)了Databench-C分布式混沌測試平臺,通過Databench-C可以對被測產品進行穩(wěn)態(tài)確定、擾動注入、差異對比等操作??勺⑷氲墓收霞皵_動類別包括計算、存儲、網絡、線程等方面的高負載或者故障現象。最終通過被測產品在實施加擾時的功能是否正常、性能下降程度,以及擾動移除后的系統(tǒng)恢復程度,來衡量其穩(wěn)定性能力。
基于Databench-C,截止目前已完成兩批次4類數據產品的穩(wěn)定性測試,以下是通過測試的參測企業(yè)和對應的被測產品。通過測試的結果可以觀察到,當前數據類產品多采用分布式架構,網絡擾動帶來的性能影響明顯大于計算、存儲等對資源的擾動。
何寶宏表示,STAR評估體系將沿各方向持續(xù)推進,產出更多標準和研究報告,落地更多評測評估,持續(xù)擴大服務行業(yè)的能力。
據何寶宏透露,未來,分布式系統(tǒng)穩(wěn)定性實驗室將從以下幾個方面開展工作:一是按照主題設立工作組,聚焦重點方向開展工作。二是啟動人才培養(yǎng)計劃,聯合實驗室專家團、外部專業(yè)技術企業(yè),共同開展專題技術培訓。三是開啟全國巡演,持續(xù)在更多地區(qū)舉辦活動,為行業(yè)提供更全面、更具規(guī)模的行業(yè)交流平臺。