智能運維新范式,天翼云以AI賦能大數據SRE自治助力企業數智化躍遷
2025-08-08
近日,數據與AI領(ling)域(yu)極(ji)具(ju)影(ying)響力(li)的年度(du)盛會——Cloudera 2025 Data & AI Meetup(上海站(zhan))圓(yuan)滿(man)落(luo)幕(mu)。本次大會匯聚大數據行業(ye)領(ling)袖與實踐(jian)者(zhe),共(gong)同探討(tao)數據驅動與人(ren)工智能(neng)融合的最(zui)新趨勢與最(zui)佳實踐(jian)。
會上,天翼云(yun)科(ke)技(ji)有限公司大數(shu)據產(chan)(chan)品線產(chan)(chan)品管理專家王(wang)海發表了題為(wei)《天翼云(yun)大數(shu)據平臺(tai):AI賦能的SRE自治實踐》的演(yan)講,向與(yu)會嘉賓展(zhan)示了天(tian)翼云(yun)在大數據平臺智能化運(yun)維領域的前沿探索(suo)與(yu)落地成(cheng)果(guo)。
在AI技術迅猛發展(zhan)的(de)背景下,如何保障大(da)規模、高(gao)(gao)復雜度(du)的(de)大(da)數據平臺(tai)的(de)極(ji)致穩(wen)定與高(gao)(gao)效運(yun)行,成(cheng)為(wei)(wei)行業共同面臨的(de)嚴峻挑(tiao)戰(zhan)。傳統的(de)運(yun)維(wei)模式已難(nan)以滿足(zu)企業高(gao)(gao)效管理需求,智能(neng)化、自(zi)動(dong)化、自(zi)治(zhi)化成(cheng)為(wei)(wei)SRE(站點可(ke)靠性工程)演進(jin)的(de)必然方向。天(tian)翼云依托在智能(neng)運(yun)維(wei)領(ling)域的(de)創(chuang)新(xin)理念、技術突破(po)與落地實踐,為(wei)(wei)行業升級帶來了新(xin)思路。
理念層面,從(cong)“被(bei)動響應”向“主動治理(li)”。針(zhen)對超大規模大數據(ju)(ju)平臺在監控、告警、故障定位(wei)、資源優化等方面(mian)的(de)(de)痛(tong)點,以及AI技術帶來的(de)(de)變革潛(qian)力(li),天翼云圍繞對大數據(ju)(ju)PaaS平臺運營(ying)體系從“被(bei)動響應”向“主動治理(li)”躍(yue)遷的(de)(de)目標,進(jin)(jin)一步明確建立數據(ju)(ju)驅動、閉(bi)環管(guan)控、業務對齊的(de)(de)立體化運營(ying)能力(li),實現“監、管(guan)、控”三(san)位(wei)一體,推(tui)動平臺從“可(ke)(ke)用”到(dao)“可(ke)(ke)信”再到(dao)“智能”的(de)(de)持續演(yan)進(jin)(jin)。
技(ji)術層面(mian),構建AI驅動的(de)(de)(de)(de)(de)SRE自(zi)治引(yin)(yin)擎。天(tian)翼(yi)云大數(shu)據團隊借(jie)助(zhu)三層(ceng)(ceng)(ceng)AI引(yin)(yin)擎架構(gou)構(gou)建“感知-決(jue)策-執(zhi)行(xing)”閉環,實現從“人(ren)(ren)治”到(dao)(dao)“自(zi)治”的(de)(de)(de)(de)(de)躍遷。 智(zhi)能感知層(ceng)(ceng)(ceng)(集群的(de)(de)(de)(de)(de)“神(shen)經末梢”):天(tian)翼(yi)云利(li)用先進(jin)的(de)(de)(de)(de)(de)AI算法(fa)實現對大數(shu)據平臺的(de)(de)(de)(de)(de)海量監控(kong)指標進(jin)行(xing)實時(shi)異常檢(jian)測,顯著提升告警準(zhun)確率(lv),減少誤報漏(lou)報。智(zhi)能診斷(duan)層(ceng)(ceng)(ceng)(故障(zhang)的(de)(de)(de)(de)(de)“超級大腦”):基于知識(shi)圖譜與因果推理的(de)(de)(de)(de)(de)根因定(ding)位技術,嘗試在復(fu)雜分(fen)布(bu)式環境中(zhong)快速、精準(zhun)地找到(dao)(dao)問題源頭,將平均故障(zhang)定(ding)位時(shi)間(MTTD)大幅縮(suo)短。智(zhi)能執(zhi)行(xing)層(ceng)(ceng)(ceng)(自(zi)治的(de)(de)(de)(de)(de)“機械(xie)手臂”):天(tian)翼(yi)云通過翼(yi)MR Doctor產品在容量規劃、風(feng)險預警中(zhong)的(de)(de)(de)(de)(de)應(ying)用,以及AI驅動的(de)(de)(de)(de)(de)自(zi)動化修復(fu)工作(zuo)流通過鏈路編排能力,劃分(fen)接入(ru)層(ceng)(ceng)(ceng)、檢(jian)索層(ceng)(ceng)(ceng)、生成層(ceng)(ceng)(ceng)到(dao)(dao)反(fan)饋層(ceng)(ceng)(ceng)四層(ceng)(ceng)(ceng)體系,實現從“人(ren)(ren)工響應(ying)”到(dao)(dao)“系統自(zi)愈”的(de)(de)(de)(de)(de)關(guan)鍵跨越(yue)。
實(shi)踐層面(mian),實(shi)現“自治閉環(huan)”的落地。天翼云大(da)數(shu)據(ju)產品將AI能力深度(du)融入運維流(liu)程,構建起涵蓋“感(gan)知-診斷-決(jue)策-執行-反(fan)饋”的完整自治閉環(huan)體系,并(bing)結合詳細的運管智能告警案例(li),在(zai)平(ping)臺架構設計、模型迭代優化、人(ren)機協同機制等(deng)方(fang)面積累了豐富(fu)經(jing)驗。
數字經濟發展對(dui)算(suan)力與(yu)運維(wei)的敏捷性、穩定性提出更高要求,天翼云持續探索AIOps與SRE深度融合,聚焦可觀(guan)測性、主動(dong)風險防(fang)御、跨域協同等(deng)關鍵(jian)領域,圍繞健康度評分、日志解析、智(zhi)能(neng)RAG知識庫、跨域根(gen)因分析、自(zi)適應防(fang)御和參(can)數自(zi)動(dong)優化等(deng)多方(fang)面(mian)構建智(zhi)能(neng)化運(yun)維能(neng)力(li),實現以點帶面(mian)的(de)效果延展,進一(yi)步打造大數據SRE智(zhi)能(neng)自(zi)治新范(fan)式,為(wei)千行(xing)百業提供更智(zhi)能(neng)、更可靠的(de)數字底座(zuo),助(zhu)力(li)數字經濟高質量發展。