本文根據(jù)孫燕老師在《2019DAMS中國數(shù)據(jù)智能管理峰會(huì)》現(xiàn)場演講內(nèi)容整理而成。
講師介紹
孫燕,微博廣告基礎(chǔ)運(yùn)維負(fù)責(zé)人,2009年入職新浪,任職10年間參與博客、圖片、視頻、微博平臺(tái)監(jiān)控、微博廣告多個(gè)產(chǎn)品運(yùn)維,致力于運(yùn)維自動(dòng)化、產(chǎn)品架構(gòu)優(yōu)化、服務(wù)治理、智能監(jiān)控及以監(jiān)控為依托的服務(wù)容災(zāi)建設(shè)。
圖片來源于:DBAplus社群
前言
微博現(xiàn)在日活達(dá)到了2億,微博廣告是微博最重要且穩(wěn)定的收入來源,沒有之一,所以微博廣告系統(tǒng)的穩(wěn)定性是我們廣告運(yùn)維所有工作中的重中之重。
微博廣告的運(yùn)維主要負(fù)責(zé)資產(chǎn)管理、服務(wù)穩(wěn)定性維護(hù)、故障應(yīng)急處理以及成本控制等多個(gè)責(zé)任。
微博廣告運(yùn)維發(fā)展經(jīng)歷了如下階段:從早期小規(guī)模的手工運(yùn)維到工具化運(yùn)維,隨著服務(wù)器數(shù)量的發(fā)展,業(yè)務(wù)模型日漸發(fā)展,開發(fā)、運(yùn)營、QA都參與到產(chǎn)品的生命周期中,我們現(xiàn)在也進(jìn)入了自動(dòng)化運(yùn)維的階段,在新的虛擬化技術(shù)、算法技術(shù)的驅(qū)動(dòng)下,我們也在朝著AIOps的方向努力。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會(huì)》PPT
在整個(gè)運(yùn)維過程中,我們遇到了很多痛點(diǎn),幸福的人生都是一樣的,不幸的人生各有各的不幸,各家的運(yùn)維都各有各的痛點(diǎn)。
我們的服務(wù)器在3000臺(tái)以上,業(yè)務(wù)線及輔助資源各種各樣,產(chǎn)品迭代非??欤乙蕾囮P(guān)系復(fù)雜,流量變更,切換損失不可接受。
在這種情況下,我們面臨資產(chǎn)管理困難、環(huán)境不統(tǒng)一、上線難度大、運(yùn)維成本高的問題。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會(huì)》PPT
基于這些問題,微博廣告運(yùn)維工作主要集中在以下四個(gè)方面:運(yùn)維自動(dòng)化平臺(tái)建設(shè)、彈性計(jì)算、智能監(jiān)控、服務(wù)治理。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會(huì)》PPT
運(yùn)維自動(dòng)化
一個(gè)健全的自動(dòng)化運(yùn)維平臺(tái)必須要具備如下幾個(gè)功能:基礎(chǔ)監(jiān)控、資源管理、事件集中分析、配置管理、批量運(yùn)維工具、持續(xù)集成和發(fā)布。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會(huì)》PPT
基于這些功能和需求,我們廣告運(yùn)維自主研發(fā)了Kunkka平臺(tái)(微博廣告運(yùn)維自主研發(fā)的自動(dòng)化運(yùn)維平臺(tái))、資產(chǎn)管理、自動(dòng)化上線等運(yùn)維平臺(tái)。
資產(chǎn)管理是基于公司CMDB(公司級(jí)別的資產(chǎn)管理系統(tǒng))獲取到主機(jī)云服務(wù)器,針對(duì)微博廣告對(duì)資源的管理需求自建定制化的資產(chǎn)管理平臺(tái);配置中心包括服務(wù)注冊(cè)、服務(wù)配置等功能;自動(dòng)化上線涵蓋了開發(fā)在上線過程中所需要的節(jié)點(diǎn)和流程;自主終端是行業(yè)變化的功能實(shí)現(xiàn),大家可以通過頁面完成文件或命令下發(fā)、日志審計(jì)等各種工作。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會(huì)》PPT
Kunkka基于主機(jī)和容器,通過Salt作為傳輸層進(jìn)行命令下發(fā),組件層包含開源軟件,操作層將命令頁面化,通過頁面進(jìn)行日常工作和管理。
圖片來源于:《2019DAMS中國數(shù)據(jù)智能管理峰會(huì)》PPT
這樣的自動(dòng)化運(yùn)維平臺(tái)基本上滿足了運(yùn)維的日常操作需求,在Kunkka平臺(tái)中還有自動(dòng)擴(kuò)縮容的功能,我們針對(duì)這個(gè)功能進(jìn)行延伸。在自動(dòng)擴(kuò)所容的基礎(chǔ)上,根據(jù)時(shí)間段,流量進(jìn)行動(dòng)態(tài)判斷,自動(dòng)決策的擴(kuò)所容夠功能。