SRE:Google運(yùn)維解密是一本關(guān)于技術(shù)的書(shū)籍,谷歌神書(shū),解密讓人仰望的技術(shù)崗位——谷歌SRE,如何構(gòu)建一個(gè)可長(zhǎng)期維護(hù)的系統(tǒng)提供了非常寶貴的實(shí)踐經(jīng)驗(yàn),不管對(duì)于運(yùn)維還是開(kāi)發(fā)來(lái)說(shuō),都是一本值得仔細(xì)閱讀的好書(shū)。sregoogle運(yùn)維解密pdf電子書(shū),有需要的朋友可以免費(fèi)下載。
SRE:Google運(yùn)維解密書(shū)籍介紹
大型軟件系統(tǒng)生命周期的絕大部分都處于“使用”階段,而非“設(shè)計(jì)”或“實(shí)現(xiàn)”階段。那么為什么我們卻總是認(rèn)為軟件工程應(yīng)該首要關(guān)注設(shè)計(jì)和實(shí)現(xiàn)呢?在《SRE:Google運(yùn)維解密》中,Google SRE的關(guān)鍵成員解釋了他們是如何對(duì)軟件進(jìn)行生命周期的整體性關(guān)注的,以及為什么這樣做能夠幫助Google成功地構(gòu)建、部署、監(jiān)控和運(yùn)維世界上現(xiàn)存*的軟件系統(tǒng)。通過(guò)閱讀《SRE:Google運(yùn)維解密》,讀者可以學(xué)習(xí)到Google工程師在提高系統(tǒng)部署規(guī)模、改進(jìn)可靠性和資源利用效率方面的指導(dǎo)思想與具體實(shí)踐——這些都是可以立即直接應(yīng)用的寶貴經(jīng)驗(yàn)。
任何一個(gè)想要?jiǎng)?chuàng)建、擴(kuò)展大規(guī)模集成系統(tǒng)的人都應(yīng)該閱讀《SRE:Google運(yùn)維解密》!禨RE:Google運(yùn)維解密》針對(duì)如何構(gòu)建一個(gè)可長(zhǎng)期維護(hù)的系統(tǒng)提供了非常寶貴的實(shí)踐經(jīng)驗(yàn)。
SRE:Google運(yùn)維解密目錄
第Ⅰ部分 概覽
第1 章 介紹
系統(tǒng)管理員模式
的解決之道:
方法論
確保長(zhǎng)期關(guān)注研發(fā)工作
在保障服務(wù)SLO 的前提下最大化迭代速度
監(jiān)控系統(tǒng)
應(yīng)急事件處理
變更管理
需求預(yù)測(cè)和容量規(guī)劃
資源部署
效率與性能
小結(jié)
第2 章 Google 生產(chǎn)環(huán)境:SRE 視角
硬件
管理物理服務(wù)器的系統(tǒng)管理軟件
管理物理服務(wù)器
存儲(chǔ)
網(wǎng)絡(luò)
其他系統(tǒng)軟件
分布式鎖服務(wù)
監(jiān)控與警報(bào)系統(tǒng)
軟件基礎(chǔ)設(shè)施
研發(fā)環(huán)境
莎士比亞搜索:一個(gè)示范服務(wù)
用戶請(qǐng)求的處理過(guò)程
任務(wù)和數(shù)據(jù)的組織方式
第Ⅱ部分 指導(dǎo)思想
第3 章 擁抱風(fēng)險(xiǎn)
管理風(fēng)險(xiǎn)
度量服務(wù)的風(fēng)險(xiǎn)
服務(wù)的風(fēng)險(xiǎn)容忍度
辨別消費(fèi)者服務(wù)的風(fēng)險(xiǎn)容忍度
基礎(chǔ)設(shè)施服務(wù)的風(fēng)險(xiǎn)容忍度
使用錯(cuò)誤預(yù)算的目的
錯(cuò)誤預(yù)算的構(gòu)建過(guò)程
好處
第4 章 服務(wù)質(zhì)量目標(biāo)
服務(wù)質(zhì)量術(shù)語(yǔ)
指標(biāo)
目標(biāo)
協(xié)議
指標(biāo)在實(shí)踐中的應(yīng)用
運(yùn)維人員和最終用戶各關(guān)心什么
指標(biāo)的收集
匯總
指標(biāo)的標(biāo)準(zhǔn)化
目標(biāo)在實(shí)踐中的應(yīng)用
目標(biāo)的定義
目標(biāo)的選擇
控制手段
可以建立用戶預(yù)期
協(xié)議在實(shí)踐中的應(yīng)用
第5 章 減少瑣事
瑣事的定義
為什么瑣事越少越好
什么算作工程工作
瑣事繁多是不是一定不好
小結(jié)
第6 章 分布式系統(tǒng)的監(jiān)控
術(shù)語(yǔ)定義
為什么要監(jiān)控
對(duì)監(jiān)控系統(tǒng)設(shè)置合理預(yù)期
現(xiàn)象與原因
黑盒監(jiān)控與白盒監(jiān)控
個(gè)黃金指標(biāo)
關(guān)于長(zhǎng)尾問(wèn)題
度量指標(biāo)時(shí)采用合適的精度
簡(jiǎn)化,直到不能再簡(jiǎn)化
將上述理念整合起來(lái)
監(jiān)控系統(tǒng)的長(zhǎng)期維護(hù)
:警報(bào)過(guò)多的案例
:可預(yù)知的、可腳本化的人工干預(yù)
長(zhǎng)跑
小結(jié)
第7 章 Google 的自動(dòng)化系統(tǒng)的演進(jìn)
自動(dòng)化的價(jià)值
一致性
平臺(tái)性
修復(fù)速度更快
行動(dòng)速度更快
節(jié)省時(shí)間
自動(dòng)化對(duì)Google SRE 的價(jià)值
自動(dòng)化的應(yīng)用案例
的自動(dòng)化使用案例
自動(dòng)化分類(lèi)的層次結(jié)構(gòu)
讓自己脫離工作:自動(dòng)化所有的東西
舒緩疼痛:將自動(dòng)化應(yīng)用到集群上線中
使用Prodtest 檢測(cè)不一致情況
冪等地解決不一致情況
專(zhuān)業(yè)化傾向
以服務(wù)為導(dǎo)向的集群上線流程
:倉(cāng)庫(kù)規(guī)模計(jì)算機(jī)的誕生
可靠性是最基本的功能
建議
第8 章 發(fā)布工程
發(fā)布工程師的角色
發(fā)布工程哲學(xué)
自服務(wù)模型
追求速度
密閉性
強(qiáng)調(diào)策略和流程
持續(xù)構(gòu)建與部署
構(gòu)建
分支
測(cè)試
打包
系統(tǒng)
部署
配置管理
小結(jié)
不僅僅只對(duì)Google 有用
一開(kāi)始就進(jìn)行發(fā)布工程
第9 章 簡(jiǎn)單化
系統(tǒng)的穩(wěn)定性與靈活性
乏味是一種美德
我絕對(duì)不放棄我的代碼
“負(fù)代碼行”作為一個(gè)指標(biāo)
最小
模塊化
發(fā)布的簡(jiǎn)單化
小結(jié)
第Ⅲ部分 具體實(shí)踐
第10 章 基于時(shí)間序列數(shù)據(jù)進(jìn)行有效報(bào)警
的起源
應(yīng)用軟件的監(jiān)控埋點(diǎn)
監(jiān)控指標(biāo)的收集
時(shí)間序列數(shù)據(jù)的存儲(chǔ)
標(biāo)簽與向量
規(guī)則計(jì)算
報(bào)警
監(jiān)控系統(tǒng)的分片機(jī)制
黑盒監(jiān)控
配置文件的維護(hù)
十年之后
第11 章 on-call 輪值
介紹
工程師的一天
工作平衡
數(shù)量上保持平衡
質(zhì)量上保持平衡
補(bǔ)貼措施
安全感
避免運(yùn)維壓力過(guò)大
運(yùn)維壓力過(guò)大
奸詐的敵人-運(yùn)維壓力不夠
小結(jié)
第12 章 有效的故障排查手段
理論
實(shí)踐
故障報(bào)告
定位
檢查
診斷
測(cè)試和修復(fù)
神奇的負(fù)面結(jié)果
治愈
案例分析
使故障排查更簡(jiǎn)單
小結(jié)
第13 章 緊急事件響應(yīng)
當(dāng)系統(tǒng)出現(xiàn)問(wèn)題時(shí)怎么辦
測(cè)試導(dǎo)致的緊急事故
細(xì)節(jié)
響應(yīng)
事后總結(jié)
變更部署帶來(lái)的緊急事故
細(xì)節(jié)
事故響應(yīng)
事后總結(jié)
流程導(dǎo)致的嚴(yán)重事故
細(xì)節(jié)
災(zāi)難響應(yīng)
事后總結(jié)
所有的問(wèn)題都有解決方案
向過(guò)去學(xué)習(xí),而不是重復(fù)它
為事故保留記錄
提出那些大的,甚至不可能的問(wèn)題:假如……
鼓勵(lì)主動(dòng)測(cè)試
SRE:Google運(yùn)維解密pdf預(yù)覽
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版