2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
Site Reliability Engineering提供了34個章節(jié)——共計500多頁來自O(shè)'Reilly Media的印刷頁面——這些章節(jié)包含了保持谷歌生產(chǎn)系統(tǒng)工作的原則和實踐。整本書可以在https://landing.google.com/sre/book.html的網(wǎng)站上找到,還有其他演講、采訪、出版物和活動的鏈接。
大多數(shù)IT操作專業(yè)人員會發(fā)現(xiàn)這些主題都很熟悉:風(fēng)險管理、停機跟蹤、負(fù)載平衡、產(chǎn)品發(fā)布、故障排除、通信等等。在谷歌,現(xiàn)場可靠性工程師(SRE)的職位將軟件工程師放到了運營團隊中。(SRE工作的許多方面與其他組織中的DevOps角色相似。)該書使用了一個假設(shè)的服務(wù)——莎士比亞搜索服務(wù)——來展示SREs如何與各種系統(tǒng)協(xié)同工作。
以下五個觀點只是本書所涵蓋主題的一小部分。
在《擁抱風(fēng)險》一書中,Marc Alvidrez強調(diào),服務(wù)的可靠性需要根據(jù)用戶需求和產(chǎn)品經(jīng)理的目標(biāo)來確定,并與成本進行權(quán)衡。因此,低于100%的可用性可能是可取的。例如,當(dāng)谷歌在2006年收購YouTube時,該產(chǎn)品仍在快速發(fā)展,因此一個較低的可用性目標(biāo)(即。,增加對不可用風(fēng)險的接受)將允許更快地添加更多的特性。相反,G套件的可靠性目標(biāo)可以“設(shè)置為99.9%的外部季度可用性目標(biāo)”,而內(nèi)部目標(biāo)設(shè)置得更高。然后,Mark Roth詳細(xì)闡述了產(chǎn)品和SRE團隊如何處理他們所謂的“錯誤預(yù)算”。
Vivek Rau給出了“辛勞”的具體定義:“手工的、重復(fù)的、自動化的、戰(zhàn)術(shù)的、沒有持久價值的、隨服務(wù)的增長而線性擴展的”工作。在“消除辛苦”一章中,我們詳細(xì)地定義了這些術(shù)語。季度調(diào)查顯示,SREs將三分之一的時間花在了被定義為辛苦的工作上。谷歌的自動化發(fā)展詳述了谷歌隨時間自動執(zhí)行任務(wù)的各種方式,從自動化MySQL故障轉(zhuǎn)移任務(wù)到減少啟動新集群所需的時間。
在其中一個較長的章節(jié)《數(shù)據(jù)完整性:你讀什么就是你寫什么》(Data Integrity: What You Read Is What You write)的末尾,雷蒙德·布魯姆(Raymond Blum)和Rhandeev Singh兩次提到,谷歌通過離線保存數(shù)據(jù)避免了潛在的數(shù)據(jù)丟失。第一個案例研究詳細(xì)介紹了谷歌如何在2011年將數(shù)據(jù)從GTape恢復(fù)到Gmail。第二部分講述了團隊如何處理將5000盤磁帶中的數(shù)據(jù)恢復(fù)為谷歌音樂的后勤挑戰(zhàn)。正如作者所寫的,這兩個例子都說明了對健壯的數(shù)據(jù)恢復(fù)系統(tǒng)的需求,“認(rèn)識到不僅任何事情都可能出錯,而且所有事情都將出錯,這是為任何真正的緊急情況做準(zhǔn)備的重要一步。”
雖然很少有公司規(guī)模谷歌分布式操作系統(tǒng),如果你理解distributed-consensus系統(tǒng)的體系結(jié)構(gòu),你可以做出決定,有助于提高系統(tǒng)的可靠性和服務(wù)通過選擇與供應(yīng)商合作,構(gòu)建系統(tǒng)基于這些原則。Laura Nolan涵蓋了現(xiàn)代多站點數(shù)據(jù)中心經(jīng)理在管理臨界狀態(tài)時需要知道的基本概念:可靠性的分布式共識。
有時候,看似簡單的改變就能帶來改變,比如由誰來主持會議。Niall Murphy(與《SRE中的溝通與協(xié)作》的幾位合著者)建議,當(dāng)兩個SRE團隊通過視頻進行會議時,讓一個人從人數(shù)較少的站點主持會議是有幫助的。這是一種幫助平衡兩個不同規(guī)模的遠(yuǎn)程團隊之間的力量動態(tài)的微妙方法??茖W(xué)嗎?不。有用嗎?是的。
SRE的長期影響產(chǎn)生了高度自動化的系統(tǒng),可以用越來越高的抽象級別來管理這些系統(tǒng)。正如該團隊的口號所說,“SRE是當(dāng)您將操作視為軟件問題時所得到的結(jié)果。”
站點可靠性工程對于任何參與IT操作的人來說都是值得一讀的。對于大型企業(yè)中擁有一個或多個數(shù)據(jù)中心的人員來說,這尤其值得花時間。在閱讀它之后,您將無法復(fù)制谷歌的系統(tǒng)。但是,您將深入了解邏輯谷歌SREs方法是如何工作的,如何解決問題,如何清晰地傳達技術(shù)概念。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號:
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)