高並發前端緩存

發布時間: 2022-09-05 17:56:56

『壹』如何處理高並發

處理高並發的六種方法

1：系統拆分，將一個系統拆分為多個子系統，用bbo來搞。然後每個系統連一個資料庫，這樣本來就一個庫，現在多個資料庫，這樣就可以抗高並發。

2：緩存，必須得用緩存。大部分的高並發場景，都是讀多寫少，那你完全可以在資料庫和緩存里都寫一份，然後讀的時候大量走緩存不就得了。畢竟人家redis輕輕鬆鬆單機幾萬的並發啊。沒問題的。所以你可以考的慮考慮你的項目里，那些承載主要請求讀場景，怎麼用緩存來抗高並發。

3：MQ(消息隊列)，必須得用MQ。可能你還是會出現高並發寫的場景，比如說一個業務操作里要頻繁搞資料庫幾十次，增刪改增刪改，瘋了。那高並發絕對搞掛你的系統，人家是緩存你要是用redis來承載寫那肯定不行，數據隨時就被LRU(淘汰掉最不經常使用的)了，數據格式還無比簡單，沒有事務支持。所以該用mysql還得用mysql啊。那你咋辦？用MQ吧，大量的寫請求灌入MQ里，排隊慢慢玩兒，後邊系統消費後慢慢寫，控制在mysql承載范圍之內。所以你得考慮考慮你的項目里，那些承載復雜寫業務邏輯的場景里，如何用MQ來非同步寫，提升並發性。MQ單機抗幾萬並發也是ok的。

4：分庫分表，可能到了最後資料庫層面還是免不了抗高並發的要求，好吧，那麼就將一個資料庫拆分為多個庫，多個庫來抗更高的並發；然後將一個表拆分為多個表，每個表的數據量保持少一點，提高sql跑的性能。

5：讀寫分離，這個就是說大部分時候資料庫可能也是讀多寫少，沒必要所有請求都集中在一個庫上吧，可以搞個主從架構，主庫寫入，從庫讀取，搞一個讀寫分離。讀流量太多的時候，還可以加更多的從庫。

6：solrCloud:
SolrCloud(solr 雲)是Solr提供的分布式搜索方案，可以解決海量數據的分布式全文檢索，因為搭建了集群，因此具備高可用的特性，同時對數據進行主從備份，避免了單點故障問題。可以做到數據的快速恢復。並且可以動態的添加新的節點，再對數據進行平衡,可以做到負載均衡：

『貳』如何解決高並發問題

使用高性能的伺服器、高性能的資料庫、高效率的編程語言、還有高性能的Web容器，(對架構分層+負載均衡+集群)這幾個解決思路在一定程度上意味著更大的投入。

1、高並發：在同一個時間點，有大量的客戶來訪問我們的網站，如果訪問量過大，就可能造成網站癱瘓。

2、高流量：當網站大後，有大量的圖片，視頻，這樣就會對流量要求高，需要更多更大的帶寬。

3、大存儲：可能對數據保存和查詢出現問題。

解決方案：

1、提高硬體能力、增加系統伺服器。（當伺服器增加到某個程度的時候系統所能提供的並發訪問量幾乎不變，所以不能根本解決問題）

2、本地緩存：本地可以使用JDK自帶的Map、Guava Cache.分布式緩存：Redis、Memcache.本地緩存不適用於提高系統並發量，一般是用處用在程序中。

Spiring把已經初始過的變數放在一個Map中，下次再要使用這個變數的時候，先判斷Map中有沒有，這也就是系統中常見的單例模式的實現。

『叄』 ☆前端優化：瀏覽器緩存技術介紹

在前端開發中，性能一直都是被大家所重視的一點，然而判斷一個網站的性能最直觀的就是看網頁打開的速度。 其中提高網頁反應速度的一個方式就是使用緩存 。緩存技術一直一來在WEB技術體系中扮演非常重要角色，是快速且有效地提升性能的手段。

一個優秀的緩存策略可以縮短網頁請求資源的距離，減少延遲，並且由於緩存文件可以重復利用，還可以減少帶寬，降低網路負荷。

所以，緩存技術是無數WEB開發從業人員在工作過程中不可避免的一大問題。 在產品開發的時候我們總是想辦法避免緩存產生，而在產品發布之時又在想策略管理緩存提升網頁的訪問速度 。了解瀏覽器的緩存命中原理，是開發WEB應用的基礎，本文著眼於此，學習瀏覽器緩存的相關知識，總結緩存避免和緩存管理的方法，結合具體的場景說明緩存的相關問題。希望能對有需要的人有所幫助。

在實際WEB開發過程中，緩存技術會涉及到不同層、不同端，比如：用戶層、系統層、代理層、前端、後端、服務端等， 每一層的緩存目標都是一致的，就是盡快返回請求數據、減少延遲 ，但每層使用的技術實現是各有不同，面對不同層、不同端的優劣，選用不同的技術來提升系統響應效率。所以，我們首先看下各層的緩存都有哪些技術，都緩存哪些數據，從整體上，對WEB的緩存技術進行了解，如下圖所示：

本篇文章重點講的就是上面紅色框部分緩存內容。

當瀏覽器請求一個網站的時候，會載入各種各樣的資源，比如：HTML文檔、圖片、CSS和JS等文件。對於一些不經常變的內容，瀏覽器會將他們保存在本地的文件中，下次訪問相同網站的時候，直接載入這些資源，加速訪問。

那麼如何知曉瀏覽器是讀取了緩存還是直接請求伺服器？如下圖網站來做個示例：

第一次打開該網站後，如果再次刷新頁面。會發現瀏覽器載入的眾多資源中，有一部分size有具體數值，然而還有一部分請求，比如圖片、css和js等文件並沒有顯示文件大小，而是顯示了 from dis cache 或者 from memory cache 字樣。這就說明了，該資源直接從本地硬碟或者瀏覽器內存讀取，而並沒有請求伺服器。

瀏覽器啟用緩存至少有兩點顯而易見的好處： （1）減少頁面載入時間；（2）減少伺服器負載；

瀏覽器是否使用緩存、緩存多久，是由伺服器控制的 。准確來說，當瀏覽器請求一個網頁（或者其他資源）時， 伺服器發回的響應的「響應頭」部分的某些欄位指明了有關緩存的關鍵信息 。下面看下，HTTP報文中與緩存相關的首部欄位：

根據上面四種類型的首部欄位不同使用策略， 瀏覽器中緩存可分為強緩存和協商緩存 ：

當瀏覽器對某個資源的請求命中了強緩存時， 返回的HTTP狀態為200 ，在chrome的開發者工具的network裡面 size會顯示為from cache ，比如：京東的首頁里就有很多靜態資源配置了強緩存，用chrome打開幾次，再用f12查看network，可以看到有不少請求就是從緩存中載入的：

Expires是HTTP 1.0提出的一個表示資源過期時間的header，它描述的是一個絕對時間，由伺服器返回，用GMT格式的字元串表示 ，如：Expires:Thu, 31 Dec 2037 23:55:55 GMT，包含了Expires頭標簽的文件，就說明瀏覽器對於該文件緩存具有非常大的控制權。

例如，一個文件的Expires值是2020年的1月1日，那麼就代表，在2020年1月1日之前，瀏覽器都可以直接使用該文件的本地緩存文件，而不必去伺服器再次請求該文件，哪怕伺服器文件發生了變化。

所以， Expires是優化中最理想的情況，因為它根本不會產生請求 ，所以後端也就無需考慮查詢快慢。它的緩存原理，如下：

Expires是較老的強緩存管理header， 由於它是伺服器返回的一個絕對時間 ，在伺服器時間與客戶端時間相差較大時，緩存管理容易出現問題， 比如：隨意修改下客戶端時間，就能影響緩存命中的結果 。所以在HTTP 1.1的時候，提出了一個新的header， 就是Cache-Control，這是一個相對時間，在配置緩存的時候，以秒為單位，用數值表示 ，如：Cache-Control:max-age=315360000，它的緩存原理是：

Cache-Control描述的是一個相對時間 ，在進行緩存命中的時候， 都是利用客戶端時間進行判斷 ，所以相比較Expires，Cache-Control的緩存管理更有效，安全一些。

這兩個header可以只啟用一個，也可以同時啟用， 當response header中，Expires和Cache-Control同時存在時，Cache-Control優先順序高於Expires ：

此外，還可以為 Cache-Control 指定 public 或 private 標記。 如果使用 private，則表示該資源僅僅屬於發出請求的最終用戶，這將禁止中間伺服器（如代理伺服器）緩存此類資源 。對於包含用戶個人信息的文件（如一個包含用戶名的 HTML 文檔），可以設置 private，一方面由於這些緩存對其他用戶來說沒有任何意義，另一方面用戶可能不希望相關文件儲存在不受信任的伺服器上。需要指出的是，private 並不會使得緩存更加安全，它同樣會傳給中間伺服器（如果網站對於傳輸的安全性要求很高，應該使用傳輸層安全措施）。 對於 public，則允許所有伺服器緩存該資源 。通常情況下，對於所有人都可以訪問的資源（例如網站的 logo、圖片、腳本等）， Cache-Control 默認設為 public 是合理的 。

當瀏覽器對某個資源的請求沒有命中強緩存， 就會發一個請求到伺服器，驗證協商緩存是否命中，如果協商緩存命中，請求響應返回的http狀態為304並且會顯示一個Not Modified的字元串 ，比如你打開京東的首頁，按f12打開開發者工具，再按f5刷新頁面，查看network，可以看到有不少請求就是命中了協商緩存的：

查看單個請求的Response Header， 也能看到304的狀態碼和Not Modified的字元串，只要看到這個就可說明這個資源是命中了協商緩存，然後從客戶端緩存中載入的 ，而不是伺服器最新的資源：

【Last-Modified，If-Modified-Since】的控制緩存的原理，如下 ：

【Last-Modified，If-Modified-Since】都是根據伺服器時間返回的header，一般來說，在沒有調整伺服器時間和篡改客戶端緩存的情況下，這兩個header配合起來管理協商緩存是非常可靠的，但是有時候也會伺服器上資源其實有變化，但是最後修改時間卻沒有變化的情況，而這種問題又很不容易被定位出來，而當這種情況出現的時候，就會影響協商緩存的可靠性。 所以就有了另外一對header來管理協商緩存，這對header就是【ETag、If-None-Match】 。它們的緩存管理的方式是：

Etag和Last-Modified非常相似，都是用來判斷一個參數，從而決定是否啟用緩存。 但是ETag相對於Last-Modified也有其優勢，可以更加准確的判斷文件內容是否被修改 ，從而在實際操作中實用程度也更高。

協商緩存跟強緩存不一樣，強緩存不發請求到伺服器， 所以有時候資源更新了瀏覽器還不知道，但是協商緩存會發請求到伺服器 ，所以資源是否更新，伺服器肯定知道。大部分web伺服器都默認開啟協商緩存，而且是同時啟用【Last-Modified，If-Modified-Since】和【ETag、If-None-Match】，比如apache:

如果沒有協商緩存，每個到伺服器的請求，就都得返回資源內容，這樣伺服器的性能會極差。

【Last-Modified，If-Modified-Since】和【ETag、If-None-Match】一般都是同時啟用，這是為了處理Last-Modified不可靠的情況。有一種場景需要注意：

比如，京東頁面的資源請求，返回的repsonse header就只有Last-Modified，沒有ETag：

協商緩存需要配合強緩存使用，上面這個截圖中，除了Last-Modified這個header，還有強緩存的相關header， 因為如果不啟用強緩存的話，協商緩存根本沒有意義 。

如果資源已經被瀏覽器緩存下來，在緩存失效之前，再次請求時，默認會先檢查是否命中強緩存，如果強緩存命中則直接讀取緩存，如果強緩存沒有命中則發請求到伺服器檢查是否命中協商緩存，如果協商緩存命中，則告訴瀏覽器還是可以從緩存讀取，否則才從伺服器返回最新的資源。其瀏覽器判斷緩存的詳細流程圖，如下：

『肆』高並發如何處理和並發量是多少還有緩存伺服器

數據要立即處理：（並發數*單連接平均傳輸數據=關口帶寬）+(減少IO頻率+低延+緩存並發情況數據=做緩存)+高性能伺服器

--數據--

『伍』 java課程分享web編程開發都有哪些前端緩存

緩存問題在web前端編程開發領域中是一個非常重要的技術問題，下面我們就一起來了解一下，關於web緩存我們都需要了解哪些知識。

緩存優點

通常所說的Web緩存指的是可以自動保存常見http請求副本的http設備。對於前端開發者來說，瀏覽器充當了重要角色。除此外常見的還有各種各樣的代理伺服器也可以做緩存。當Web請求到達緩存時，緩存從本地副本中提取這個副本內容而不需要經過伺服器。這帶來了以下優點：

緩存減少了冗餘的數據傳輸，節省流量

緩存緩解了帶寬瓶頸問題。不需要更多的帶寬就能更快載入頁面

緩存緩解了瞬間擁塞，降低了對原始伺服器的要求。

緩存降低了距離延時，因為從較遠的地方載入頁面會更慢一些。

緩存種類

緩存可以是單個用戶專用的，也可以是多個用戶共享的。專用緩存被稱為私有緩存，共享的緩存被稱為公有緩存。

私有緩存

私有緩存只針對專有用戶，所以不需要很大空間，廉價。Web瀏覽器中有內建的私有緩存——大多數瀏覽器都會將常用資源緩存在你的個人電腦的磁碟和內存中。

公有緩存

公有緩存是特殊的共享代理伺服器，被稱為緩存代理伺服器或代理緩存(反向代理的一種用途)。公有緩存會接受來自多個用戶的訪問，所以通過它能夠更好的減少冗餘流量。

新鮮度限值

HTTP通過緩存將伺服器資源的副本保留一段時間，這段時間稱為新鮮度限值。這在一段時間內請求相同資源不會再通過伺服器。HTTP協議中Cache-Control和Expires可以用來設置新鮮度的限值，前者是HTTP1.1中新增的響應頭，後者是HTTP1.0中的響應頭。電腦培訓http://www.kmbdqn.com/發現二者所做的事時都是相同的，但由於Cache-Control使用的是相對時間，而Expires可能存在客戶端與伺服器端時間不一樣的問題，所以我們更傾向於選擇Cache-Control。

『陸』高並發，寫入頻繁的評論系統有必要加緩存么

如果並發真到幾萬的話，緩存肯定是要加的。
具體加緩存的策略，看想要什麼效果，可以對查詢最頻繁的一類請求先加緩存。
保證mongo處於一個合理的負載。

『柒』 php怎麼處理高並發

以下內容轉載自徐漢彬大牛的博客億級Web系統搭建——單機到分布式集群

當一個Web系統從日訪問量10萬逐步增長到1000萬，甚至超過1億的過程中，Web系統承受的壓力會越來越大，在這個過程中，我們會遇到很多的問題。為了解決這些性能壓力帶來問題，我們需要在Web系統架構層面搭建多個層次的緩存機制。在不同的壓力階段，我們會遇到不同的問題，通過搭建不同的服務和架構來解決。

Web負載均衡

Web負載均衡（Load Balancing），簡單地說就是給我們的伺服器集群分配「工作任務」，而採用恰當的分配方式，對於保護處於後端的Web伺服器來說，非常重要。

負載均衡的策略有很多，我們從簡單的講起哈。

1.HTTP重定向

當用戶發來請求的時候，Web伺服器通過修改HTTP響應頭中的Location標記來返回一個新的url，然後瀏覽器再繼續請求這個新url，實際上就是頁面重定向。通過重定向，來達到「負載均衡」的目標。例如，我們在下載PHP源碼包的時候，點擊下載鏈接時，為了解決不同國家和地域下載速度的問題，它會返回一個離我們近的下載地址。重定向的HTTP返回碼是302

這個重定向非常容易實現，並且可以自定義各種策略。但是，它在大規模訪問量下，性能不佳。而且，給用戶的體驗也不好，實際請求發生重定向，增加了網路延時。

2. 反向代理負載均衡

反向代理服務的核心工作主要是轉發HTTP請求，扮演了瀏覽器端和後台Web伺服器中轉的角色。因為它工作在HTTP層（應用層），也就是網路七層結構中的第七層，因此也被稱為「七層負載均衡」。可以做反向代理的軟體很多，比較常見的一種是Nginx。

Nginx是一種非常靈活的反向代理軟體，可以自由定製化轉發策略，分配伺服器流量的權重等。反向代理中，常見的一個問題，就是Web伺服器存儲的session數據，因為一般負載均衡的策略都是隨機分配請求的。同一個登錄用戶的請求，無法保證一定分配到相同的Web機器上，會導致無法找到session的問題。

解決方案主要有兩種：

1.配置反向代理的轉發規則，讓同一個用戶的請求一定落到同一台機器上（通過分析cookie），復雜的轉發規則將會消耗更多的CPU，也增加了代理伺服器的負擔。

2.將session這類的信息，專門用某個獨立服務來存儲，例如redis/memchache，這個方案是比較推薦的。

反向代理服務，也是可以開啟緩存的，如果開啟了，會增加反向代理的負擔，需要謹慎使用。這種負載均衡策略實現和部署非常簡單，而且性能表現也比較好。但是，它有「單點故障」的問題，如果掛了，會帶來很多的麻煩。而且，到了後期Web伺服器繼續增加，它本身可能成為系統的瓶頸。

3. IP負載均衡

IP負載均衡服務是工作在網路層（修改IP）和傳輸層（修改埠，第四層），比起工作在應用層（第七層）性能要高出非常多。原理是，他是對IP層的數據包的IP地址和埠信息進行修改，達到負載均衡的目的。這種方式，也被稱為「四層負載均衡」。常見的負載均衡方式，是LVS（Linux Virtual Server，Linux虛擬服務），通過IPVS（IP Virtual Server，IP虛擬服務）來實現。

在負載均衡伺服器收到客戶端的IP包的時候，會修改IP包的目標IP地址或埠，然後原封不動地投遞到內部網路中，數據包會流入到實際Web伺服器。實際伺服器處理完成後，又會將數據包投遞回給負載均衡伺服器，它再修改目標IP地址為用戶IP地址，最終回到客戶端。

上述的方式叫LVS-NAT，除此之外，還有LVS-RD（直接路由），LVS-TUN（IP隧道），三者之間都屬於LVS的方式，但是有一定的區別，篇幅問題，不贅敘。

IP負載均衡的性能要高出Nginx的反向代理很多，它只處理到傳輸層為止的數據包，並不做進一步的組包，然後直接轉發給實際伺服器。不過，它的配置和搭建比較復雜。

4. DNS負載均衡

DNS（Domain Name System）負責域名解析的服務，域名url實際上是伺服器的別名，實際映射是一個IP地址，解析過程，就是DNS完成域名到IP的映射。而一個域名是可以配置成對應多個IP的。因此，DNS也就可以作為負載均衡服務。

這種負載均衡策略，配置簡單，性能極佳。但是，不能自由定義規則，而且，變更被映射的IP或者機器故障時很麻煩，還存在DNS生效延遲的問題。

5. DNS/GSLB負載均衡

我們常用的CDN（Content Delivery Network，內容分發網路）實現方式，其實就是在同一個域名映射為多IP的基礎上更進一步，通過GSLB（Global Server Load Balance，全局負載均衡）按照指定規則映射域名的IP。一般情況下都是按照地理位置，將離用戶近的IP返回給用戶，減少網路傳輸中的路由節點之間的跳躍消耗。

「向上尋找」，實際過程是LDNS（Local DNS）先向根域名服務（Root Name Server）獲取到頂級根的Name Server（例如.com的），然後得到指定域名的授權DNS，然後再獲得實際伺服器IP。

CDN在Web系統中，一般情況下是用來解決大小較大的靜態資源（html/Js/Css/圖片等）的載入問題，讓這些比較依賴網路下載的內容，盡可能離用戶更近，提升用戶體驗。

例如，我訪問了一張imgcache.gtimg.cn上的圖片（騰訊的自建CDN，不使用qq.com域名的原因是防止http請求的時候，帶上了多餘的cookie信息），我獲得的IP是183.60.217.90。

這種方式，和前面的DNS負載均衡一樣，不僅性能極佳，而且支持配置多種策略。但是，搭建和維護成本非常高。互聯網一線公司，會自建CDN服務，中小型公司一般使用第三方提供的CDN。

Web系統的緩存機制的建立和優化

剛剛我們講完了Web系統的外部網路環境，現在我們開始關注我們Web系統自身的性能問題。我們的Web站點隨著訪問量的上升，會遇到很多的挑戰，解決這些問題不僅僅是擴容機器這么簡單，建立和使用合適的緩存機制才是根本。

最開始，我們的Web系統架構可能是這樣的，每個環節，都可能只有1台機器。

我們從最根本的數據存儲開始看哈。

一、 MySQL資料庫內部緩存使用

MySQL的緩存機制，就從先從MySQL內部開始，下面的內容將以最常見的InnoDB存儲引擎為主。

1. 建立恰當的索引

最簡單的是建立索引，索引在表數據比較大的時候，起到快速檢索數據的作用，但是成本也是有的。首先，佔用了一定的磁碟空間，其中組合索引最突出，使用需要謹慎，它產生的索引甚至會比源數據更大。其次，建立索引之後的數據insert/update/delete等操作，因為需要更新原來的索引，耗時會增加。當然，實際上我們的系統從總體來說，是以select查詢操作居多，因此，索引的使用仍然對系統性能有大幅提升的作用。

2. 資料庫連接線程池緩存

如果，每一個資料庫操作請求都需要創建和銷毀連接的話，對資料庫來說，無疑也是一種巨大的開銷。為了減少這類型的開銷，可以在MySQL中配置thread_cache_size來表示保留多少線程用於復用。線程不夠的時候，再創建，空閑過多的時候，則銷毀。

其實，還有更為激進一點的做法，使用pconnect（資料庫長連接），線程一旦創建在很長時間內都保持著。但是，在訪問量比較大，機器比較多的情況下，這種用法很可能會導致「資料庫連接數耗盡」，因為建立連接並不回收，最終達到資料庫的max_connections（最大連接數）。因此，長連接的用法通常需要在CGI和MySQL之間實現一個「連接池」服務，控制CGI機器「盲目」創建連接數。

建立資料庫連接池服務，有很多實現的方式，PHP的話，我推薦使用swoole（PHP的一個網路通訊拓展）來實現。

3. Innodb緩存設置（innodb_buffer_pool_size）

innodb_buffer_pool_size這是個用來保存索引和數據的內存緩存區，如果機器是MySQL獨占的機器，一般推薦為機器物理內存的80%。在取表數據的場景中，它可以減少磁碟IO。一般來說，這個值設置越大，cache命中率會越高。

4. 分庫/分表/分區。

MySQL資料庫表一般承受數據量在百萬級別，再往上增長，各項性能將會出現大幅度下降，因此，當我們預見數據量會超過這個量級的時候，建議進行分庫/分表/分區等操作。最好的做法，是服務在搭建之初就設計為分庫分表的存儲模式，從根本上杜絕中後期的風險。不過，會犧牲一些便利性，例如列表式的查詢，同時，也增加了維護的復雜度。不過，到了數據量千萬級別或者以上的時候，我們會發現，它們都是值得的。

二、 MySQL資料庫多台服務搭建

1台MySQL機器，實際上是高風險的單點，因為如果它掛了，我們Web服務就不可用了。而且，隨著Web系統訪問量繼續增加，終於有一天，我們發現1台MySQL伺服器無法支撐下去，我們開始需要使用更多的MySQL機器。當引入多台MySQL機器的時候，很多新的問題又將產生。

1. 建立MySQL主從，從庫作為備份

這種做法純粹為了解決「單點故障」的問題，在主庫出故障的時候，切換到從庫。不過，這種做法實際上有點浪費資源，因為從庫實際上被閑著了。

2. MySQL讀寫分離，主庫寫，從庫讀。

兩台資料庫做讀寫分離，主庫負責寫入類的操作，從庫負責讀的操作。並且，如果主庫發生故障，仍然不影響讀的操作，同時也可以將全部讀寫都臨時切換到從庫中（需要注意流量，可能會因為流量過大，把從庫也拖垮）。

3. 主主互備。

兩台MySQL之間互為彼此的從庫，同時又是主庫。這種方案，既做到了訪問量的壓力分流，同時也解決了「單點故障」問題。任何一台故障，都還有另外一套可供使用的服務。

不過，這種方案，只能用在兩台機器的場景。如果業務拓展還是很快的話，可以選擇將業務分離，建立多個主主互備。

三、 MySQL資料庫機器之間的數據同步

每當我們解決一個問題，新的問題必然誕生在舊的解決方案上。當我們有多台MySQL，在業務高峰期，很可能出現兩個庫之間的數據有延遲的場景。並且，網路和機器負載等，也會影響數據同步的延遲。我們曾經遇到過，在日訪問量接近1億的特殊場景下，出現，從庫數據需要很多天才能同步追上主庫的數據。這種場景下，從庫基本失去效用了。

於是，解決同步問題，就是我們下一步需要關注的點。

1. MySQL自帶多線程同步

MySQL5.6開始支持主庫和從庫數據同步，走多線程。但是，限制也是比較明顯的，只能以庫為單位。MySQL數據同步是通過binlog日誌，主庫寫入到binlog日誌的操作，是具有順序的，尤其當SQL操作中含有對於表結構的修改等操作，對於後續的SQL語句操作是有影響的。因此，從庫同步數據，必須走單進程。

2. 自己實現解析binlog，多線程寫入。

以資料庫的表為單位，解析binlog多張表同時做數據同步。這樣做的話，的確能夠加快數據同步的效率，但是，如果表和表之間存在結構關系或者數據依賴的話，則同樣存在寫入順序的問題。這種方式，可用於一些比較穩定並且相對獨立的數據表。

國內一線互聯網公司，大部分都是通過這種方式，來加快數據同步效率。還有更為激進的做法，是直接解析binlog，忽略以表為單位，直接寫入。但是這種做法，實現復雜，使用范圍就更受到限制，只能用於一些場景特殊的資料庫中（沒有表結構變更，表和表之間沒有數據依賴等特殊表）。

四、在Web伺服器和資料庫之間建立緩存

實際上，解決大訪問量的問題，不能僅僅著眼於資料庫層面。根據「二八定律」，80%的請求只關注在20%的熱點數據上。因此，我們應該建立Web伺服器和資料庫之間的緩存機制。這種機制，可以用磁碟作為緩存，也可以用內存緩存的方式。通過它們，將大部分的熱點數據查詢，阻擋在資料庫之前。

1. 頁面靜態化

用戶訪問網站的某個頁面，頁面上的大部分內容在很長一段時間內，可能都是沒有變化的。例如一篇新聞報道，一旦發布幾乎是不會修改內容的。這樣的話，通過CGI生成的靜態html頁面緩存到Web伺服器的磁碟本地。除了第一次，是通過動態CGI查詢資料庫獲取之外，之後都直接將本地磁碟文件返回給用戶。

在Web系統規模比較小的時候，這種做法看似完美。但是，一旦Web系統規模變大，例如當我有100台的Web伺服器的時候。那樣這些磁碟文件，將會有100份，這個是資源浪費，也不好維護。這個時候有人會想，可以集中一台伺服器存起來，呵呵，不如看看下面一種緩存方式吧，它就是這樣做的。

2. 單台內存緩存

通過頁面靜態化的例子中，我們可以知道將「緩存」搭建在Web機器本機是不好維護的，會帶來更多問題（實際上，通過PHP的apc拓展，可通過Key/value操作Web伺服器的本機內存）。因此，我們選擇搭建的內存緩存服務，也必須是一個獨立的服務。

內存緩存的選擇，主要有redis/memcache。從性能上說，兩者差別不大，從功能豐富程度上說，Redis更勝一籌。

3. 內存緩存集群

當我們搭建單台內存緩存完畢，我們又會面臨單點故障的問題，因此，我們必須將它變成一個集群。簡單的做法，是給他增加一個slave作為備份機器。但是，如果請求量真的很多，我們發現cache命中率不高，需要更多的機器內存呢？因此，我們更建議將它配置成一個集群。例如，類似redis cluster。

Redis cluster集群內的Redis互為多組主從，同時每個節點都可以接受請求，在拓展集群的時候比較方便。客戶端可以向任意一個節點發送請求，如果是它的「負責」的內容，則直接返回內容。否則，查找實際負責Redis節點，然後將地址告知客戶端，客戶端重新請求。

對於使用緩存服務的客戶端來說，這一切是透明的。

內存緩存服務在切換的時候，是有一定風險的。從A集群切換到B集群的過程中，必須保證B集群提前做好「預熱」（B集群的內存中的熱點數據，應該盡量與A集群相同，否則，切換的一瞬間大量請求內容，在B集群的內存緩存中查找不到，流量直接沖擊後端的資料庫服務，很可能導致資料庫宕機）。

4. 減少資料庫「寫」

上面的機制，都實現減少資料庫的「讀」的操作，但是，寫的操作也是一個大的壓力。寫的操作，雖然無法減少，但是可以通過合並請求，來起到減輕壓力的效果。這個時候，我們就需要在內存緩存集群和資料庫集群之間，建立一個修改同步機制。

先將修改請求生效在cache中，讓外界查詢顯示正常，然後將這些sql修改放入到一個隊列中存儲起來，隊列滿或者每隔一段時間，合並為一個請求到資料庫中更新資料庫。

除了上述通過改變系統架構的方式提升寫的性能外，MySQL本身也可以通過配置參數innodb_flush_log_at_trx_commit來調整寫入磁碟的策略。如果機器成本允許，從硬體層面解決問題，可以選擇老一點的RAID（Rendant Arrays of independent Disks，磁碟列陣）或者比較新的SSD（Solid State Drives，固態硬碟）。

5. NoSQL存儲

不管資料庫的讀還是寫，當流量再進一步上漲，終會達到「人力有窮時」的場景。繼續加機器的成本比較高，並且不一定可以真正解決問題的時候。這個時候，部分核心數據，就可以考慮使用NoSQL的資料庫。NoSQL存儲，大部分都是採用key-value的方式，這里比較推薦使用上面介紹過Redis，Redis本身是一個內存cache，同時也可以當做一個存儲來使用，讓它直接將數據落地到磁碟。

這樣的話，我們就將資料庫中某些被頻繁讀寫的數據，分離出來，放在我們新搭建的Redis存儲集群中，又進一步減輕原來MySQL資料庫的壓力，同時因為Redis本身是個內存級別的Cache，讀寫的性能都會大幅度提升。

國內一線互聯網公司，架構上採用的解決方案很多是類似於上述方案，不過，使用的cache服務卻不一定是Redis，他們會有更豐富的其他選擇，甚至根據自身業務特點開發出自己的NoSQL服務。

6. 空節點查詢問題

當我們搭建完前面所說的全部服務，認為Web系統已經很強的時候。我們還是那句話，新的問題還是會來的。空節點查詢，是指那些資料庫中根本不存在的數據請求。例如，我請求查詢一個不存在人員信息，系統會從各級緩存逐級查找，最後查到到資料庫本身，然後才得出查找不到的結論，返回給前端。因為各級cache對它無效，這個請求是非常消耗系統資源的，而如果大量的空節點查詢，是可以沖擊到系統服務的。

在我曾經的工作經歷中，曾深受其害。因此，為了維護Web系統的穩定性，設計適當的空節點過濾機制，非常有必要。

我們當時採用的方式，就是設計一張簡單的記錄映射表。將存在的記錄存儲起來，放入到一台內存cache中，這樣的話，如果還有空節點查詢，則在緩存這一層就被阻擋了。

異地部署（地理分布式）

完成了上述架構建設之後，我們的系統是否就已經足夠強大了呢？答案當然是否定的哈，優化是無極限的。Web系統雖然表面上看，似乎比較強大了，但是給予用戶的體驗卻不一定是最好的。因為東北的同學，訪問深圳的一個網站服務，他還是會感到一些網路距離上的慢。這個時候，我們就需要做異地部署，讓Web系統離用戶更近。

一、核心集中與節點分散

有玩過大型網游的同學都會知道，網游是有很多個區的，一般都是按照地域來分，例如廣東專區，北京專區。如果一個在廣東的玩家，去北京專區玩，那麼他會感覺明顯比在廣東專區卡。實際上，這些大區的名稱就已經說明了，它的伺服器所在地，所以，廣東的玩家去連接地處北京的伺服器，網路當然會比較慢。

當一個系統和服務足夠大的時候，就必須開始考慮異地部署的問題了。讓你的服務，盡可能離用戶更近。我們前面已經提到了Web的靜態資源，可以存放在CDN上，然後通過DNS/GSLB的方式，讓靜態資源的分散「全國各地」。但是，CDN只解決的靜態資源的問題，沒有解決後端龐大的系統服務還只集中在某個固定城市的問題。

這個時候，異地部署就開始了。異地部署一般遵循：核心集中，節點分散。

·核心集中：實際部署過程中，總有一部分的數據和服務存在不可部署多套，或者部署多套成本巨大。而對於這些服務和數據，就仍然維持一套，而部署地點選擇一個地域比較中心的地方，通過網路內部專線來和各個節點通訊。

·節點分散：將一些服務部署為多套，分布在各個城市節點，讓用戶請求盡可能選擇近的節點訪問服務。

例如，我們選擇在上海部署為核心節點，北京，深圳，武漢，上海為分散節點（上海自己本身也是一個分散節點）。我們的服務架構如圖：

需要補充一下的是，上圖中上海節點和核心節點是同處於一個機房的，其他分散節點各自獨立機房。
國內有很多大型網游，都是大致遵循上述架構。它們會把數據量不大的用戶核心賬號等放在核心節點，而大部分的網游數據，例如裝備、任務等數據和服務放在地區節點里。當然，核心節點和地域節點之間，也有緩存機制。

二、節點容災和過載保護

節點容災是指，某個節點如果發生故障時，我們需要建立一個機制去保證服務仍然可用。毫無疑問，這里比較常見的容災方式，是切換到附近城市節點。假如系統的天津節點發生故障，那麼我們就將網路流量切換到附近的北京節點上。考慮到負載均衡，可能需要同時將流量切換到附近的幾個地域節點。另一方面，核心節點自身也是需要自己做好容災和備份的，核心節點一旦故障，就會影響全國服務。

過載保護，指的是一個節點已經達到最大容量，無法繼續接接受更多請求了，系統必須有一個保護的機制。一個服務已經滿負載，還繼續接受新的請求，結果很可能就是宕機，影響整個節點的服務，為了至少保障大部分用戶的正常使用，過載保護是必要的。

解決過載保護，一般2個方向：

·拒絕服務，檢測到滿負載之後，就不再接受新的連接請求。例如網游登入中的排隊。

·分流到其他節點。這種的話，系統實現更為復雜，又涉及到負載均衡的問題。

小結

Web系統會隨著訪問規模的增長，漸漸地從1台伺服器可以滿足需求，一直成長為「龐然大物」的大集群。而這個Web系統變大的過程，實際上就是我們解決問題的過程。在不同的階段，解決不同的問題，而新的問題又誕生在舊的解決方案之上。

系統的優化是沒有極限的，軟體和系統架構也一直在快速發展，新的方案解決了老的問題，同時也帶來新的挑戰。

『捌』如何解決高並發場景下，緩存冷啟動導致mysql負載過高，甚至瞬間被打死的問題

由於mysql是一個連接給一個線程，當並發高的時候，每秒需要幾百個甚至更多的線程，其中創建和銷毀線程還好說，大不了多耗費點內存，線程緩存命中率下降還有創建銷毀線程的性能增加問題---這個問題不是特別大，重點是mysql底層瞬間處理這幾百個線程提交的sql（有時候一個頁面會有10多條sql，cpu一次只能處理一條sql）會導致cpu的上下文切換，性能抖動，然後性能下降。

『玖』分布式緩存主要用在高並發環境下的作用

分布式緩存主要用在高並發環境下，減輕資料庫的壓力，提高系統的響應速度和並發吞吐。當大量的讀、寫請求湧向資料庫時，磁碟的處理速度與內存顯然不在一個量級，因此，在資料庫之前加一層緩存，能夠顯著提高系統的響應速度，並降低資料庫的壓力。作為傳統的關系型資料庫，MySQL提供完整的ACID操作，支持豐富的數據類型、強大的關聯查詢、where語句等，能夠非常客易地建立查詢索引，執行復雜的內連接、外連接、求和、排序、分組等操作，並且支持存儲過程、函數等功能，產品成熟度高，功能強大。但是，對於需要應對高並發訪問並且存儲海量數據的場景來說，出於對性能的考慮，不得不放棄很多傳統關系型資料庫原本強大的功能，犧牲了系統的易用性，並且使得系統的設計和管理變得更為復雜。這也使得在過去幾年中，流行著另一種新的存儲解決方案——NoSQL，它與傳統的關系型資料庫最大的差別在於，它不使用SQL作為查詢語言來查找數據，而採用key-value形式進行查找，提供了更高的查詢效率及吞吐，並且能夠更加方便地進行擴展，存儲海量數據，在數千個節點上進行分區，自動進行數據的復制和備份。在分布式系統中，消息作為應用間通信的一種方式，得到了十分廣泛的應用。消息可以被保存在隊列中，直到被接收者取出，由於消息發送者不需要同步等待消息接收者的響應，消息的非同步接收降低了系統集成的耦合度，提升了分布式系統協作的效率，使得系統能夠更快地響應用戶，提供更高的吞吐。
當系統處於峰值壓力時，分布式消息隊列還能夠作為緩沖，削峰填谷，緩解集群的壓力，避免整個系統被壓垮。垂直化的搜索引擎在分布式系統中是一個非常重要的角色，它既能夠滿足用戶對於全文檢索、模糊匹配的需求，解決資料庫like查詢效率低下的問題，又能夠解決分布式環境下，由於採用分庫分表，或者使用NoSQL資料庫，導致無法進行多表關聯或者進行復雜查詢的問題。

閱讀全文

熱點內容

網站編程培訓發布：2024-10-12 06:09:22 瀏覽：900

怎麼看自己的電腦配置玩永劫無間發布：2024-10-12 05:56:41 瀏覽：467

linuxzip文件解壓命令發布：2024-10-12 05:56:03 瀏覽：942

java怎麼處理高並發發布：2024-10-12 05:55:25 瀏覽：765

五子棋java源碼發布：2024-10-12 05:37:13 瀏覽：175

pythonopenstack怎麼配置發布：2024-10-12 05:16:07 瀏覽：929

安卓如何編輯動畫發布：2024-10-12 05:14:25 瀏覽：348

視頻電腦配置高怎麼玩游戲發布：2024-10-12 04:35:56 瀏覽：731

sql復合查詢發布：2024-10-12 04:14:23 瀏覽：715

把文檔加密發布：2024-10-12 04:13:52 瀏覽：850

高並發前端緩存

與高並發前端緩存相關的資訊