緩存系統設計

發布時間: 2022-02-01 20:08:41

『壹』 Fikker的緩存怎麼設計的

他們的白皮書上寫的很詳細。很長~~ 我給你截一段說明。
2.1. 緩存說明
在 Fikker 系統中，緩存分為智能緩存，強制緩存，拒絕緩存。加速緩存的頁面(html，
asp，aspx，php，jsp，js，css 等)被 gzip 壓縮後以平衡二叉樹的索引結構存放在內
存中，不對硬碟進行任何讀寫(日誌除外)。當加速緩存中的頁面被訪問命中以後，
立即通過壓縮傳輸方式返回給瀏覽器。以上處理方式有如下好處：(1)、不讀寫硬
盤，通過內存進行數據交換會極大的提高頁面相應速度；(2)、將頁面數據經過 gzip
壓縮後存儲，即減少了對內存空間的需求，也會極大的減少數據傳輸量，從整體上
提高響應速度和傳輸效率。

『貳』如何使用bloomfilter構建大型Java緩存系統

在如今的軟體當中，緩存是解決很多問題的一個關鍵概念。你的應用可能會進行CPU密集型運算。你當然不想讓這些運算一邊又一邊的重復執行，相反，你可以只執行一次，把這個結果放在內存中作為緩存。有時系統的瓶頸在I/O操作上，比如你不想重復的查詢資料庫，你想把結果緩存起來，只在數據發生變化時才去數據查詢來更新緩存。
與上面的情況類似，有些場合下我們需要進行快速的查找來決定如何處理新來的請求。例如，考慮下面這種情況，你需要確認一個URL是否指向一個惡意網站，這種需求可能會有很多。如果我們把所有惡意網站的URL緩存起來，那麼會佔用很大的空間。或者另一種情況，需要確認用戶輸入的字元串是包含了美國的地名。像「華盛頓的博物館」——在這個字元串中，華盛頓是美國的一個地名。我們應該把美國所有的地名保存在內存中然後再查詢嗎？那樣的話緩存會有多大？是否能在不使用資料庫的前提下來高效地完成？
這就是為什麼我們要跨越基本的數據結構map，在更高級的數據結構像布隆過濾器（bloomfilter）中來尋找答案。你可以把布隆過濾器看做Java中的集合（collection），你可以往它裡面添加元素，查詢某個元素是否存在（就像一個HashSet）。如果布隆過濾器說沒有這個元素，那麼可以肯定不含有這個元素，但是如果布隆過濾器說有某個元素，那麼這個結果可能是錯誤的。如果我們在設計布隆過濾器時足夠細心，我們可以把這種出錯的概率控制在可接受范圍內。
解釋

布隆過濾器被設計為一個具有N的元素的位數組A（bit array），初始時所有的位都置為0.
添加元素
要添加一個元素，我們需要提供k個哈希函數。每個函數都能返回一個值，這個值必須能夠作為位數組的索引（可以通過對數組長度進行取模得到）。然後，我們把位數組在這個索引處的值設為1。例如，第一個哈希函數作用於元素I上，返回x。類似的，第二個第三個哈希函數返回y與z，那麼：
A[x]=A[y]=A[z] = 1

查找元素
查找的過程與上面的過程類似，元素將會被會被不同的哈希函數處理三次，每個哈希函數都返回一個作為位數組索引值的整數，然後我們檢測位數組在x、y與z處的值是否為1。如果有一處不為1，那麼就說明這個元素沒有被添加到這個布隆過濾器中。如果都為1，就說明這個元素在布隆過濾器裡面。當然，會有一定誤判的概率。
演算法優化
通過上面的解釋我們可以知道，如果想設計出一個好的布隆過濾器，我們必須遵循以下准則：
好的哈希函數能夠盡可能的返回寬范圍的哈希值。
位數組的大小（用m表示）非常重要：如果太小，那麼所有的位很快就都會被賦值為1，這樣就增加了誤判的幾率。
哈希函數的個數（用k表示）對索引值的均勻分配也很重要。
計算m的公式如下：
m = - nlog p / (log2)^2;

這里p為可接受的誤判率。
計算k的公式如下：
k = m/n log(2) ;

這里k=哈希函數個數，m=位數組個數，n=待檢測元素的個數（後面會用到這幾個字母）。
哈希演算法
哈希演算法是影響布隆過濾器性能的地方。我們需要選擇一個效率高但不耗時的哈希函數，在論文《更少的哈希函數，相同的性能指標：構造一個更好的布隆過濾器》中，討論了如何選用2個哈希函數來模擬k個哈希函數。首先，我們需要計算兩個哈希函數h1(x)與h2(x)。然後，我們可以用這兩個哈希函數來模仿產生k個哈希函數的效果：
gi(x) = h1(x) + ih2(x);

這里i的取值范圍是1到k的整數。
Google guava類庫使用這個技巧實現了一個布隆過濾器，哈希演算法的主要邏輯如下：

long hash64 = …; //calculate a 64 bit hash function
//split it in two halves of 32 bit hash values
int hash1 = (int) hash64;
int hash2 = (int) (hash64 >>> 32);
//Generate k different hash functions with a simple loop
for (int i = 1; i <= numHashFunctions; i++) {
int nextHash = hash1 + i * hash2;
}

應用
從數學公式中，我們可以很明顯的知道使用布隆過濾器來解決問題。但是，我們需要很好地理解布隆過濾器所能解決問題的領域。像我們可以使用布隆過濾器來存放美國的所有城市，因為城市的數量是可以大概確定的，所以我們可以確定n（待檢測元素的個數）的值。根據需求來修改p（誤判概率）的值，在這種情況下，我們能夠設計出一個查詢耗時少，內存使用率高的緩存機制。
實現
Google Guava類庫有一個實現，查看這個類的構造函數，在這裡面需要設置待檢測元素的個數與誤判率。
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

//Create Bloomfilter
int expectedInsertions = ….;
double fpp = 0.03; // desired false positive probability
BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charse

『叄』緩存系統中的主要使用的數據結構是什麼

緩存系統中的主要使用的數據結構是memcached。

memcached是一套分布式的高速緩存系統，由LiveJournal的Brad Fitzpatrick開發，但被許多網站使用。這是一套開放源代碼軟體，以BSD license授權發布。

memcached的API使用三十二比特的循環冗餘校驗（CRC-32）計算鍵值後，將數據分散在不同的機器上。當表格滿了以後，接下來新增的數據會以LRU機制替換掉。

由於memcached通常只是當作緩存系統使用，所以使用memcached的應用程序在寫回較慢的系統時（像是後端的資料庫）需要額外的代碼更新memcached內的數據。

(3)緩存系統設計擴展閱讀：

一、存儲方式

為了提高性能，memcached中保存的數據都存儲在memcached內置的內存存儲空間中。由於數據僅存在於內存中，因此重啟memcached、重啟操作系統會導致全部數據消失。

另外，內容容量達到指定值之後，就基於LRU(Least Recently Used)演算法自動刪除不使用的緩存。memcached本身是為緩存而設計的伺服器，因此並沒有過多考慮數據的永久性問題。

二、通信分布式

memcached盡管是「分布式」緩存伺服器，但伺服器端並沒有分布式功能。各個memcached不會互相通信以共享信息。那麼，怎樣進行分布式呢？這完全取決於客戶端的實現。本文也將介紹memcached的分布式。

『肆』何為系統緩存緩存是什麼意思如何設置系統緩存

系統緩存
較慢的CPU頻率較快的CPU頻率
如果將CPU比作一個城裡的傢具廠，而將存儲系統比作郊區的木料廠，那麼實際情況就是木料廠離傢具廠越來越遠，即使使用更大的卡車來運送木料，傢具廠也得停工來等待木料送來。
在這樣的情況下，一種解決方法是在市區建立一個小型倉庫，在裡面放置一些傢具廠最常用到的木料。這個倉庫實際上就是傢具廠的「Cache」，傢具廠就可以從倉庫不停的及時運送需要的木料。當然，倉庫越大，存放的木料越多，效果就越好，因為這樣即使是些不常用的東西也可以在倉庫里找到。如果我們需要的木料倉庫里沒有，就要從城外的木料廠里繼續找，而傢具廠就得等著了。
我想現在大家已經明白了我的意思，倉庫就相對於L1緩存，可以由CPU及時快速的讀寫，所以存儲的是CPU最常用代碼和數據（後面我們會介紹一下如何挑選「最常用」）。L1緩存的速度比系統內存快的多是因為使用的是SRAM，這種內存單晶元使用四到六個晶體管。這也使得SRAM的造價相當的高，所以不能拿來用在整個存儲系統上。
在大多數CPU上，L1緩存和核心一起在一塊晶元上。如果在我們傢具廠的例子中，就好比工廠和倉庫在同一條街上。這樣的設計使CPU可以從最近最快的地方得到數據，但是也使得「城外的木料廠」到「倉庫」和到「傢具廠」的距離差不多遠。這樣如果CPU需要的數據不在L1緩存中，也就是「Cache Miss」，從存儲設備取數據就要很長時間了。處理器速度越快，兩者之間的差距就越大。如果使用Pentium4那樣的高頻率處理器，從內存中取得數據就相當於「木料廠」位於另一個國家。
物理內存即內存條
緩存是CPU的一部分，它存在於CPU中
CPU存取數據的速度非常的快，一秒鍾能夠存取、處理十億條指令和數據（術語：CPU主頻1G），而內存就慢很多，快的內存能夠達到幾十兆就不錯了，可見兩者的速度差異是多麼的大
緩存是為了解決CPU速度和內存速度的速度差異問題
內存中被CPU訪問最頻繁的數據和指令被復制入CPU中的緩存，這樣CPU就可以不經常到象「蝸牛」一樣慢的內存中去取數據了，CPU只要到緩存中去取就行了，而緩存的速度要比內存快很多
這里要特別指出的是：
1.因為緩存只是內存中少部分數據的復製品，所以CPU到緩存中尋找數據時，也會出現找不到的情況（因為這些數據沒有從內存復制到緩存中去），這時CPU還是會到內存中去找數據，這樣系統的速度就慢下來了，不過CPU會把這些數據復制到緩存中去，以便下一次不要再到內存中去取。
2.因為隨著時間的變化，被訪問得最頻繁的數據不是一成不變的，也就是說，剛才還不頻繁的數據，此時已經需要被頻繁的訪問，剛才還是最頻繁的數據，現在又不頻繁了，所以說緩存中的數據要經常按照一定的演算法來更換，這樣才能保證緩存中的數據是被訪問最頻繁的
3.關於一級緩存和二級緩存
為了分清這兩個概念，我們先了解一下RAM
ram和ROM相對的，RAM是掉電以後，其中才信息就消失那一種，ROM在掉電以後信息也不會消失那一種
RAM又分兩種，
一種是靜態RAM，SRAM；一種是動態RAM，DRAM。前者的存儲速度要比後者快得多，我們現在使用的內存一般都是動態RAM。
有的菜鳥就說了，為了增加系統的速度，把緩存擴大不就行了嗎，擴大的越大，緩存的數據越多，系統不就越快了嗎
緩存通常都是靜態RAM，速度是非常的快，
但是靜態RAM集成度低（存儲相同的數據，靜態RAM的體積是動態RAM的6倍），
價格高（同容量的靜態RAM是動態RAM的四倍），
由此可見，擴大靜態RAM作為緩存是一個非常愚蠢的行為，
但是為了提高系統的性能和速度，我們必須要擴大緩存，
這樣就有了一個折中的方法，不擴大原來的靜態RAM緩存，而是增加一些高速動態RAM做為緩存，
這些高速動態RAM速度要比常規動態RAM快，但比原來的靜態RAM緩存慢，
我們把原來的靜態ram緩存叫一級緩存，而把後來增加的動態RAM叫二級緩存。
一級緩存和二級緩存中的內容都是內存中訪問頻率高的數據的復製品（映射），它們的存在都是為了減少高速CPU對慢速內存的訪問。
通常CPU找數據或指令的順序是：先到一級緩存中找，找不到再到二級緩存中找，如果還找不到就只有到內存中找了

在系統屬性裡面可以設置系統緩存

『伍』一級緩存的數據緩存設計

根據工作原理的不同，目前主流處理器所採用的一級數據緩存又可以分為實數據讀寫緩存和數據代碼指令追蹤緩存2種，它們分別被AMD和Intel所採用。不同的一級數據緩存設計對於二級緩存容量的需求也各不相同，下面讓我們簡單了解一下這兩種一級數據緩存設計的不同之處。 AMD採用的一級緩存設計屬於傳統的「實數據讀寫緩存」設計。基於該架構的一級數據緩存主要用於存儲CPU最先讀取的數據；而更多的讀取數據則分別存儲在二級緩存和系統內存當中。做個簡單的假設，假如處理器需要讀取「AMD ATHLON 64 3000+ IS GOOD」這一串數據（不記空格），那麼首先要被讀取的「AMDATHL」將被存儲在一級數據緩存中，而餘下的「ON643000+ISGOOD」則被分別存儲在二級緩存和系統內存當中（如下圖所示）。
需要注意的是，以上假設只是對AMD處理器一級數據緩存的一個抽象描述，一級數據緩存和二級緩存所能存儲的數據長度完全由緩存容量的大小決定，而絕非以上假設中的幾個位元組。「實數據讀寫緩存」的優點是數據讀取直接快速，但這也需要一級數據緩存具有一定的容量，增加了處理器的製造難度（一級數據緩存的單位製造成本較二級緩存高）。自P4時代開始，Intel開始採用全新的「數據代碼指令追蹤緩存」設計。基於這種架構的一級數據緩存不再存儲實際的數據，而是存儲這些數據在二級緩存中的指令代碼（即數據在二級緩存中存儲的起始地址）。假設處理器需要讀取「INTEL P4 IS GOOD」這一串數據（不記空格），那麼所有數據將被存儲在二級緩存中，而一級數據代碼指令追蹤緩存需要存儲的僅僅是上述數據的起始地址（如下圖所示）。
由於一級數據緩存不再存儲實際數據，因此「數據代碼指令追蹤緩存」設計能夠極大地降低CPU對一級數據緩存容量的要求，降低處理器的生產難度。但這種設計的弊端在於數據讀取效率較「實數據讀寫緩存設計」低，而且對二級緩存容量的依賴性非常大。

『陸』如何設計一個好的數據本地緩存系統

沒必要重復製造輪子,sqlite就是個不錯的選擇!

『柒』如何軟體系統設計

一、善用UML工具

用例圖
用於需求分析階段，從用戶角度描述系統功能。

用例圖

靜態圖：類圖、對象圖、包圖

C4組件圖

類圖：同UML靜態圖，此處不再展開。

『捌』設計一個分布式緩存方案

褲子都拖了，就看這個啊

閱讀全文

熱點內容

java返回this 發布：2025-10-20 08:28:16 瀏覽：894

製作腳本網站發布：2025-10-20 08:17:34 瀏覽：1166

python中的init方法發布：2025-10-20 08:17:33 瀏覽：862

圖案密碼什麼意思發布：2025-10-20 08:16:56 瀏覽：1033

怎麼清理微信視頻緩存發布：2025-10-20 08:12:37 瀏覽：917

c語言編譯器怎麼看執行過程發布：2025-10-20 08:00:32 瀏覽：1266

郵箱如何填寫發信伺服器發布：2025-10-20 07:45:27 瀏覽：484

shell腳本入門案例發布：2025-10-20 07:44:45 瀏覽：373

怎麼上傳照片瀏覽上傳發布：2025-10-20 07:44:03 瀏覽：1038

python股票數據獲取發布：2025-10-20 07:39:44 瀏覽：1020

緩存系統設計

與緩存系統設計相關的資訊