基於Hash散列的數據緩存

發布時間: 2023-08-30 23:21:38

Ⅰ 常用的緩存技術

第一章常用的緩存技術
1、常見的兩種緩存

本地緩存：不需要序列化，速度快，緩存的數量與大小受限於本機內存
分布式緩存：需要序列化，速度相較於本地緩存較慢，但是理論上緩存的數量與大小無限（因為緩存機器可以不斷擴展）
2、本地緩存

Google guava cache：當下最好用的本地緩存
Ehcache：spring默認集成的一個緩存，以spring cache的底層緩存實現類形式去操作緩存的話，非常方便，但是欠缺靈活，如果想要靈活使用，還是要單獨使用Ehcache
Oscache：最經典簡單的頁面緩存
3、分布式緩存

memcached：分布式緩存的標配
Redis：新一代的分布式緩存，有替代memcached的趨勢
3.1、memcached

經典的一致性hash演算法
基於slab的內存模型有效防止內存碎片的產生（但同時也需要估計好啟動參數，否則會浪費很多的內存）
集群中機器之間互不通信（相較於Jboss cache等集群中機器之間的相互通信的緩存，速度更快<--因為少了同步更新緩存的開銷，且更適合於大型分布式系統中使用）
使用方便（這一點是相較於Redis在構建客戶端的時候而言的，盡管redis的使用也不困難）
很專一（專做緩存，這一點也是相較於Redis而言的）
3.2、Redis

可以存儲復雜的數據結構（5種）
strings-->即簡單的key-value，就是memcached可以存儲的唯一的一種形式，接下來的四種是memcached不能直接存儲的四種格式（當然理論上可以先將下面的一些數據結構中的東西封裝成對象，然後存入memcached，但是不推薦將大對象存入memcached，因為memcached的單一value的最大存儲為1M，可能即使採用了壓縮演算法也不夠，即使夠，可能存取的效率也不高，而redis的value最大為1G）
hashs-->看做hashTable
lists-->看做LinkedList
sets-->看做hashSet，事實上底層是一個hashTable
sorted sets-->底層是一個skipList
有兩種方式可以對緩存數據進行持久化
RDB
AOF
事件調度
發布訂閱等
4、集成緩存

專指spring cache，spring cache自己繼承了ehcache作為了緩存的實現類，我們也可以使用guava cache、memcached、redis自己來實現spring cache的底層。當然，spring cache可以根據實現類來將緩存存在本地還是存在遠程機器上。

5、頁面緩存

在使用jsp的時候，我們會將一些復雜的頁面使用Oscache進行頁面緩存，使用非常簡單，就是幾個標簽的事兒；但是，現在一般的企業，前台都會使用velocity、freemaker這兩種模板引擎，本身速度就已經很快了，頁面緩存使用的也就很少了。

總結：

在實際生產中，我們通常會使用guava cache做本地緩存+redis做分布式緩存+spring cache就集成緩存（底層使用redis來實現）的形式
guava cache使用在更快的獲取緩存數據，同時緩存的數據量並不大的情況
spring cache集成緩存是為了簡單便捷的去使用緩存（以註解的方式即可），使用redis做其實現類是為了可以存更多的數據在機器上
redis緩存單獨使用是為了彌補spring cache集成緩存的不靈活
就我個人而言，如果需要使用分布式緩存，那麼首先redis是必選的，因為在實際開發中，我們會緩存各種各樣的數據類型，在使用了redis的同時，memcached就完全可以舍棄了，但是現在還有很多公司在同時使用memcached和redis兩種緩存。

Ⅱ 哈希（hash） - 哈希演算法的應用

通過之前的學習，我們已經了解了哈希函數在散列表中的應用，哈希函數就是哈希演算法的一個應用。那麼在這里給出哈希的定義： 將任意長度的二進制值串映射為固定長度的二進制值串，這個映射規則就是哈希演算法，得到的二進制值串就是哈希值 。
要設計一個好的哈希演算法並不容易，它應該滿足以下幾點要求：

哈希演算法的應用非常廣泛，在這里就介紹七點應用：

有很多著名的哈希加密演算法：MD5、SHA、DES...它們都是通過哈希進行加密的演算法。
對於加密的哈希演算法來說，有兩點十分重要：一是很難根據哈希值反推導出原始數據；二是散列沖突的概率要很小。
當然，哈希演算法不可能排除散列沖突的可能，這用數學中的 鴿巢原理 就可以很好解釋。以MD5演算法來說，得到的哈希值為一個 128 位的二進制數，它的數據容量最多為 2¹²⁸ bit，如果超過這個數據量，必然會出現散列沖突。
在加密解密領域沒有絕對安全的演算法，衫基一般來說，只要解密的計算量極其龐大，我們就可以認為這種加密方法是較為安全的。

假設我們有100萬個圖片，如果我們在圖片中尋找某一個圖片是非常耗時的，這是我們就可以使用哈希演算法的原理為圖片設置唯一標識。比如，我們可以從圖片的二進制碼串開頭取100個位元組，從中間取100個位元組，從結尾取100個位元組，然後將它們合並，並使用哈希演算法計算得到一個哈希值，將其作為圖片的唯一標識。
使用這個唯一標識判斷圖片是否在圖庫中，這可以減少甚多工作量。

在傳輸消息的過程中，我們擔心通信數據被人篡改，這時就可以使用哈希函數進行數據校驗。比如BT協議中就使用哈希栓發進行數據校驗。

在散列表那一篇中我們就講過散列函數的應用，相比於其它應用，散列函數對於散列演算法沖突的要求低很多（我們可以通過開放定址法或鏈表法解決沖突），同時散列函數對於散列演算法是否能逆向解密也並不關心。
散列函數比較在意函數的執行效率，至於其它要求，在之前的我們已經講過，就不再贅述了。

接下來的三個應用主要是在分布式系統中的應用

復雜均衡的演算法很多，如何實現一個會話粘滯的負載均衡演算法呢？也就是說，我們需要在同一個客戶端上，在一次會話中的所有請求都路由到同一個伺服器上。

最簡單的辦法是我們根據客戶端的 IP 地址或會話 ID 創建一個映射關系。但是這樣很浪費內存，客戶端上線下線，伺服器擴容等都會導致映射失效，維護成本很大。

藉助哈希演算法，我們可以很輕松的解決這些問題：對客戶端的 IP 地址或會話 ID 計算哈希值，將取得的哈希值域伺服器的列表的大小進行取模運算，最後得到的值就是被路由到的伺服器的編號。

假設有一個非常大的日誌文件，裡面記錄了用戶的搜索關鍵詞，我們想要快速統計出每個關鍵詞被搜索的次數，該怎麼做呢？

分析一下，這個問題有兩個難點：一是搜索日誌很大，沒辦法放到一台機器的內存中；二是如果用一台機器處理這么大的數據，處理時間會很長。

針對這兩個難點，我們可以先對數據進行分片，然後使用多台機器處理，提高處理速度。具體思路：使用 n 台機器並行處理，從日誌文件中讀出每個搜索關鍵詞，通過哈希局銷函數計算哈希值，然後用 n 取模，最終得到的值就是被分配的機器編號。
這樣，相同的關鍵詞被分配到了相同的機器上，不同機器只要記錄屬於自己那部分的關鍵詞的出現次數，最終合並不同機器上的結果即可。

針對這種海量數據的處理問題，我們都可以採用多機分布式處理。藉助這種分片思路，可以突破單機內存桐塌游、CPU等資源的限制。

處理思路和上面出現的思路類似：對數據進行哈希運算，對機器數取模，最終將存儲數據（可能是硬碟存儲，或者是緩存分配）分配到不同的機器上。

你可以看一下上圖，你會發現之前存儲的數據在新的存儲規則下全部失效，這種情況是災難性的。面對這種情況，我們就需要使用一致性哈希演算法。

哈希演算法是應用非常廣泛的演算法，你可以回顧上面的七個應用感受一下。

其實在這里我想說的是一個思想： 用優勢彌補不足 。
例如，在計算機中，數據的計算主要依賴 CPU ，數據的存儲交換主要依賴內存。兩者一起配合才能實現各種功能，而兩者在性能上依然無法匹配，這種差距主要是： CPU運算性能對內存的要求遠高於現在的內存能提供的性能。
也就是說，CPU運算很快，內存相對較慢，為了抹平這種差距，工程師們想了很多方法。在我看來，散列表的使用就是利用電腦的高計算性能（優勢）去彌補內存速度（不足）的不足，你仔細思考散列表的執行過程，就會明白我的意思。

以上就是哈希的全部內容

Ⅲ 怎麼實現redis的資料庫的緩存(redis實現緩存的流程)

大致為兩種措施：

一、腳本同步：

1、自己寫腳本將資料庫數據寫入到redis/memcached。

2、這就涉及到實時數據變更的問題（mysqlrowbinlog的實時分析），binlog增量訂閱Alibaba的canal，以及緩存層數據丟失/失效後的數據同步恢復問題。

二、純賀業務層實現：

1、先讀取nosql緩存層，沒有數據再讀取mysql層，並寫入數據到nosql。

2、nosql層做好多節點分布式（一致性hash），以及節點失效後替代方案（多層hash尋找相鄰替代節點），和數據震盪恢復了。

redis實現資料庫緩存的分析：

對於變化頻率非常快的數據來說，如果還選擇傳統的靜態緩存方式（Memocached、FileSystem等）展示數據，可能在緩存的存取上會有很大的開銷則褲差，並不能很好的滿足需要，而Redis這樣基於內存的NoSQL資料庫，就非常適合擔任實時數據的容器。

但是往往又有數據可靠性的需求，採用MySQL作為數據存儲，不會因為內存問題而引起數據丟失，同時也可以利用關系資料庫的特性實現很多功能。所以就會很自然的想到是否可以採用MySQL作為數據存孫皮儲引擎，Redis則作為Cache。

MySQL到Redis數據復制方案，無論MySQL還是Redis，自身都帶有數據同步的機制，比較常用的MySQL的Master/Slave模式，就是由Slave端分析Master的binlog來實現的，這樣的數據復制其實還是一個非同步過程，只不過當伺服器都在同一內網時，非同步的延遲幾乎可以忽略。那麼理論上也可用同樣方式，分析MySQL的binlog文件並將數據插入Redis。

因此這里選擇了一種開發成本更加低廉的方式，借用已經比較成熟的MySQLUDF，將MySQL數據首先放入Gearman中，然後通過一個自己編寫的PHPGearmanWorker，將數據同步到Redis。比分析binlog的方式增加了不少流程，但是實現成本更低，更容易操作。

閱讀全文

熱點內容

QT靜態編譯64 發布：2025-03-06 23:09:35 瀏覽：280

聖安地列斯自由伺服器ip 發布：2025-03-06 23:09:34 瀏覽：705

安卓怎麼掃二維碼發布：2025-03-06 23:04:49 瀏覽：512

平方根倒數速演算法發布：2025-03-06 23:03:54 瀏覽：468

嗅探加密視頻發布：2025-03-06 23:03:40 瀏覽：846

php中文字元正則發布：2025-03-06 23:02:03 瀏覽：539

忘記密碼如何進入山東省人社通發布：2025-03-06 22:59:39 瀏覽：346

安卓系統怎麼安裝不了國際服發布：2025-03-06 22:55:32 瀏覽：863

linux文件夾打不開發布：2025-03-06 22:54:07 瀏覽：828

安卓怎麼刷新設備發布：2025-03-06 22:32:07 瀏覽：815

基於Hash散列的數據緩存

與基於Hash散列的數據緩存相關的資訊