当前位置:首页 » 文件管理 » 缓存系统设计

缓存系统设计

发布时间: 2022-02-01 20:08:41

‘壹’ Fikker的缓存怎么设计的

他们的白皮书上写的很详细。很长~~ 我给你截一段说明。
2.1. 缓存说明
在 Fikker 系统中,缓存分为智能缓存,强制缓存,拒绝缓存。加速缓存的页面(html,
asp,aspx,php,jsp,js,css 等)被 gzip 压缩后以平衡二叉树的索引结构存放在内
存中,不对硬盘进行任何读写(日志除外)。当加速缓存中的页面被访问命中以后,
立即通过压缩传输方式返回给浏览器。以上处理方式有如下好处:(1)、不读写硬
盘,通过内存进行数据交换会极大的提高页面相应速度;(2)、将页面数据经过 gzip
压缩后存储,即减少了对内存空间的需求,也会极大的减少数据传输量,从整体上
提高响应速度和传输效率。

‘贰’ 如何使用bloomfilter构建大型Java缓存系统

在如今的软件当中,缓存是解决很多问题的一个关键概念。你的应用可能会进行CPU密集型运算。你当然不想让这些运算一边又一边的重复执行,相反,你可以只执行一次, 把这个结果放在内存中作为缓存。有时系统的瓶颈在I/O操作上,比如你不想重复的查询数据库,你想把结果缓存起来,只在数据发生变化时才去数据查询来更新缓存。
与上面的情况类似,有些场合下我们需要进行快速的查找来决定如何处理新来的请求。例如,考虑下面这种情况,你需要确认一个URL是否指向一个恶意网站,这种需求可能会有很多。如果我们把所有恶意网站的URL缓存起来,那么会占用很大的空间。或者另一种情况,需要确认用户输入的字符串是包含了美国的地名。像“华盛顿的博物馆”——在这个字符串中,华盛顿是美国的一个地名。我们应该把美国所有的地名保存在内存中然后再查询吗?那样的话缓存会有多大?是否能在不使用数据库的前提下来高效地完成?
这就是为什么我们要跨越基本的数据结构map,在更高级的数据结构像布隆过滤器(bloomfilter)中来寻找答案。你可以把布隆过滤器看做Java中的集合(collection),你可以往它里面添加元素,查询某个元素是否存在(就像一个HashSet)。如果布隆过滤器说没有这个元素,那么可以肯定不含有这个元素,但是如果布隆过滤器说有某个元素,那么这个结果可能是错误的。如果我们在设计布隆过滤器时足够细心,我们可以把这种出错的概率控制在可接受范围内。
解释

布隆过滤器被设计为一个具有N的元素的位数组A(bit array),初始时所有的位都置为0.
添加元素
要添加一个元素,我们需要提供k个哈希函数。每个函数都能返回一个值,这个值必须能够作为位数组的索引(可以通过对数组长度进行取模得到)。然后,我们把位数组在这个索引处的值设为1。例如,第一个哈希函数作用于元素I上,返回x。类似的,第二个第三个哈希函数返回y与z,那么:
A[x]=A[y]=A[z] = 1

查找元素
查找的过程与上面的过程类似,元素将会被会被不同的哈希函数处理三次,每个哈希函数都返回一个作为位数组索引值的整数,然后我们检测位数组在x、y与z处的值是否为1。如果有一处不为1,那么就说明这个元素没有被添加到这个布隆过滤器中。如果都为1,就说明这个元素在布隆过滤器里面。当然,会有一定误判的概率。
算法优化
通过上面的解释我们可以知道,如果想设计出一个好的布隆过滤器,我们必须遵循以下准则:
好的哈希函数能够尽可能的返回宽范围的哈希值。
位数组的大小(用m表示)非常重要:如果太小,那么所有的位很快就都会被赋值为1,这样就增加了误判的几率。
哈希函数的个数(用k表示)对索引值的均匀分配也很重要。
计算m的公式如下:
m = - nlog p / (log2)^2;

这里p为可接受的误判率。
计算k的公式如下:
k = m/n log(2) ;

这里k=哈希函数个数,m=位数组个数,n=待检测元素的个数(后面会用到这几个字母)。
哈希算法
哈希算法是影响布隆过滤器性能的地方。我们需要选择一个效率高但不耗时的哈希函数,在论文《更少的哈希函数,相同的性能指标:构造一个更好的布隆过滤器》中,讨论了如何选用2个哈希函数来模拟k个哈希函数。首先,我们需要计算两个哈希函数h1(x)与h2(x)。然后,我们可以用这两个哈希函数来模仿产生k个哈希函数的效果:
gi(x) = h1(x) + ih2(x);

这里i的取值范围是1到k的整数。
Google guava类库使用这个技巧实现了一个布隆过滤器,哈希算法的主要逻辑如下:

long hash64 = …; //calculate a 64 bit hash function
//split it in two halves of 32 bit hash values
int hash1 = (int) hash64;
int hash2 = (int) (hash64 >>> 32);
//Generate k different hash functions with a simple loop
for (int i = 1; i <= numHashFunctions; i++) {
int nextHash = hash1 + i * hash2;
}

应用
从数学公式中,我们可以很明显的知道使用布隆过滤器来解决问题。但是,我们需要很好地理解布隆过滤器所能解决问题的领域。像我们可以使用布隆过滤器来存放美国的所有城市,因为城市的数量是可以大概确定的,所以我们可以确定n(待检测元素的个数)的值。根据需求来修改p(误判概率)的值,在这种情况下,我们能够设计出一个查询耗时少,内存使用率高的缓存机制。
实现
Google Guava类库有一个实现,查看这个类的构造函数,在这里面需要设置待检测元素的个数与误判率。
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

//Create Bloomfilter
int expectedInsertions = ….;
double fpp = 0.03; // desired false positive probability
BloomFilter<CharSequence> bloomFilter = BloomFilter.create(Funnels.stringFunnel(Charse

‘叁’ 缓存系统中的主要使用的数据结构是什么

缓存系统中的主要使用的数据结构是memcached。

memcached是一套分布式的高速缓存系统,由LiveJournal的Brad Fitzpatrick开发,但被许多网站使用。这是一套开放源代码软件,以BSD license授权发布。

memcached的API使用三十二比特的循环冗余校验(CRC-32)计算键值后,将数据分散在不同的机器上。当表格满了以后,接下来新增的数据会以LRU机制替换掉。

由于memcached通常只是当作缓存系统使用,所以使用memcached的应用程序在写回较慢的系统时(像是后端的数据库)需要额外的代码更新memcached内的数据。

(3)缓存系统设计扩展阅读:

一、存储方式

为了提高性能,memcached中保存的数据都存储在memcached内置的内存存储空间中。由于数据仅存在于内存中,因此重启memcached、重启操作系统会导致全部数据消失。

另外,内容容量达到指定值之后,就基于LRU(Least Recently Used)算法自动删除不使用的缓存。memcached本身是为缓存而设计的服务器,因此并没有过多考虑数据的永久性问题。

二、通信分布式

memcached尽管是“分布式”缓存服务器,但服务器端并没有分布式功能。各个memcached不会互相通信以共享信息。那么,怎样进行分布式呢?这完全取决于客户端的实现。本文也将介绍memcached的分布式。

‘肆’ 何为系统缓存缓存是什么意思如何设置系统缓存

系统缓存
较慢的CPU频率 较快的CPU频率
如果将CPU比作一个城里的家具厂,而将存储系统比作郊区的木料厂,那么实际情况就是木料厂离家具厂越来越远,即使使用更大的卡车来运送木料,家具厂也得停工来等待木料送来。
在这样的情况下,一种解决方法是在市区建立一个小型仓库,在里面放置一些家具厂最常用到的木料。这个仓库实际上就是家具厂的“Cache”,家具厂就可以从仓库不停的及时运送需要的木料。当然,仓库越大,存放的木料越多,效果就越好,因为这样即使是些不常用的东西也可以在仓库里找到。如果我们需要的木料仓库里没有,就要从城外的木料厂里继续找,而家具厂就得等着了。
我想现在大家已经明白了我的意思,仓库就相对于L1缓存,可以由CPU及时快速的读写,所以存储的是CPU最常用代码和数据(后面我们会介绍一下如何挑选“最常用”)。L1缓存的速度比系统内存快的多是因为使用的是SRAM,这种内存单芯片使用四到六个晶体管。这也使得SRAM的造价相当的高,所以不能拿来用在整个存储系统上。
在大多数CPU上,L1缓存和核心一起在一块芯片上。如果在我们家具厂的例子中,就好比工厂和仓库在同一条街上。这样的设计使CPU可以从最近最快的地方得到数据,但是也使得“城外的木料厂”到“仓库”和到“家具厂”的距离差不多远。这样如果CPU需要的数据不在L1缓存中,也就是“Cache Miss”,从存储设备取数据就要很长时间了。处理器速度越快,两者之间的差距就越大。如果使用Pentium4那样的高频率处理器,从内存中取得数据就相当于“木料厂”位于另一个国家。
物理内存即内存条
缓存是CPU的一部分,它存在于CPU中
CPU存取数据的速度非常的快,一秒钟能够存取、处理十亿条指令和数据(术语:CPU主频1G),而内存就慢很多,快的内存能够达到几十兆就不错了,可见两者的速度差异是多么的大
缓存是为了解决CPU速度和内存速度的速度差异问题
内存中被CPU访问最频繁的数据和指令被复制入CPU中的缓存,这样CPU就可以不经常到象“蜗牛”一样慢的内存中去取数据了,CPU只要到缓存中去取就行了,而缓存的速度要比内存快很多
这里要特别指出的是:
1.因为缓存只是内存中少部分数据的复制品,所以CPU到缓存中寻找数据时,也会出现找不到的情况(因为这些数据没有从内存复制到缓存中去),这时CPU还是会到内存中去找数据,这样系统的速度就慢下来了,不过CPU会把这些数据复制到缓存中去,以便下一次不要再到内存中去取。
2.因为随着时间的变化,被访问得最频繁的数据不是一成不变的,也就是说,刚才还不频繁的数据,此时已经需要被频繁的访问,刚才还是最频繁的数据,现在又不频繁了,所以说缓存中的数据要经常按照一定的算法来更换,这样才能保证缓存中的数据是被访问最频繁的
3.关于一级缓存和二级缓存
为了分清这两个概念,我们先了解一下RAM
ram和ROM相对的,RAM是掉电以后,其中才信息就消失那一种,ROM在掉电以后信息也不会消失那一种
RAM又分两种,
一种是静态RAM,SRAM;一种是动态RAM,DRAM。前者的存储速度要比后者快得多,我们现在使用的内存一般都是动态RAM。
有的菜鸟就说了,为了增加系统的速度,把缓存扩大不就行了吗,扩大的越大,缓存的数据越多,系统不就越快了吗
缓存通常都是静态RAM,速度是非常的快,
但是静态RAM集成度低(存储相同的数据,静态RAM的体积是动态RAM的6倍),
价格高(同容量的静态RAM是动态RAM的四倍),
由此可见,扩大静态RAM作为缓存是一个非常愚蠢的行为,
但是为了提高系统的性能和速度,我们必须要扩大缓存,
这样就有了一个折中的方法,不扩大原来的静态RAM缓存,而是增加一些高速动态RAM做为缓存,
这些高速动态RAM速度要比常规动态RAM快,但比原来的静态RAM缓存慢,
我们把原来的静态ram缓存叫一级缓存,而把后来增加的动态RAM叫二级缓存。
一级缓存和二级缓存中的内容都是内存中访问频率高的数据的复制品(映射),它们的存在都是为了减少高速CPU对慢速内存的访问。
通常CPU找数据或指令的顺序是:先到一级缓存中找,找不到再到二级缓存中找,如果还找不到就只有到内存中找了

在系统属性里面可以设置系统缓存

‘伍’ 一级缓存的数据缓存设计

根据工作原理的不同,目前主流处理器所采用的一级数据缓存又可以分为实数据读写缓存和数据代码指令追踪缓存2种,它们分别被AMD和Intel所采用。不同的一级数据缓存设计对于二级缓存容量的需求也各不相同,下面让我们简单了解一下这两种一级数据缓存设计的不同之处。 AMD采用的一级缓存设计属于传统的“实数据读写缓存”设计。基于该架构的一级数据缓存主要用于存储CPU最先读取的数据;而更多的读取数据则分别存储在二级缓存和系统内存当中。做个简单的假设,假如处理器需要读取“AMD ATHLON 64 3000+ IS GOOD”这一串数据(不记空格),那么首先要被读取的“AMDATHL”将被存储在一级数据缓存中,而余下的“ON643000+ISGOOD”则被分别存储在二级缓存和系统内存当中(如下图所示)。
需要注意的是,以上假设只是对AMD处理器一级数据缓存的一个抽象描述,一级数据缓存和二级缓存所能存储的数据长度完全由缓存容量的大小决定,而绝非以上假设中的几个字节。“实数据读写缓存”的优点是数据读取直接快速,但这也需要一级数据缓存具有一定的容量,增加了处理器的制造难度(一级数据缓存的单位制造成本较二级缓存高)。 自P4时代开始,Intel开始采用全新的“数据代码指令追踪缓存”设计。基于这种架构的一级数据缓存不再存储实际的数据,而是存储这些数据在二级缓存中的指令代码(即数据在二级缓存中存储的起始地址)。假设处理器需要读取“INTEL P4 IS GOOD”这一串数据(不记空格),那么所有数据将被存储在二级缓存中,而一级数据代码指令追踪缓存需要存储的仅仅是上述数据的起始地址(如下图所示)。
由于一级数据缓存不再存储实际数据,因此“数据代码指令追踪缓存”设计能够极大地降低CPU对一级数据缓存容量的要求,降低处理器的生产难度。但这种设计的弊端在于数据读取效率较“实数据读写缓存设计”低,而且对二级缓存容量的依赖性非常大。

‘陆’ 如何设计一个好的数据本地缓存系统

没必要重复制造轮子,sqlite就是个不错的选择!

‘柒’ 如何软件系统设计

一、善用UML工具

用例图
用于需求分析阶段,从用户角度描述系统功能。

用例图

静态图:类图、对象图、包图

  • C4组件图
  • 类图:同UML静态图,此处不再展开。

    ‘捌’ 设计一个分布式缓存方案

    裤子都拖了,就看这个啊

    热点内容
    甘肃电信的dns服务器地址是什么 发布:2025-01-02 00:03:01 浏览:966
    压缩磁盘碎片 发布:2025-01-01 23:54:56 浏览:961
    mc服务器怎么修改背包物品 发布:2025-01-01 23:48:10 浏览:260
    php二级域名session 发布:2025-01-01 23:32:23 浏览:455
    无意义算法 发布:2025-01-01 23:32:18 浏览:677
    安卓本哪个最便宜 发布:2025-01-01 23:31:36 浏览:884
    vsc语言编译器安装 发布:2025-01-01 23:25:54 浏览:932
    为什么安卓手机里的广告这么多 发布:2025-01-01 23:24:53 浏览:614
    南师大ftp 发布:2025-01-01 23:11:43 浏览:327
    c和c编译器安装教学 发布:2025-01-01 23:10:08 浏览:81