squid缓存动态
access.log 文件包含了对squid 发起的每个客户请求的单一行。每行平均约150 个字节。
2. 如何清空squid指定页面的缓存
Linux系统中清除squid的缓存的方法 在运行Squid的linux或者Unix上清除代理缓存,这里用的是很粗略的方法,还有用squidclient,好的方法就是脚本,尤其当网站很多,url参数有复杂的情况下。 第一步:确定squid代理缓存的位置 复制代码 代码如下: ...
3. 如何清空squid中指定页面的缓存
Linux系统中清除squid的缓存的方法
在运行Squid的linux或者Unix上清除代理缓存,这里用的是很粗略的方法,还有用squidclient,好的方法就是脚本,尤其当网站很多,url参数有复杂的情况下。
第一步:确定squid代理缓存的位置
复制代码
代码如下:
#grep cache_dir /etc/squid/squid.conf //直接抓取squid的配置文件中缓存的目录的路径
输出如下,根据自己编译安装指定的目录不同,结果可能不同
复制代码
代码如下:
#cache_dir ufs /var/spool/squid 100 16 256
第二步:清空squid代理缓存
复制代码
代码如下:
# squid -k shutdown //关闭squid服务</p>< p># rm -rf /var/spool/squid/ //删除缓存目录
重建缓存目录
复制代码
代码如下:
# squid -z
输出如下:
复制代码
代码如下:
2013/08/24 04:24:19| Making directories in /var/spool/squid/00</p>< p>2013/08/24 04:24:19| Making directories in /var/spool/squid/01</p>< p>2013/08/24 04:24:19| Making directories in /var/spool/squid/02</p>< p>2013/08/24 04:24:20| Making directories in /var/spool/squid/03</p>< p>2013/08/24 04:24:20| Making directories in /var/spool/squid/04</p>< p>2013/08/24 04:24:20| Making directories in /var/spool/squid/05</p>< p>2013/08/24 04:24:20| Making directories in /var/spool/squid/06</p>< p>
重启Squid:
复制代码
代码如下:
#squid 或者 #service squid start
运行后输出:
复制代码
代码如下:
Starting squid: [ OK ]
第三步:确认Squid在运行
复制代码
代码如下:
# netstat -tulpn | grep :3128 // 查看squid使用的3128端口是否在使用
你也可以查看squid的access.log或者cache.log来检查squid的运行是否正常,命令如下:
复制代码
代码如下:
# tail -f /var/log/squid/access.log</p>< p># tail -f /var/log/squid/cache.log
4. squid 缓存时间设置的疑问
根据你的描述
建议你修改为
refresh_pattern -i \.jpg$ 0 0% 1800
上述设置的目的是
不设最小缓存时间,发现图片被修改之后缓存立刻失效.
ignore-reload是指忽略客户端的刷新请求.
5. squid 如何缓存 视频文件
以下这些参数告诉Squid缓存的文件系统、位置和缓存策略: cache_dir ufs /var下面就一步一步来了解Squid是如何进行控制管理的。 通过IP地址来识别用户很,
6. squid 反向代理缓存
squid是缓存在硬盘上的,当然也有很少一部分是缓存在内存里的,这个是根据你的参数设置来的,毕竟你就那么多内存,数据大头肯定还是要缓存到硬盘的。
7. 我在windows上使用squid代理的,不能访问动态页面 ,请教
代理提供两个方面的服务:一是让不能直接访问Internet的用户访问Internet,因为允许一台权限较大的计算机直接连接网络更安全也更易于管理;二是让那些已经能够访问Internet的用户可以更快或更广泛地访问,因为代理服务器可以将访问较为频繁的网页缓存到本地,当有人再次访问同一页面时,代理可以直接发送本地页面而无需浪费网络带宽。当然也可以二者兼而有之。
我们以应用最广泛的Squid为例,讨论Linux下的代理服务器。这里所指的仅仅是服务器端应用,不包括客户端配置。Squid的优点是功能强大、配置简单、文档丰富;缺点是目前支持的协议尚不够广泛,对超大型应用略感吃力,不过这些不足都在慢慢完善之中。对于初学者和普通的应用而言,Squid仍是最佳选择。
在此,我们要配置一个只对内部网络提供代理服务的Proxy Server。它将用户分为高级用户和普通用户两种,对高级用户采用网卡物理地址识别的方法,普通用户则需要输入用户名和口令才能正常使用。高级用户没有访问时间和文件类型的限制,而普通用户只在上班时可以访问以及一些其它的限制。
安装
可以从Squid站点www.squid-cache.org获取该软件的源代码安装包,包括gz和bz2两种压缩方式。也可以使用Linux的发行版,如Red
Hat提供的RPM包。
RPM方式安装很简单,命令如下:
$ rpm -ivh Squid-2.x.STALBx.i386.rpm
不过笔者认为,即便是系统中已经默认安装了Squid,也应当先删掉然后安装最新的源代码包。因为开源软件会不断修正问题、提供更新的功能,使用最新版本可以保证最高的性能及安全,而且源代码方式可以完全定制系统。不过STABLE稳定版、DEVEL版通常是提供给开发人员测试程序的,假定下载了最新的稳定版squid-2.5.STABLE2.tar.gz,用以下命令解开压缩包:
$ tar xvfz squid-2.5.STABLE.tar.gz
用bz2方式压缩的包可能体积更小,相应的命令是:
$ tar xvfj squid-2.5.STABLE.tar.bz2
然后,进入相应目录对源代码进行配置和编译,命令如下:
$ cd squid-2.5.STABLE2
配置命令configure有很多选项,如果不清楚可先用“-help”查看。通常情况下,用到的选项有以下几个:
--prefix=/web/squid #指定Squid的安装位置,如果只指定这一选项,那么该目录下会有bin、sbin、man、conf等目录,而主要的配置文件此时在conf子目录中。为便于管理,最好用参数--sysconfdir=/etc把这个文件位置配置为/etc。
--enable-storeio=ufs,null #使用的文件系统通常是默认的ufs,不过如果想要做一个不缓存任何文件的代理服务器,就需要加上null文件系统。
--enable-arp-acl #这样可以在规则设置中直接通过客户端的MAC地址进行管理,防止客户使用IP欺骗。
--enable-err-languages="Simplify_Chinese" --enable-default-err-languages="Simplify_Chinese" #上面两个选项告诉Squid编入并使用简体中文错误信息。
--enable-linux-netfilter #允许使用Linux的透明代理功能。
--enable-underscore #允许解析的URL中出现下划线,因为默认情况下Squid会认为带下划线的URL是非法的,并拒绝访问该地址。
整个配置编译过程如下:
./configure --prefix=/var/squid --sysconfdir=/etc --enable-arp-acl --enable-linux-netfilter --enable-pthreads --enable-err-language="Simplify_Chinese" --enable-storeio=ufs,null --enable-default-err-language="Simplify_Chinese" --enable-auth="basic" --enable-sc-auth-helpers="NCSA" --enable-underscore
其中一些选项有特殊作用,将在下面介绍它们。
最后执行make和make install两条命令,将源代码编译为可执行文件,并拷贝到指定位置。
基本配置
安装完成后,接下来要对Squid的运行进行配置(不是前面安装时的配置)。所有项目都在squid.conf中完成。Squid自带的squid.conf
包括非常详尽的说明,相当于一篇用户手册,对配置有任何疑问都可以参照解决。
在这个例子中,代理服务器同时也是网关,内部网络接口eth0的IP地址为192.168.0.1,外部网络接口eth1的IP地址为202.103.x.x。
下面是一个基本的代理所需要配置选项: http_port 192.168.0.1:3128
默认端口是3128,当然也可以是任何其它端口,只要不与其它服务发生冲突即可。为了安全起见,在前面加上IP地址,Squid就不会监听外部的网络接口。
下面的配置选项是服务器管理者的电子邮件,当错误发生时,该地址会显示在错误页面上,便于用户联系:
cache_mgr [email protected]
以下这些参数告诉Squid缓存的文件系统、位置和缓存策略:
cache_dir ufs /var/squid cache_mem 32MB cache_swap_low 90 cache_swap_high 95
在这里,Squid会将/var/squid目录作为保存缓存数据的目录,每次处理的缓存大小是32兆字节,当缓存空间使用达到95%时,新的内容将取代旧的而不直接添加到目录中,直到空间又下降到90%才停止这一活动。如果不想Squid缓存任何文件,如某些存储空间有限的专有系统,可以使用null文件系统(这样不需要那些缓存策略): cache_dir null /tmp
下面的几个关于缓存的策略配置中,较主要的是第一行,即用户的访问记录,可以通过分析它来了解所有用户访问的详尽地址:
cache_access_log /var/squid/access.log cache_log /var/squid/cache.log cache_store_log /var/squid/store.log
下面这行配置是在较新版本中出现的参数,告诉Squid在错误页面中显示的服务器名称:
visible_hostname No1.proxy
以下配置告诉Squid如何处理用户,对每个请求的IP地址作为单独地址处理: client_mask 255.255.255.255
如果是普通代理服务器,以上的配置已经足够。但是很多Squid都被用来做透明代理。所谓透明代理,就是客户端不知道有代理服务器的存在,当然也不需要进行任何与代理有关的设置,从而大大方便了系统管理员。相关的选项有以下几个:
httpd_accel_host virtual httpd_accel_port 80 httpd_accel_with_proxy on httpd_accel_user_host_header on
在Linux上,可以用iptables/ipchains直接将对Web端口80的请求直接转发到Squid端口3128,由Squid接手,而用户浏览器仍然认为它访问的是对方的80端口。例如以下这条命令:
iptables -t nat -A PREROUTING -s 192.168.0.200/32 -p tcp --dport 80 -j REDIRECT 3128
就是将192.168.0.200的所有针对80端口的访问重定向到3128端口。
所有设置完成后,关键且重要的任务是访问控制。Squid支持的管理方式很多,使用起来也非常简单(这也是有人宁愿使用不做任何缓存的Squid,也不愿意单独使用iptables的原因)。Squid可以通过IP地址、主机名、MAC地址、用户/密码认证等识别用户,也可以通过域名、域后缀、文件类型、IP地址、端口、URL匹配等控制用户的访问,还可以使用时间区间对用户进行管理,所以访问控制是Squid配置中的重点。Squid用ACL(Access Control List,访问控制列表)对访问类型进行划分,用http_access deny 或allow进行控制。根据需求首先定义两组用户advance和normal,还有代表所有未指明的用户组all及不允许上网的baser,配置代码如下:
acl advance 192.168.0.2-192.168.0.10/32 acl normal src 192.168.0.11-192.168.0.200/32 acl baser src 192.168.0.100/32 acl
baddst dst www.somebadsite.com acl all src 0.0.0.0/0 http_access deny baser http_access allow advance http_access allow normal
可以看出,ACL的基本格式如下: acl 列表名称 控制方式 控制目标
比如acl all src 0.0.0.0/0,其名称是all,控制方式是src源IP地址,控制目标是0.0.0.0/0的IP地址,即所有未定义的用户。出于安全考虑,总是在最后禁止这个列表。
下面这个列表代表高级用户,包括IP地址从192.168.0.2到192.168.0.10的所有计算机:
acl advance 192.168.0.2-192.168.0.20/32
下面这个baser列表只包含一台计算机,其IP地址是192.168.0.100: acl baser 192.168.0.100/32
ACL写完后,接下来要对它们分别进行管理,代码如下: http_access deny baser http_access allow advance http_access allow normal
上面几行代码告诉Squid不允许baser组访问Internet,但advance、normal组允许(此时还没有指定详细的权限)。由于Squid是按照顺序读取规则,会首先禁止baser,然后允许normal。如果将两条规则顺序颠倒,由于baser在normal范围中,Squid先允许了所有的normal,那么再禁止baser就不会起作用。
特别要注意的是,Squid将使用allow-deny-allow-deny……这样的顺序套用规则。例如,当一个用户访问代理服务器时,Squid会顺序测试Squid中定义的所有规则列表,当所有规则都不匹配时,Squid会使用与最后一条相反的规则。就像上面这个例子,假设有一个用户的IP地址是192.168.0.201,他试图通过这台代理服务器访问Internet,会发生什么情况呢?我们会发现,他能够正常访问,因为Squid找遍所有访问列表也没有和192.168.0.201有关的定义,便开始应用规则,而最后一条是deny,那么Squid默认的下一条处理规则是allow,所以192.168.0.201反而能够访问Internet了,这显然不是我们希望的。所以在所有squid.conf中,最后一条规则永远是http_access deny all,而all就是前面定义的“src 0.0.0.0”。
按照这个配置应该没有问题
8. squid指定只缓存至内存或者硬盘
cache_mem 这个设置用多大的内存存储缓存
cache_dir 这个设置缓存存储在硬盘上
经常被访问的缓存会放在内存中
9. Servlet/JSP怎么控制页面缓存于squid中
近段时间在研究如何将Servlet/JSP中的伪动态页面缓存到Squid中来加速Web访问,在google上搜索"JSP在squid中的缓存"的信息,出来的信息比较少,后来差PHP,ASP的缓存相关资料及"深入体验java Web开发内幕——核心基础.pdf"和"Squid中文权威指南"中的相关章节,总算实现了这个目的(有需要这两本书的兄弟可以mail我 )。基于自己的一些理解和试验成果,记下来供以后参考。 HTML的HTTP协议头信息中控制着页面在几个地方的缓存信息,包括浏览器端,中间缓存服务器端(如:squid等),Web服务器端。本文讨论头信息中带缓存控制信息的HTML页面(JSP/Servlet生成好出来的也是HTML页面)在中间缓存服务器中的缓存情况。
HTTP协议中关于缓存的信息头关键字包括Cache-Control(HTTP1.1),Pragma(HTTP1.0),last-Modified,Expires等。
HTTP1.0中通过Pragma 控制页面缓存,可以设置:Pragma或no-cache。网上有非常多的文章说明如何控制不让浏览器或中间缓存服务器缓存页面,通常设置的值为no-cache,不过这个值不这么保险,通常还加上Expires置为0来达到目的。但是如我们刻意需要浏览器或缓存服务器缓存住我们的页面这个值则要设置为Pragma。
HTTP1.1中启用Cache-Control 来控制页面的缓存与否,这里介绍几个常用的参数:
no-cache,浏览器和缓存服务器都不应该缓存页面信息;
public,浏览器和缓存服务器都可以缓存页面信息;
no-store,请求和响应的信息都不应该被存储在对方的磁盘系统中;
must-revalidate,对于客户机的每次请求,代理服务器必须想服务器验证缓存是否过时;
max-age=xxx,s-max-age=xxx,替代Expires,表示应该在xxx秒后认为页面过时,后者指示代理服务器中缓存(通常称为共享缓存)的页面过期时间。(不过我试了好多次,这个选项一直没法实现,希望有人能补充!)
通常我们不需要缓存页面时设置该值为"no-cache,no-store,must-revalidate"(分三行代码设置);需要缓存页面信息时则设置该值为"public,max-age,s-max-age"。
Last-Modified只页面的最后生成时间,GMT格式;
Expires过时期限值,GMT格式,指浏览器或缓存服务器在该时间点后必须从真正的服务器中获取新的页面信息;
上面两个值在JSP中设置值为字符型的GMT格式,无法生效,设置long类型才生效;
最后来看一下JSP或Servlet中如何设置缓存控制信息的代码:
Java代码
//本页面允许在浏览器端或缓存服务器中缓存,时限为10秒。
java.util.Date date = new java.util.Date();
response.setDateHeader("Last-Modified",date.getTime());
response.setDateHeader("Expires",date.getTime()+10000);
response.setHeader("Cache-Control", "public");
response.setHeader("Pragma", "Pragma");
Java代码
//不允许浏览器端或缓存服务器缓存当前页面信息。
response.setHeader( "Pragma", "no-cache" );
response.setDateHeader("Expires", 0);
response.addHeader( "Cache-Control", "no-cache" );
response.addHeader( "Cache-Control", "no-store" );
response.addHeader( "Cache-Control", "must-revalidate" );
如果HTML页面信息中包括了Expires头信息,则其相关的缓存机制不再处理该页面,而是安装页面的缓存控制要求来处理。所以做了上述工作后,Squid无需做任何配置上的修改(指Squid的refresh_pattern指令不处理这些页面 )。
下面说一下Squid缓存一些静态资源的一些原理,Squid通过refresh_pattern指令来控制用户请求是否命中。 "Squid中文权威指南"文章中描述Squid的refresh_pattern指令一段文章读起来非常的拗口,就是LM_factor比率的算法,这个算法的概念翻译的比较模糊,网络上传来传去的,感觉都是搞不清楚,后来参考"OReilly - Squid The Definitive Guide.chm"英文原文,总算明白过来 。
英文原文应用代码
Responses that fall between the minimum and maximum are subject to Squid's
last-modified factor (LM-factor) algorithm. For such responses, Squid calculates
the response age and the LM-factor and compares it to the percent value. The
response age is simply the amount of time passed since the origin server
generated, or last validated, the response. The resource age is the difference
between the Last-Modified and Date headers. The LM-factor is the ratio of the
response age to the resource age.
LM-factor的定义是(response age)/(the resource age).
其中response age是指HTTP头信息中的age信息。
resource age是指HTTP头信息中的Date值减去Last-Modified的值转化为秒的值。
各位可以通过curl命令(Linux下自带命令)来参看一个资源返回回来的HTTP头详细信息,如下面这样:
curl -I
经过试验,这个算法是正确的,同时这里要提醒一下,特别是对一些HTML类型的资源,max值不要设置的太大,如果设置的太大的话,有可能修改的文档信息需要非常长的时间才能得到更新,因为LM-factor参数值是变化的,越来越大,分母变大的结果就是比率越来越小,总是小于我们设定的比率,导致需要max来控制页面刷新。