squid如何强制缓存动态页面

81次阅读
没有评论

共计 3149 个字符,预计需要花费 8 分钟才能阅读完成。

squid 如何强制缓存动态页面,很多新手对此不是很清楚,为了帮助大家解决这个难题,下面丸趣 TV 小编将为大家详细讲解,有这方面需求的人可以来学习下,希望你能有所收获。

其实我本不想写这个标题,我的本意是缓存 yupoo api 的查询数据,这个过程中找到了参考方法(Caching Google Earth with Squid)。呵呵,所以偶也来一回标题党。

这篇参考流传非常广,Digg 上也被提过,我也不知道原出处是哪里了。

可是。。。。你按照它的指示设置,它并不能正确工作!!

话说回来,先说说我的需求。

最近 yupoo 的访问速度很慢,我有一堆 api 请求经常无法完成,猜测要么对方限制了同一 ip 的连接数,要么是 yupoo 又遇到了新一轮的流量瓶颈。跟 Yupoo 的 zola 联系后,确认是他们的负荷太高引起的,并没有限制连接数。所以我要想办法在我这边做一些缓存了。

因为我这边本身就是用 squid 代理来解决 Ajax 中调用 API 的跨域问题的,所以自然是目标瞄准了 squid 的配置文件。

yupoo api 的请求地址是 www.yupoo.com/api/rest/?method=xx xxxxxxx…

大家都知道 squid 会自动缓存静态文件,可对于这种动态网页怎么让它也缓存起来呢,所以在 google 上找啊找,找到上面提得那片缓存 Google Earth 的博客文章。
他的方法是:

acl QUERY urlpath_regex cgi-bin \? intranet
acl forcecache url_regex -i kh.google keyhole.com
no_cache allow forcecache
no_cache deny QUERY

# —-
refresh_pattern -i kh.google 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload

refresh_pattern -i keyhole.com 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload

原理就是用 no_cache allow 和 refresh_pattern 来设定一些缓存规则,将 google earth 的请求强行缓存起来。

此文一出,自然早有人去验证,可是没人成功,原作者也音讯全无   … squid 的邮件列表里也提到。(看标题进来的朋友,不要急,继续往下读,不会让你空手而回的  )

我也没在意,估计人家功力问题  。先试着用改写一下解决 yupoo api 的缓存问题。

acl QUERY urlpath_regex cgi-bin \?
acl forcecache url_regex -i yupoo\.com
no_cache allow forcecache
no_cache deny QUERY

refresh_pattern -i yupoo\.com 1440 50% 10080 override-expire override-lastmod reload-into-ims ignore-reload

嘿,果然 nnd 毫无用处,访问记录里还是 一坨坨 TCP_MISS

于是翻来覆去看文档,找资料,发现是 squid 的 bug 惹得祸,不过早已经修正(严格来说是功能扩展补丁)。

我的 squid 是 2.6.13, 翻了一下源代码,确实已经打好补丁了。

解决这个问题需要 refresh_pattern 的几个扩展参数 (ignore-no-cache ignore-private),这几个参数在 squid 的文档和配置例子中均没有提到,看来 squid 还不够与时俱进。

下面讲一下问题所在。

先看看 yupoo api 返回的 HTTP 头部信息(cache 相关部分)

Cache-Control: no-cache, must-revalidate
Pragma: no-cache

这两行是控制浏览器的缓存行为的,指示浏览器不得缓存。squid 也是遵循 RFC 的,正常情况下自然不会去缓存这些页面。override-expire override-lastmod reload-into-ims ignore-reload 统统不能对付它。

而那个补丁正是对付这两个 Cache-Control:no-cache 和 Pragma: no-cache 的。

因此把 refresh_pattern 那句要改写成

refresh_pattern -i yupoo\.com 1440 50% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private

这样就大功告成了,squid -k reconfigure 看看 access.log , 这回里面终于出现
TCP_HIT/200 TCP_MEM_HIT/200 了,说明缓存规则确实起作用了,那个激动啊 555~~~~

====================
补充:
后来我看了一下 google earth 服务器 hk1.google.com 的 HTTP 头部,只有

Expires: Wed, 02 Jul 2008 20:56:20 GMT
Last-Modified: Fri, 17 Dec 2004 04:58:08 GMT

,这么看来照理不需 ignore-no-cache ignore-private 也能工作,可能是作者这里写错了
kh.google 应该是 kh.\.google 才对。

最后总结一下,缓存 Google Earth/Map 的正确的配置应该是

acl QUERY urlpath_regex cgi-bin \? intranet
acl forcecache url_regex -i kh.\.google mt.\.google mapgoogle\.mapabc keyhole.com
no_cache allow forcecache
no_cache deny QUERY

# —-
refresh_pattern -i kh.\.google 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private
refresh_pattern -i mt.\.google 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private
refresh_pattern -i mapgoogle\.mapabc 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private

refresh_pattern -i keyhole.com 1440 20% 10080 override-expire override-lastmod reload-into-ims ignore-reload ignore-no-cache ignore-private

注:
khX.google.com 是 google earth 的图片服务器
mtX.google.com 是 google map 的图片服务器
mapgoogle.mapabc.com 是 google ditu 的图片服务器
http://nukq.malmam.com/archives/16

看完上述内容是否对您有帮助呢?如果还想对相关知识有进一步的了解或阅读更多相关文章,请关注丸趣 TV 行业资讯频道,感谢您对丸趣 TV 的支持。

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-08-25发表,共计3149字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)