浅谈apache防盗链,浅谈apache


引子:明明引用了一个正确的图片地址,但显示出来的却是一个红叉或写有“此图片仅限于***网站用户交流沟通使用”之类的“假图片”(下图便是网易博客的防盗链效果)。用嗅探软件找到了多媒体资源的真实地址用下载软件仍然不能下载。下载一些资源时总是出错,如果确认地址没错的话,大多数情况都是遇上防盗链系统了。常见的防盗链系统,一般使用在图片、音视频、软件等相关的资源上。         一、什么是防盗链系统
        在确保地址正确的情况下,不能下载相应的资源,均是受到防盗链系统的影响,那么究竟什么是防盗链系统呢?防盗链自然就是防范盗链,所以这里先说一下什么是盗链。         盗链是指在自己的页面上展示一些并不在自己服务器上的内容。通常的做法是通过技术手段获得它人服务器上的资源地址,绕过别人的资源展示页面,直接在自己的页面上向最终用户提供此内容。比较常见的是一些小站盗用大站的资源(图片、音乐、视频、软件等),对于这些小站来说,通过盗链的方法可以减轻自己服务器的负担,因为真实的空间和流量均是来自别人的服务器。         防盗链系统就是防范盗链的系统,防止别人通过一些技术手段绕过本站的资源展示页面,盗用本站的资源,让绕开本站资源展示页面的资源链接失效。实施防盗链系统后,因为屏蔽了那些盗链的间接资源请求,从而可以大大减轻服务器及带宽的压力,也正如此,越来越多的站点都开始实施防盗链技术。         二、窥视防盗链
        现在大家应该知道了为什么有真实地址仍然不能下载,这就是防盗链的作用。凡事必有因果,为什么可以防盗链呢,其实现原理是什么?防盗链又是如何实现的呢?         提到防盗链的实现原理就不得不从HTTP协议说起,在HTTP协议中,有一个表头字段叫referer,采用URL的格式来表示从哪儿链接到当前的网页或文件。换句话说,通过referer,网站可以检测目标网页访问的来源网页,如果是资源文件,则可以跟踪到显示它的网页地址。有了referer跟踪来源就好办了,这时就可以通过技术手段来进行处理,一旦检测到来源不是本站即进行阻止或者返回指定的页面。 如果想对自己的网站进行防盗链保护,则需要针对不同的情况进行区别对待。如果网站服务器用的是apache,那么使用apache自带的Url Rewrite功能可以很轻松地防止各种盗链,其原理是检查refer,如果refer的信息来自其他网站则重定向到指定图片或网页上。         如果服务器使用的是IIS的话,则需要通过第三方插件来实现防盗链功能了,现在比较常用的一款产品叫做ISAPI_Rewrite,可以实现类似于apache的防盗链功能。另外对于论坛来说还可以使用“登录验证”的方法进行防盗链。         三、以子之予攻子之盾,防盗链的破解
        尽管防盗链技术越来越成熟,破解相对来说难度较大,但在了解原理之后,大多都可以针对其防范的原理入手进行破解。         对于图片防盗链,已经有人给出了详细的破解代码,对应的代码页面笔者已上传到笔者以前的个人博客空间中,在转发图片时,在图片地址前面加上“http://www.z7z8.com.cn/old/pic.asp?url=”地址即可解决图片防盗链问题。如果有自己的网站空间可以直接从http://www.z7z8.com.cn/old/pic.zip下载,解压后上传到自己的空间中,转贴时在图片地址前面加上“域名/路径/pic.asp?url=”即可。 对于文件资源的防盗链,可以通过人为的加上引用页的方法来解决不能下载的问题,如获得http://www.z7z8.com.cn/old/pic.zip这一地址,下载时发现采用了防盗链技术,这时可以在新建下载任务时人为添加“引用页:”。因为绝大多数防盗链只是判断引用页是不是本站,所以这一方法可以突破防盗链进行下载,但不是所有情况下均有效。         默认情况下,迅雷的新建任务对话框中是没有“引用页”项的,需要在迅雷中执行“工具→配置”,在打开的“配置面板”对话框中,在“任务默认属性”标签中,勾选“新建面板显示引用页”复选框即可。         小提示:         上面讨论的只是较初级的防盗链也破解,随着技术的日新月异,防盗链技术也飞速发展,因此现在的防盗链技术也要先进、复杂得多了。所以上面提到的破解方法并不一定针对所有的防盗链情况适用。 接下来补充一些实际例子

无论是对于搜索引擎还是对于访客而言,很多网站程序生成的URL并不友好,所以需要将URL以更简短的方式来重写。这种技术可以解决很多常见的问题,如:页面伪静态域名重定向等。URL重写并非只有Apache的rewrite模块能做到,ISAPI也可以实现。但ISAPI只能用于Wndows,国内很多虚拟空间都只支持ISAPI2,功能较弱。rewrite模块的强大在于,他可以用正则来实时重写URL请求,一个规则可以拥有很多子规则、附加条件。

下图是有一条重写条件的重写规则,可以看出Rewrite最基本的格式:重写条件(RewriteCond)是字符串在前,正则在后;重写规则(RewriteRule)是正则在前,字符串在后。本文将从几个简单例子出发,说明一些常用的Rewrite的语法,并解决具体的问题。

EXAMPLE 1

123RewriteEngine onRewriteCond $1 !(index\.php|images)RewriteRule ^(.*)$ /index.php?page=$1 [L]

RewriteEngine on:开启RewriteRewriteCond $1 !(index\.php|images):如果文件不为index.php或目录不为images。RewriteRule ^(.*)$ /index.php?page=$1:转给index.php处理。

$1代表引用RewriteRule中的第一个正则(.*)代表的字符。RewriteCond中的正则很普通,所以不做说明。RewriteRule中的正则,(.*)代表任意字符,^是开始锚,$是结束锚。

设置之后,当访问dmyz.org/about时,实际是访问dmyz.org/index.php?page=about,从url中省略掉了index.php。这一规则经常用于框架开发环境,因为大多数框架都是将所有的请求提交给一个入口文件(通常是index.php)来处理的。

将第三行修改:

1 RewriteRule ^(.*)\.htm$ /index.php?page=$1

访问dmyz.org/about.htm时实际访问的仍然是dmyz.org/index.php?page=about,这就实现简单的伪静态了。

EXAMPLE 2

123RewriteEngine onRewriteCond %{REQUEST_FILENAME} !-fRewriteRule (.*) /404.htm

用这个简单的例子来说明重写条件(RewriteCond)使用的服务器变量特殊正则

%{REQUEST_FILENAME}获得一个服务器变量的值,!-f是正则,其中感叹号表否定,-f用来检测当前值所代表的路径是否是一个常规文件。因此例2实现的是:当访问的文件不是一个常规文件时,转到404.htm页面。这就是一个简单的用Rewrite实现404页面重定向的例子。还可以补充一下,将其修改为:

1 2 3 4 5 RewriteEngine on RewriteCond %{REQUEST_FILENAME} !-f #如果当前变量所代表的路径不是一个常规目录 RewriteCond %{REQUEST_FILENAME} !-d RewriteRule (.*) /404.htm

服务器变量有很多,常用的如下表:

服务器变量 用途 参考
%{HTTP_USER_AGENT} 访客的浏览器类型 Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.2.8) Gecko/20100723 Ubuntu/10.04 (lucid) Firefox/3.6.8GTB7.1
%{HTTP_REFERER} 访问的链接地址 http://dmyz.org/archives/99
%{HTTP_FORWARDED} 通过HTTP获得地址,通常是访客的IP地址,但HTTP头可以修改,所以如果要判断访客的IP,推荐使用%{REMOTE_ADDR} 192.168.0.1
%{HTTP_HOST} 访问的域名 http://dmyz.org
%{SERVER_ADDR} 服务器的IP地址 127.0.0.1
%{REMOTE_ADDR} 访客IP地址 192.168.0.1
%{REMOTE_USER} 只在HTTP验证中有用,保存验证时使用的用户名 admin
%{REQUEST_METHOD} 提交查询的方式 GET或是POST
%{SCRIPT_FILENAME} 所访问的文件的绝对路径 /var/www/dmyz.org/htdocs/index.php
%{QUERY_STRING} 查询字符串,包含查询变量名和参数 page=1&name=dmyz
%{TIME_YEAR}/%{TIME_MON}/%{TIME_DAY} 获取年/月/日 2010/09/30

EXAMPLE 3

123RewriteEngine onRewriteCond %{QUERY_STRING} ^pageid\=(.*)?$ [NC]RewriteRule ^index(.*)$ http://dmyz.org/thread.php\?fid=%1 [R=301,L]

本例中使用了配置指令,和重写规则对重写条件的引用。

如例2所说,重写条件可以使用服务器变量和特殊正则,但重写规则不可以。所以需要在重写规则中反向引用重写条件的内容。例3中使用%1来反向引用(.*)?。当查询字符串为pageid=任意字符串时,跳转到thread.php?fid=任意字符串。这条正则很适合网站搬家、更换程序后,将原地址转向到新地址。

前两个例子,重写条件和重写规则都只有两个参数——正则和字符串,本例中追加第三个参数,它被称为标识,跟在重写条件和重写规则之后的,作为辅助、补充之用。本例中使用了最简单三个标识:

  1. [NC]:忽略大小写。
  2. [L]:结尾标识。停止重写操作,并不再应用其他重写规则。防止本条规则被后续规则影响。
  3. [R=301]:利用HTTP 301跳转。

还有其他很有用的标识,可以参考Apache手册。


附:最近遇到的几个问题,虽然使用了.htaccess文件,但并未使用rewrite,一并写在这里。设置了Expires headers,关闭了Etag,开启了Wordpress的Gzip压缩。设置之后本站Yslow等级为A。

Shell
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 # BEGIN WordPress RewriteEngine On RewriteBase / RewriteRule ^index\.php$ - [L] RewriteCond %{REQUEST_FILENAME} !-f RewriteCond %{REQUEST_FILENAME} !-d RewriteRule . /index.php [L] # END WordPress   # BEGIN Gzip SetOutputFilter DEFLATE AddOutputFilterByType DEFLATE text/html text/css image/gif image/jpeg image/png application/x-javascript # END Gzip   # BEGIN Etag FileETag none # END Etag   # BEGIN Expires headers Header set Expires "Thu, 15 Oct 2010 20:00:00 GMT" # END Expires headers


相关内容

    暂无相关文章