http:response
X-Frame-Options是什么?
x-frame-options是一个HTTP响应头,用来告诉浏览器这个网页是否可以放在iframe内。
x-frame-options可以防止网站被别人用iframe嵌入使用。
x-frame-options:有三个值
x-frame-options:DENY
x-frame-options:SAMEORIGIN
x-frame-options:ALLOW-FROM http://caibaojian.com/
第一个例子是告诉浏览器不要(DENY)把这个网页放在iframe内,通常的目的就是
帮助用户对抗点击劫持。
第二个例子告诉浏览器只有当框架iframe的网站与X-Frame-Options的网站相同,才能
显示发出X-Frame-Options网页的内容。
第三个例子告诉浏览器这个网页只能放在HTTP//caibaojian.com//网页架设的iframe内。
在nginx中如何设置这个HTTP响应头???、
可以在nginx的HTTP模块或者server选项、或者location选项设置。
add_header X-Frame-Options SAMEORIGIN;
Robots.txt--禁止爬虫
需要在网站的根目录下,新建robots.txt
robots.txt用于禁止网络爬虫访问网站制定的目录。robots.txt的格式采用面向行的语法:空行、注释行(以#打头)、规则行。
规则行的格式为:Field:value。常见的规则行:User-Agent、Disallow、Allow行。
User-Agent行
User-Agent:robot_name
User-Agent:*
Disallow和Allow行
Disallow: /path
Disallow: #空字符串,起到通配符效果,全禁止
Allow:/path
Allow: #空字符串,起通配符效果,全允许
搜索引擎的User-Agent对应的名称
搜索引擎 User-Agent值
Google googlebot
百度 baiduspider
雅虎 slurp
MSN msnbot
Alexa is_archiver
robots.txt的补充
如果你没有对网站跟目录的写入权限(无法建立robots.txt文件),或你想要某个指定的网页不被搜索引擎收录,
可以使用原标签阻止爬虫访问:
<!- 阻止所有的爬虫 -->
robots元标记的默认值为“index,follow”,它的取值可以是:
noindex 防止网页被编入索引
nofollow 防止googlebot从此页面中跟踪链接。
noarchive 防止Google显示网页的快照链接。
noimageindex 不被Google图片搜索引擎。
PHP配置文件中的open_basedir配置选项
open_basedir可将用户访问文件的活动范围限制在制定的区域,通常是其家目录的路径,也可以用
符号“.”来代表当前目录。注意用open_basedir制定的限制实际上是前缀,而不是目录名。
举例来说:若"open_basedir = /dir/user",那么目录"/dir/user"和"dir/user1"都是
可以访问的。所以如果要将访问限制在仅为制定的目录,请用斜线结束路劲名。例如设置为:
"open_basedir = /dir/user/"
open_basedir也可以同时设置为多个目录,在windows中用分号分割目录,
在Linux系统中冒号分割目录。