意见箱
恒创运营部门将仔细参阅您的意见和建议,必要时将通过预留邮箱与您保持联络。感谢您的支持!
意见/建议
提交建议

云虚拟主机被爬虫访问耗费大量流量的解决方法

来源:恒创科技 编辑:恒创科技编辑部
2021-11-15 14:45:05

问题描述

  用户使用虚拟主机搭建的网站被爬虫访问,耗费大量流量和带宽的处理方法。

解决方案

  在站点根目录下创建 robots.txt文件,robots.txt 文件是网站的一个文件,搜索引擎抓取网站数据时,首先就是抓取的该文件,根据里面的内容决定对网站文件访问的范围。它能够保护我们的一些文件不暴露在搜索引擎之下,从而有效的控制爬虫的抓取路径。

  说明:robots 协议也叫 robots.txt,robots 协议不是强制协议,部分搜索引擎或者伪装成搜索引擎的爬虫不会遵守该协议,对于不遵守该协议的情况,以下方法无效。

  根据更多信息中的搜索引擎和其对应的 User-Agent,Robots.txt 代码样例如下所示:

  • 禁止所有搜索引擎访问网站的任何位置。

  User-agent:  Disallow: /

  • 允许所有的搜索引擎访问网站的任何位置。

  User-agent:  Disallow:

  • 仅禁止Baiduspider搜索引擎访问您的网站。

   User-agent: Baiduspider  Disallow: /

  • 仅允许Baiduspider访问您的网站。

    User-agent: Baiduspider  Disallow:

  • 禁止spider搜索引擎访问特定目录。

   User-agent: *  Disallow: /cgi-bin/  Disallow: /tmp/  Disallow: /data/

       说明:特定三个目录需要分别并列写。请注意最后需要带斜杠。

  • 允许访问特定目录中的部分URL,实现a目录下只有b.htm允许访问。

    User-agent: *  Allow: /a/b.htm  Disallow: /a/

更多信息

目前搜索引擎和其对应的 User-Agent 如下所示。

<td width="217"

User-Agent

搜索引擎


AltaVista

Scooter

baidu

Baiduspider

Infoseek

Infoseek

Hotbot

Slurp

AOL Search

Slurp

Excite

ArchitextSpider

Google

Googlebot

Goto

Slurp

Lycos

Lycos

MSN

Slurp

Netscape

Googlebot

NorthernLight

Gulliver

WebCrawler

ArchitextSpider

Iwon

Slurp

Fast

Fast

DirectHit

Grabber

Yahoo Web Pages

Googlebot

LooksmartWebPages

Slurp

上一篇: 自动续费流程及规则说明 下一篇: 服务器通用请求返回值