“robots.txt”简介-创新互联

有一种隐藏的,无情的力量×××到网络及其数十亿的网页和文件中,我们大多数众生都不知道。我说的是搜索引擎爬虫和机器人。每天都有数以百计的人出去浏览网络,不管是谷歌(Google)试图为整个网络建立索引,还是一个垃圾邮件机器人收集它能找到的任何不那么体面的电子邮件地址。作为站点所有者,当机器人访问我们的站点时,我们对机器人可以做什么有多么小的控制,存在于一个名为“robots.txt”的神奇的小文件中。

创新互联是一家集网站设计制作、网站制作、网站页面设计、网站优化SEO优化为一体的专业网站建设公司,已为成都等多地近百家企业提供网站建设服务。追求良好的浏览体验,以探求精品塑造与理念升华,设计最适合用户的网站页面。 合作只是第一步,服务才是根本,我们始终坚持讲诚信,负责任的原则,为您进行细心、贴心、认真的服务,与众多客户在蓬勃发展的市场环境中,互促共生。

“robots.txt”是一个普通的文本文件,通过它的名称,对大多数网络上的“光荣”机器人具有特殊的意义。通过在此文本文件中定义一些规则,您可以指示机器人不爬行和索引站点中的某些文件、目录,或者根本不对其进行索引。例如,您可能不希望Google爬行站点的/映像目录,因为它对您来说既没有意义,也浪费了站点的带宽。“robots.txt”让你告诉谷歌。

“robots.txt”简介创建“robots.txt”文件

所以让我们开始行动吧。创建一个名为“robots.txt”的常规文本文件,并确保它的名称准确。此文件必须上载到根部可访问的站点目录,而不是子目录(即:https://www.google.com但不是https://www.google.com/2/)只有遵循上述两条规则,搜索引擎才能解释文件中的指令。偏离这一点,“robots.txt”就变成了一个普通的文本文件,就像午夜后的灰姑娘一样。

现在您已经知道了如何命名您的文本文件并将其上传到何处,您需要了解如何将命令发送到遵循该协议的搜索引擎(正式上是“机器人排除协议”)。该格式对于大多数意图和目的来说都足够简单:USERAGENT行,以识别问题中的爬行器,后面跟着一个或多个爬虫。不允许:线不允许它从你的网站的某些部分爬行。

1)下面是一个基本的“robots.txt”:

User-agent: *
Disallow: /

在上述声明之后,所有机器人(由“*”表示)都被指示不要索引任何页面(由“/”表示)。很可能不是你想要的,但你知道。

2)现在让我们再来点歧视吧。虽然每个网站管理员都喜欢Google,但您可能不希望Google的Imagebot爬行您的站点的图像并制作它们。可在线搜索如果只是为了节省带宽。下面的声明将起作用:

User-agent: Googlebot-Image
Disallow: /

3)以下内容禁止所有搜索引擎和机器人爬行选择目录和页面:

User-agent: *
Disallow: /cgi-bin/
Disallow: /privatedir/
Disallow: /tutorials/blank.htm

4)您可以在“robots.txt”中有条件地针对多个机器人。请看下面的内容:

User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/

这是很有趣的-在这里我们声明爬虫一般不应该爬行我们网站的任何部分,对于google,它允许爬行整个站点,而不是/CGI-bin//Privatedir/。因此,专一性的规则是适用的,而不是继承的。

5)有一种使用“不允许”的方法:本质上将其转换为“允许所有”,即在分号(:)之后不输入一个值:

User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:

这里我是说,所有爬虫都应该被禁止爬行我们的网站,除了阿列克莎,这是允许的。

6)最后,一些爬虫现在支持一个名为“允许:”的额外字段,最值得注意的是,Google。顾名思义,“允许:”允许您显式地规定哪些文件/文件夹可以爬行。然而,这个领域目前并不是“robots.txt”协议的一部分,所以我建议只在绝对需要时才使用它,因为它可能会混淆一些不那么聪明的爬虫器。

每谷歌网站管理员常见问题,下面是不允许所有爬虫从您的站点上爬行的选方法。谷歌:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


分享名称:“robots.txt”简介-创新互联
本文来源:http://azwzsj.com/article/dpoipe.html