wordpress程序robots文件写法建议

简介

robots协议(也称为爬虫协议、爬虫规则、机器人协议等)也就是robots.txt,网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

Robots协议是网站国际互联网界通行的道德规范,其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守。一些病毒如malware(马威尔病毒)经常通过忽略robots协议的方式,获取网站后台数据和个人信息。

我们建立一个网站,有一些内容是不希望搜索引擎收录的,比如重复性的内容,动态的页面等,这些页面被搜索引擎发现之后,会降低权重,从而影响收录和排名,甚至有时候会导致被K站,这样就得不偿失了。

robots文件可以更好地帮助我们控制网站的蜘蛛爬取行为和索引方式。

搜索引擎蜘蛛对每个网站都有一个爬取配额。

这意味着它们在爬网会话期间对一定数量的页面进行爬网。如果他们还没有完成对您网站上所有页面的爬取,那么他们将返回并在下一个会话中继续爬取。

这可能会降低我们网站索引率。

您可以通过禁止搜索引擎阻止其爬网不必要的页面(如WordPress管理页面,插件文件和主题文件夹)来解决此问题。

通过禁止不必要的页面,可以节省蜘蛛爬取配额。这有助于搜索引擎在您的网站上抓取更多页面,并尽快为其建立索引。

所以合理的设置robots文件,我们可以提高网站对搜索引擎的友好度,帮助蜘蛛以我们认为的更好的方式抓取我们的网站。

温馨提示:你可以通过安装搜索引擎蜘蛛分析插件来进一步了解各大搜索引擎蜘蛛是如何爬取你的网站。

详细关于robots写法的介绍你可以点击这里查看:robots协议文件作用以及写法详解,以及阅读:Robots Meta标签,来帮助你更好的控制你网站在搜索引擎的索引结果。

在这里我来教你如何设置wordpress的robots.txt。

建议保持robots.txt干净, /wp-content/plugins/ 和 /wp-includes/ 目录包含您的主题和插件可能用于正确显示您的网站的图像,JavaScript或CSS文件。阻止这些目录意味着插件和WordPress的所有脚本,样式和图像被阻止,这使得Google和其他搜索引擎的抓取工具难以分析和理解您的网站内容。同样,你也不应该阻止你/wp-content/themes/。

建议包含Sitemap文件,帮助搜索引擎快速爬取收录你的网站页面。

Robots.txt的其他规则

出于安全,建议您阻止您的WordPress的readme.html,licence.txt和wp-config-sample.php文件访问,以便未经授权的人员无法检查并查看您正在使用的WordPress版本。

User-agent: *

Disallow: /readme.html

Disallow: /licence.txt

Disallow: /wp-config-sample.php

这是如何阻止蜘蛛抓取WordPress搜索结果,强烈建议加入此规则:

(路径请以网站自身搜索路径为准,以下路径为通常时候的情况。)

User-agent: *

Disallow: /?s=

Disallow: /search/

完整建议

综上所述,对于WordPress网站,我们建议在robots.txt文件中使用以下规则:

User-agent: *
Allow: /wp-admin/admin-ajax.php
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /readme.html 
Disallow: /licence.txt 
Disallow: /wp-config-sample.php
Disallow: /refer/
Disallow: /?s= 
Disallow: /search/
Sitemap: https://www.zhiyuanseo.com/wp-sitemap.xml

大家可以根据自己网站的实际情况配合: robots协议文件作用以及写法详解,以及阅读:Robots Meta标签 去设置自己wordpress网站的robots。例如:如果你的网站未设置伪静态,那么就不要设置禁止抓取动态地址。

下面带来一些常用的规则设置和解释:

1、Disallow: /wp-admin/、Disallow: /wp-content/和Disallow: /wp-includes/

用于告诉搜索引擎不要抓取后台程序文件页面。

2、Disallow: //comment-page-和Disallow: /?replytocom=

禁止搜索引擎抓取评论分页等相关链接。

3、Disallow: /category//page/和Disallow: /tag//page/

禁止搜索引擎抓取收录分类和标签的分页。

4、Disallow: /*/trackback

禁止搜索引擎抓取收录trackback等垃圾信息

5、Disallow: /feed、Disallow: /*/feed和Disallow: /comments/feed

禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。

6、Disallow: /?s=和Disallow: //?s=*\

禁止搜索引擎抓取站内搜索结果

7、Disallow: /?

禁止搜索抓取动态页面

8、Disallow: /attachment/

禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

9、Sitemap: https://www.zhiyuanseo.com/wp-sitemap.xml

网站地图 告诉爬虫这个页面是网站地图

当你撰写完成你的robots文件后,把文件上传至你的网站根目录下即可。

WordPress 自动创建虚拟 robots.txt 功能。

如果你的网站根目录不存在真实的 robots.txt,那么可以让 WordPress 自动创建一个虚拟的 robots.txt (该文件不会真实存在,但是你直接访问你robots文件地址可以正常显示,访问https://www.zhiyuanseo.com/robots.txt 时可以正常显示)

将下面的代码添加到主题的 functions.php 即可:

/**
 * 为你的 WordPress 站点添加 robots.txt
 */
add_filter( 'robots_txt', 'robots_mod', 10, 2 );
function robots_mod( $output, $public ) {
	$output .= "Disallow: /user/"; // 禁止收录链接中包含 /user/ 的页面
	return $output;
}

注:如果你想添加更多的规则,请复制上面代码的第 7 行,然后修改一下即可。

访问你的网站域名/robots.txt 我们可以看到如下内容:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /user/

也就是说,WordPress 默认已经添加了前 3 行规则了。

robots.txt 涉及到网站的收录,所以请确保你明白它的书写方法,保证每条规则都是正确无误的!

您可以阅读 robots协议文件作用以及写法详解以及:Robots Meta标签 ,结合该文,为您的网址撰写的专属合格的robots的文件。

SEO技巧

robots协议文件作用以及写法详解

2021-9-14 23:03:31

wordpress技巧

WordPress数据表结构详解

2021-9-16 21:06:46

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索