WordPress优化之robots.txt的写法
robots.txt 文件对于网站在搜索引擎中的展示有着至关重要的作用,robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被搜索引擎 robots 访问的部分,如果你还不太了解 robots.txt,可以先看看 robots.txt的写法 。对于 wordpress 来说,我们也有必要研究下专门针对 WordPress 的写法,通过 robots.txt 声明来保护你的诸如插件、管理目录等隐私。
先来看下较严格的一种写法:
User-agent: * Disallow: /wp-* #Allow: /wp-content/uploads/ Disallow: /*.php$ Disallow: /*.inc$ Disallow: /*.js$ Disallow: /*.css$ Disallow: /?s=
这种写法允许所有蜘蛛访问,但会限制以“wp-”开头的目录及文件,并限制抓取.php文件、.inc文件、.js文件和.css文件,同时会限制抓取搜索结果。其中 Disallow: /wp-* 会连同附件目录(即你上传的图片、软件等)一起限制抓取,如果想让搜索引擎抓取附件中的内容,只需要将第三行的 # 号注释去掉即可。
再来看来较合理的一种写法:
User-agent: * Disallow: /wp-admin Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-includes Disallow: /?s= Sitemap: http://www.domain.com/sitemap.xml
采用这种写法允许所有搜索引擎抓取,并逐一列举需要限制的目录,同时限制抓取网站的搜索结果,最后一行代码是你网站的 Sitemap 路径,大多数搜索引擎都会识别它。
最后分享下园子自己的 robots.txt 写法:
User-agent: * Disallow: /wp-admin Disallow: /wp-content/plugins Disallow: /wp-content/themes Disallow: /wp-includes Disallow: /adlogger Disallow: /?s= Disallow: /page/ Disallow: /*/page/ Disallow: /category/*/page/ Disallow: /tag/*/page/ Sitemap:http://www.yzznl.cn/sitemap.xml
园子采用的写法在上面的基础上做了下改进,主要说明如下:
* Disallow: /page/ 限制抓取 Wordpress 的分页,也就是形如:http://www.yzznl.cn/page/2 之类的链接。
* Disallow: /category/*/page/为限制抓取分类目录中的分页,如:http://www.yzznl.cn/category/google-AdSense/page/2 之类的链接。
* Disallow: /tag/*/page/ 为限制抓取标签页面中的分页,即形如:http://www.yzznl.cn/tag/soft/page/2 之类的链接。
当然,有些朋友还采用了如下的写法:
Disallow: */trackback/ Disallow: /category/*
第一行为限制抓取所有的 Trackback 内容,第二行为限制抓取所有分类列表,你可以根据需要进行适当的修改。
如果你对于你的robots.txt的写法不放心的话,建议你使用 Google管理员工具中的“工具 -> 测试 robots.txt”来对你的更改进行测试,这样可以确保你的操作正确性。
转自:园子
其他人还看了
本文标签: wordpress



