robots怎么写_育才学习网

1. 请教robots怎么写呀

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示： "："。

在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行，详细情况如下： User-agent：该项的值用于描述搜索引擎robot的名字，在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。

如果该项的值设为*，则该协议对任何机器人均有效，在"robots.txt"文件中，"User-agent：*"这样的记录只能有一条。 Disallow：该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。

例如"Disallow:/help"对/help.html 和/help/index.html都不允许搜索引擎访问，而"Disallow:/help/"则允许robot访问/help.html，而不能访问/help/index.html。任何一条Disallow记录为空，说明该网站的所有部分都允许被访问，在"/robots.txt"文件中，至少要有一条Disallow记录。

如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。 Allow：该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL是允许robot访问的。

例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的，所以Allow通常与Disallow搭配使用，实现允许访问一部分网页同时禁止访问其它所有URL的功能。

需要特别注意的是Disallow与Allow行的顺序是有意义的，robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。使用"*"和"$"： robots支持使用通配符"*"和"$"来模糊匹配url： "$" 匹配行结束符。

"*" 匹配0或多个任意字符。

2. 网站的robots怎么写啊,请高手指点

合理的设置网站的robots对网站的优化有很大的帮助。我们需要创建一个robots.txt文件，然后上传到网站的根目录就可以了。网站robots.txt的内容格式如下：

User-agent：（蜘蛛名字）

Disallow：（文件名字）

或者

User-agent：（蜘蛛名字）

Allow：（文件名）

Disallow：（文件名）

User-agent：定位搜索引擎的命令

给你举个例子，如果你想屏蔽百度蜘蛛抓取你的admin文件，你可以这样写

User-agent: Baiduspider

Disallow: /admin

如果你想了解更多的关于robots.txt文件的书写方法，你可以参考我的博客里面写的，里面都有实例分析参考资料：

3. robots.txt文件怎么写

举一个简单的例子：当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围；如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

常见的蜘蛛识别：google蜘蛛（Googlebot）、baidu蜘蛛（Baiduspider）、bing蜘蛛（MSNbot）、sousou蜘蛛（sosospider）robots.txt文件的写法User-agent： * 这里的*代表的所有的搜索引擎种类，*是一个通配符Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL（包含子目录）。

4. 怎样写robots文件

robots.txt文件的格式User-agent：定义搜索引擎的类型Disallow：定义禁止搜索引擎收录的地址Allow：定义允许搜索引擎收录的地址我们常用的搜索引擎类型有：google蜘蛛：googlebot百度蜘蛛：baiduspideryahoo蜘蛛：slurpalexa蜘蛛：ia_archivermsn蜘蛛：msnbotaltavista蜘蛛：scooterlycos蜘蛛：lycos_spider_(t-rex)alltheweb蜘蛛：fast-webcrawlerinktomi蜘蛛： slurprobots.txt文件的写法User-agent： * 这里的*代表的所有的搜索引擎种类，*是一个通配符Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录Disallow: /ABC 这里定义是禁止爬寻ABC整个目录Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL（包含子目录）。

Disallow： /*？* 禁止访问网站中所有的动态页面Disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片Disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件User-agent： * 这里的*代表的所有的搜索引擎种类，*是一个通配符Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录Allow: /tmp 这里定义是允许爬寻tmp的整个目录Allow: .htm$ 仅允许访问以".htm"为后缀的URL。Allow: .gif$ 允许抓取网页和gif格式图片robots.txt文件用法举例例1. 禁止所有搜索引擎访问网站的任何部分User-agent: *Disallow： /实例分析：淘宝网的 Robots.txt文件User-agent: BaiduspiderDisallow： /很显然淘宝不允许百度的机器人访问其网站下其所有的目录。

5. 请教关于robots写法的一些

robots.txt文件的写法 User-agent： * 这里的*代表的所有的搜索引擎种类，*是一个通配符 Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录 Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录 Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录 Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL（包含子目录）。

Disallow： /*？* 禁止访问网站中所有的动态页面 Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp的整个目录 Allow: .htm$ 仅允许访问以".htm"为后缀的URL。

Allow: .gif$ 允许抓取网页和gif格式图片。

6. 一般门户网站的robots文件怎么写

使用Wordpress搭建的博客，利用robots.txt文件限制搜索引擎抓取部分目录及文件，归纳大致有以下几种方法。

最简单的开放写法不作任何限制，Wordpress站内链接结构比较合理，作为一般博客，完全开放就可以了，代码：User-agent: *Disallow：允许所有蜘蛛访问，允许访问所有内容。Wordpress只要模板中链接设计合理，没有需要限制的特殊内容，推荐使用这种写法。

最简单的严格写法User-agent: *Disallow: /wp-*#Allow: /wp-content/uploads/Disallow: /*.php$Disallow: /*.inc$Disallow: /*.js$Disallow: /*.css$Disallow: /?s=允许所有蜘蛛访问，限制以“wp-”开头的目录及文件，限制抓取.php文件、.inc文件、.js文件、.css文件，限制抓取搜索结果。Disallow: /wp-* 会连同附件目录一起限制抓取，如果想让搜索引擎抓取附件中的内容，将第三行的 # 号注释去掉。

Allow 不是所有搜索引擎都支持。最合理的写法卖瓜的都说自己瓜甜，我也觉得自己的Robots.txt写的最合理 User-agent: *Disallow: /wp-adminDisallow: /wp-content/pluginsDisallow: /wp-content/themesDisallow: /wp-includesDisallow: /?s=Sitemap: /sitemap.xml允许所有搜索引擎抓取，逐一列举需要限制的目录，限制抓取搜索结果。

包含sitemap.xml地址（这一项viki中有专门的说明，但Google管理员工具会提示‘检测到无效的 Sitemap 引用’，有效性尚有争议）。robots.txt其他写法为避免在搜索引擎中出现重复页面，Wordpress玩家自创了很多robots写法，列举一些常用的，作为参考（适用于伪静态方式的永久链接）：Disallow: /page/#限制抓取Wordpress分页Disallow: /category/*/page/*#限制抓取分类的分页Disallow: /tag/#限制抓取标签页面Disallow: */trackback/#限制抓取Trackback内容Disallow: /category/*#限制抓取所有分类列表最后，推荐使用 Google管理员工具，登录后访问“工具 -> 分析 robots.txt”，检查文件有效性。

robots怎么写

转载请注明出处育才学习网 » robots怎么写

robots怎么写

1. 请教robots怎么写呀

2. 网站的robots怎么写啊,请高手指点

3. robots.txt文件怎么写

4. 怎样写robots文件

5. 请教关于robots写法的一些

6. 一般门户网站的robots文件怎么写

怎么写学校歌

it个人职业目标怎么写

感激的英语怎么写

田字格干字怎么写

微信怎么写位置

手机怎么写java代码

行书向怎么写

退伍鉴定怎么写

童草书怎么写

如果繁体字怎么写

十一的日语怎么写

去世后怎么写

信用报告怎么写

地产软文怎么写