关于java后台的robots命令怎么写的讨论正在各大平台持续发酵,我们精心筛选了最新资讯,希望能为您带来实质性的帮助。
1.robots.txt文件是什么
robots.txt是一个纯文本文件,是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。每个站点最好建立一个robots.txt文件,对seo更友好。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt(即使这个robots.txt文件只是一个空文件)。
2.robots.txt的写法(语法)
1)User-agent: 该项的值用于描述搜索引擎蜘蛛的名字。如果该项的值设为*,则该协议对任何机器人均有效。
2)Disallow: 该项的值用于描述不希望被访问到的一个URL,一个目录或者整个网站。以Disallow 开头的URL 均不会被搜索引擎蜘蛛访问到。任何一条Disallow 记录为空,说明该网站的所有部分都允许被访问。
3)用法举例:
网站目录下所有文件均能被所有搜索引擎蜘蛛访问
User-agent: *
Disallow:
禁止所有搜索引擎蜘蛛访问网站的任何部分
User-agent: *
Disallow: /
禁止所有的搜索引擎蜘蛛访问网站的几个目录
robots.txt的写法(语法)
robots.txt就是一个记事本文件(txt格式文件),存放在网站根目录下。
那么robots.txt语法到底有哪些呢?
robots.txt语法有三个语法和两个通配符。
三个语法:
1.首先要定义网站被访问的搜索引擎是那些。
User-agent:(定义搜索引擎)
语法:User-agent: * 或 搜索引擎的蜘蛛名称
例子:User-agent:Googlebot (定义谷歌,只允许谷歌蜘蛛爬取)
User-agent:Baiduspider (定义百度,只允许百度蜘蛛爬取)
User-agent:*(定义所有搜索引擎)
2:屏蔽搜索引擎爬去语法
Disallow禁止语法) 用来定义禁止蜘蛛爬取的页面或目录。
写法:DisAllow:/文件夹目录/ (表示禁止蜘蛛爬取网站的其中一个目录)
或 DisAllow:/文件名称 (表示禁止蜘蛛爬取网站的其中一个页面)
例如isallow:/ (禁止蜘蛛爬取网站的所有目录 “/” 表示根目录下)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Disallow:/abc.html (禁止蜘蛛爬去abc.html页面)
Disallow:/help.html (禁止蜘蛛爬去help.html页面)
整套语法示范:
User-agent: *
Disallow:/目录1/ (禁止所有搜索引擎的蜘蛛爬取站点的目录1)
Disallow:/目录2/ (禁止所有搜索引擎的蜘蛛爬取站点的目录2)
3:允许搜索引擎爬去语法
Allow允许语法) 用来定义允许蜘蛛爬取的页面或子目录
例如: Disallow:/ (禁止蜘蛛爬取网站的所有目录)
Disallow:/admin (禁止蜘蛛爬取admin目录)
Allow:/admin/abc.html(“/” 表示根目录下,允许蜘蛛爬去admin目录中的abc.html页面)
两个通配符:
匹配符”$”和 “*”
$ 通配符:匹配URL结尾的字符; * 通配符:匹配0个或多个任意字符;
例子1:
允许所有搜索引擎蜘蛛抓取以某个扩展名为后缀的网页地址,代码如下:
User-agent: *
Allow: .htm$ 说明(其中“.htm”,表示充许搜索引擎蜘蛛抓取所有”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)
例2:
设定某种类型文件禁止被某个搜索引擎蜘蛛抓取,代码如下:
User-agent: *
Disallow: /*.htm 说明(其中“.htm”,表示禁止搜索引擎蜘蛛抓取所有以”.htm”为后缀的文件,注意,这里并不包括以”.html”为后缀的文件)
希望能够帮助你!
本文已完整呈现java后台的robots命令怎么写的核心内容解析,若这些分析对您的工作或学习有所助益,建议您将本站加入书签以便后续查阅。
评论列表(3条)
我是一滴号的签约作者“知一滴美食有限公司”
本文概览:关于java后台的robots命令怎么写的讨论正在各大平台持续发酵,我们精心筛选了最新资讯,希望能为您带来实质性的帮助。 1.robots.txt文件是什么robots.tx...
文章不错《java后台的robots命令怎么写》内容很有帮助