知识学堂 > 课程 > SEO优化:robots文件设置说明

SEO优化:robots文件设置说明

发布日期:2019/1/6 来源:聚恒【返回】

    robots文件对于搜索引擎抓取时至关重要,相当于一份协议,里面有规则定义,允许搜索引擎什么可以做什么不可以做,建站初期都应该考虑301重定向、404页面设置、robots文件写法等,这些都是有利于搜索引擎的友好抓取,下面上海聚恒网络关于如何设置robots文件谈谈自己的几点建议
我们先来看看什么是robots文件?
    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
    当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;
如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。百度官方建议,仅当您的网站包含不希望被搜索引擎收    录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
    如果将网站视为酒店里的一个房间,robots.txt就是主人在房间门口悬挂的“请勿打扰”或“欢迎打扫”的提示牌。
robots文件放在那个位置?
    放在根目录底下。举例来说,当spider访问一个网站(比如 http://xxx.com)时,首先会检查该网站中    http://www.xxx.net/robots.txt这个文件是否存在,如果存在,搜索引擎会根据文件上的协议来执行对该网站的爬行抓取,“禁止入内”的地方搜索引擎是绝不会轻易犯错。
    有人提问:网站不该让搜索引擎抓取的地址有在robots文件中写入,可是搜索结果还是出现了,怎么回事?
    外部网站因素引起的。如果外部网站某些页面有链接到该robots文件中禁止抓取的页面,外部网站这个页面被收录,搜索结果中也会出现robots禁止的页面。
    禁止搜索引擎跟踪网页的链接,只对网页建索引,应该怎么写?
    如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 <HEAD> 部分:
    <meta name=”robots” content=”nofollow”>
    如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:
    <a href=”xxx.php” rel=”nofollow”>聚恒网站建设</a>
    要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的 <HEAD> 部分:
    <meta name=”Baiduspider” content=”nofollow”>
    禁止搜索引擎在搜索结果中显示网页快照,而只对网页建索引
    要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的 <HEAD> 部分:
    <meta name=”robots” content=”noarchive”>
    要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
    <meta name=”Baiduspider” content=”noarchive”>
    注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。
    禁止百度图片搜索收录某些图片,该如何设置? 
    禁止Baiduspider抓取网站上所有图片、禁止或允许Baiduspider抓取网站上的某种特定格式的图片文件可以通过设置robots实现。
    仅允许抓取网页,禁止抓取任何图片
    Disallow: .jpg$ Disallow: .jpeg$ Disallow: .gif$ Disallow: .png$ Disallow: .bmp$
    允许抓取网页和gif格式图片,不允许抓取其他格式图片
    User-agent: Baiduspider
    Allow: .gif$ 
    Disallow: .jpg$
    Disallow: .jpeg$
    Disallow: .png$
    Disallow: .bmp$
    仅禁止Baiduspider抓取.jpg格式图片
    User-agent: Baiduspider
    Disallow: .jpg$
    最后,自有搜索引擎之日起,Robots协议已是一种目前为止最有效的方式,用自律维持着网站与搜索引擎之间的平衡,让两者之间的利益不致过度倾斜。它就像一个钟摆,让互联网上的搜索与被搜索和谐相处。