首要、我们先了解一下什么是robots.txt文件
引用baidu站长东西中后段话来说明。查找引擎运用spider程序主动拜访互联网上的页面并获取页面信息。spider在拜访一个
网站时,会首要会 检查该
网站的根域下是不是有一个叫做 robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取方案。您能够在您的网站中创建一个robots.txt,在文件中声明 该网站中不想被查找引擎录入的有些或许指定查找引擎只录入特定的有些。
其次、robots.txt文件对网站有啥利益
一、快速增加网站权重和拜访量;
二、阻挡某些文件被查找引擎索引,能够节约服务器带宽和网站拜访速度;
三、为查找引擎供给一个简洁明了的索引环境
再次、哪些网站的目录需求运用robots.txt文件阻挡抓取
1、图像目录
图像是构成网站的首要构成元素。跟着现在搭站越来越便利,许多CMS的呈现,实在做到了会打字就会建网站,而恰是因为如此便利,网上呈现了许多的同质 化模板网站,被重复运用,这么的网站查找引擎是必定不喜爱的,就算是你的网站被录入了,那你的作用也是很差的。假定你非要用这种网站的话,主张你应当在 robots.txt文件中进行屏蔽,一般的网站图像目录是:imags 或许 img;
2、网站模板目录
如上面 图像目录 中所说,CMS的强大和活络,也致使了许多同质化的网站模板的呈现和乱用,高度的重复性模板在查找引擎中构成了一种冗余,且模板文件常常与生成文件高度相 似,相同易构成相同内容的呈现。对查找引擎很不友善,严峻的直接被查找引擎打入冷宫,不得翻身,许多CMS有具有独立的模板寄存目录,因此,应当进行模板 目录的屏蔽。一般模板目录的文件目录是:templets
3、CSS、JS目录的屏蔽
CSS目录文件在查找引擎的抓取中没有用途,也无法供给有价值的信息。所以剧烈主张站长朋友们在Robots.txt文件中将其进行屏蔽,以跋涉查找 引擎的索引质量。为查找引擎供给一个简洁明了的索引环境更易跋涉网站友善性。CSS款式的目录一般情况下是:CSS 或许 style
JS文件在查找引擎中无法进行辨认,这儿仅仅主张,能够对其进行屏蔽,这么做也有一个利益:为查找引擎供给一个简洁明了的索引环境;
4、屏蔽双页面的内容
这儿拿DEDECMS来举例吧。我们都知道DEDECMS能够运用静态和动态URL进行同一篇内容的拜访,假定你生成全站静态了,那你有必要屏蔽动态地 址的URL联接。这儿有两个利益:1、查找引擎对静态的URL比动态的URL更友善、更简略录入;2、防止静态、动态URL能拜访同一篇文章而被查找引擎 判为重复内容。这么做对查找引擎友善性来说是有益无害的。
5、模板缓存目录
许多CMS程序都有缓存目录,这种缓存目录的利益我想不用说我们也了解了吧,能够非常有用的跋涉网站的拜访速度,恐惧网站带宽,对用户领会也是极好 的。不过,这么的缓存目录也有必定的缺陷,那就是会让查找引擎进行重复的抓取,一个网站中内容重复也是大祭,对网站百害而无一利。许多运用CMS搭站的朋友都没有留神到,有必要要致使重视。
6、被删去的目录
死链过多,对查找引擎
优化来说,是丧身的。不能不致使站长的高度重视,。在网站的翻开过程中,目录的删去和调整是不可防止的,假定你的网站当时目录不 存在了,那有必要对此目录进行robots屏蔽,并回来准确的404差错页面;留神:在IIS中,有的朋友在设置404差错的时分,设置存在疑问,在自定义 差错页面一项中,404差错的准确设置应当是选择:默认值 或许 文件,而不该该是:URL,以防止查找引擎回来200的状况码。至于怎样设置,网上
教程许多,我们要吧查找一下。
这儿有一个争议性的疑问,关于网站后台处理目录是不是需求进行屏蔽,正本这个可有可无。在能保证网站安全的情况下,假定你的网站运营方案较小,就算网站 处理目录呈现在robots.txt文件中,也没有多大疑问,这个我也见过许多网站这么设置的;但假定你的网站运营方案较大,竞抢夺手过多,剧烈主张千万 别呈现任何你网站后台处理目录的信息,以防被存心不良的人运用,危害你的利益;正本查找引擎越来越智能,关于网站的处理目录仍是能极好的辨认,并丢掉索引的。其他,我们在做网站后台的时分,也能够在页面元标签中增加:进行查找引擎的屏蔽抓取。
总归,需求说明一点,许多站长朋友喜爱把站点地图地址放在robots.txt文件中,当然这儿并不是去屏蔽查找引擎,而是让查找引擎在初度索引网 站的时分便能经过站点地图快速的抓取网站内容。这儿需求留神一下:1、站点地图的制造必定要标准;2、网站必定要有高质量的内容。