实现网站Spider抓取,主要还要从url链接优化出发,从理论上讲,虽然搜索引擎能够识别较为复杂的url,但是相对简单的url肯定对搜索引擎抓取能够取得一定帮助,提升抓取频次的策略有哪些呢?
一、网站导航条设置:
网站导航功能:便于用户迅速找到想要获取的内容,同理,对搜索引擎快速识别和抓取网站内容也有一定的帮助。
二、网站地图制作:
网站地图主要用于展示网站结构的网页,以层级列表样式方便Spider抓取,提升网站收录速度和抓取深度。
三、301设置:
优化url结构,比较核心的点就是301设置 ,其中url链接尽量保持:
1、避免动态化
2、url越精短越好
3、使用英文或拼音便于记忆
4、避免大小字母同类使用
301设置主要目的,主要防止权重流失,也为了让spider能够对多种URL重定向的识别,重定向分别有三类:HTTP 30x重定向、Meta refresh重定向和JS重定向。百度目前也支持Canonical标签。
四、面包屑导航:
一般来说设置面包屑导航都在banner图下,主要功能是方便用户能够通过当前目录点击返回上级目录或主页的行为,一般设置为:主页>栏目页>内容页的设置方式,这也是优化增强用户体验的一个小点。
五、目录结构:
一般来说,很多网站都存在二级或多级目录,从优化建议上,尽可能采用三级目录作为网站层级,便于抓取和收录 。
六、robots.txt的使用:
对不需要和没必要让Spider抓取的页面或目录尽量写死,这既是一种安全举措也是一种不浪费抓取的方式。
七、nofollow的 使用:
nofollow标签是由Google领头新创的一个标签,目的是尽量减少垃圾链接对搜索引擎的影响,减少博客的垃圾留言,目前百度、Google、Yahoo、微软都支持这一标签。当超级链接中出现nofollow标签后,搜索引擎会不考虑这些链接的权重,也不用使用这些链接用于排名。
正确和合理的在网站架构中使用nofollow,那么网站在抓取上就能实现Spider精准抓取,能很大程度上加快百度对网站页面的收录速度,也是代码优化中,比较细腻的操作方式。
对网站URL链接如何优化的方式,只能简单粗暴的分析在这里了,如果你的网站存在抓取频次不高或者百度收录慢,不妨看看网站在这些问题上,是否还存在不足的问题,以方便后续不断提升网站做好基础工作。