您当前的位置: 首页 > 游戏

一深度优先遍布抓取

2018-11-02 12:52:34

近段时间百度对反垃圾页面的执行力度在日趋增强这让很多站点排名都受到大幅波动,当然笔者小站也不例外,但小鱼始终明白一点搜索引擎不断调整算法的本身是为了符合用户体验这也说明一点只要我们站在用户的角度去运营自己的小站那么站的排名就自然不会差。今天笔者针对站内收录这块给大家分享下熟知蜘蛛爬取的两种方式来改变站结构的布局。

站收录对于很多朋友来说一直是一个追问的话题,除了我们通常所说的sitemap制作外还有一点不可小却那就是站的层次布局,为什么这样说呢?下面笔者就蜘蛛的两种爬取方式来为你一一说道:

通常我们所看到的百度蜘蛛和谷歌机器人都是通过深度优先和宽度优先的方式来进行爬取的,这里为了让大家更容易理解特意笔者小站来举例说明。

一、深度优先遍布抓取

深度优先抓取就类似我的扫路车站,站首页产品展示扫路车系列,抓取是以这样的方式来抓取的,等到抓取完毕这些栏目之后,在进行抓扫路车系列栏目下的文章,这样就是深度优先策略,类似于家庭关系一样。长子、次子然后是长孙等这样的关系。

二、就是宽度优先的遍布抓取

这种方式的抓取,深度是不断的在增加的。类似于这样的首页 公司简介 产品展示产品价格公司简介...爬虫来的你站,会顺着一个栏目一级级向下抓取,等这个公司简介栏目下被抓取完毕后,在进行其子下一个栏目。这样的宽度抓取是有一定的原因的,基于站布局的问题,往往是重要的页面距离种子站点(种子站点是爬虫开始抓取的起点)是比较近的,这样符合习惯。

所以,你可以看到一个大型门户站点,容易看到的是一些实事,这点是距离种子站点越近可以理解为越重要的页面;其次,中文万维的深度没有我们想象的那么深,到达一个页路径不仅仅是一个,所以爬虫总能找到近的路径到达当前页面,据相关数据表明中文万维的深度为17;还有一点就是,多爬虫的合作策略,基于这个规则大部分的抓取的起始页为站内的,逐渐的才会转向站外的链接,抓取的封闭性是比较强的。

基于上述的两种抓取方式,我们不难看出,站要尽可能的节省爬虫的抓取时间,因为爬虫到你站的时间是一定的,缩短其单页面的抓取时间会提高你站的抓取量,进而会影响你站的收录量,终能够影响到你站的SEO流量。根据以上两种方式,来合理布局你站的内容,让爬虫能够很容易的抓取到你想要被抓取的东西,这样合理的布局好内容,让站的seo流量有一个突破瓶颈的提升。本文由湖北程力集团原创发布,转载请注明出处!

工业遥控器
牛代理
涂塑钢管
推荐阅读
图文聚焦