<孟婆的汤,鬼市的酒,世界那么大我想出去看看,鬼市一家有情怀的源码交易市场>

搜索引擎蜘蛛爬行以及抓取原理

  • 时间:2021-06-16 20:59 编辑:网络来源 来源:网络来源 阅读:68
摘要: 一、了解搜索引擎蜘蛛爬行以及抓取原理    搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。    ①爬行原理    搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。    搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。    搜索引擎蜘蛛将收到的HTM

 一、了解搜索引擎蜘蛛爬行以及抓取原理

    搜索引擎蜘蛛,在搜索引擎系统中又被称之为“蜘蛛”或“机器人”,是用来爬行和访问页面的程序。

    ①爬行原理

    搜索引擎蜘蛛访问网页的过程,就好比用户使用的浏览器。

    搜索引擎蜘蛛向页面发出访问请求,该页面的服务器则返回该页面的HTML代码。

    搜索引擎蜘蛛将收到的HTML代码存入搜索引擎的原始页面数据库中。

    ②如何爬行

    为了提高搜索引擎蜘蛛的工作效率,通常采用多个蜘蛛并发分布爬行。

    同时,分布爬行还分为两种模式:深度优先和广度优先。

    深度优先:沿着发现的链接一直爬行,直到没有任何链接。

    广度优先:先这一页面上的所有链接爬行完毕之后,才会沿着第二层页面继续这样爬行。

    ③蜘蛛必遵守的协议

    搜索引擎蜘蛛在访问网站之前,都会先访问网站根目录下的robots.txt文件。

    搜索引擎蜘蛛不会去抓取robots.txt文件中禁止爬行的文件或目录。

    ④常见搜索引擎蜘蛛

    百度蜘蛛:Baiduspider

    谷歌蜘蛛:Googlebot

    360蜘蛛:360Spider

    SOSO蜘蛛:Sosospider

    有道蜘蛛:YoudaoBot,YodaoBot

    搜狗蜘蛛:SogouNewsSpider

    必应蜘蛛:bingbot

    Alexa蜘蛛:ia_archiver

    二、SEO优化内链如何布局提升蜘蛛抓取

    SEO优化中如何有效的布局内链让蜘蛛抓取SEO优化,那么网站优化时,我们要如何合理分析内外链呢?关于内链,我们需要检查的是seo:seo.ee,可以检测看看:

    1、内页多关键词指向首页

    现在还有很多网站在内容页搞了好多关键词,但是指向的全都是首页,这个小技巧在前几年还是有些用的,但是现在算是作弊的行为,切记。

    2、是否有相关推荐

    每个页面是否有推荐跟内容相关的内部指向链接,这个很重要,对用户,对蜘蛛都是非常有帮助的。

    3、每个页面是否能链接到别的相关页面

    内页要做相关的推荐,还有栏目页、专题页、首页都是一样的,只不过要从不同的定位角度来指向而已。

    那么如何检查外链呢?一般常用两种方法:

    1、通过domain指令

    可以找出链接你的网站是哪些,检查一下是否有和不良的网站出现在一起,如果有要尽快处理掉,不然也是会有影响的。

    2、通过友情链接

    查看友情链接是否正常,比如你链接了别人,别人却把你的链接给撤销了,或者别人的网站打不开了等等之类的情况,需要及时的处理。

    三、手机网站图片如何抓取

    总结出了以下六种方法,协助我们优化网站和手机端的图片,以达到优化友好,迅速被录入的作用。

    1、不要盗用图片尽量原创

    尽量自己做图片,有很多免费的图片素材,我们可以通过拼接,做出我们需要的图片。

    在平时工作的时候,发现和自己网站相关的图片可以先保存下来,在本地做出分类和标记。

    网站需要图片的时候,看看相关的图片,自己着手做一个图片。这是一个长期积累的过程,随之时间的增加,自己的素材量也会越来越大。熟练了再做图片就得心应手了。

    2、网站图片保存路径

    这个问题很多站长都没有注意,图片在传到到网站的时候,尽量把图片保存在一个目录下面,

    或者根据网站栏目做好相应的图片目录,上传的时候路径要相对固定,方便蜘蛛抓取,蜘蛛在访问到这个目录的时候就会“知道”这个目录里面保存的是图片;

    图片文件命名最好使用一些有规律的或者意义的方法,可以使用时间、栏目名称或者网站名称来命名。

    例如:SEO优化下面的图片可以使用“SEOYH2018-6-23-36”这种命名,前面“SEOYH”是SEO优化的简拼,中间是时间,最后是图片的ID。

    为什么要这么做呢?

    其实这样是培养搜索引擎蜘蛛抓取习惯,方便将来更快的识别网站图片内容。让蜘蛛抓的顺心了,网站被收录的几率就增加了,何乐而不为呢!

    3、图片周围要有相关文字

    网站图片是能把信息直接呈现给用户一个方法,搜索引擎在抓取网站内容的时候,也会检测这篇文章是否有配图、视频或者表格等等,

    这些都是可以增加文章分数值的元素,其他的几个形式暂时不表,这里我们只说说关于图片周围相关文字的介绍。

    首先图片周边文字要与图片本身内容相符,例如你的文章说的是做网站优化,里面配图是一道菜谱的图片,这不是挂羊头卖狗肉么?

    用户的访问感会极差,搜索引擎通过相关算法识别这张图片以后,也会觉得图文不符,给你差评哦。

    所以,每篇文章最少要配一张相应的图片,而且在图片的周围要出现和你网站标题相关的内容。不但能帮助搜索引擎理解图片,还可以增加文章的可读性、用户体验友好度以及相关性。

    4、图片添加alt、title标签

    许多站长在添加网站图片时可能没有留意这些细节,有的可能觉得麻烦,希望大家千万别有这种想法,这是大错特错的。

    搜索引擎抓取网站图片的时候,atl标签是它首先抓取的,也是识别图片内容最重要的核心因素之一,图片的alt属性是直接告诉搜索引擎这是啥网站图片,以及这张要表达什么意思;

    title标签是用户指向这张图片的时候,会显示的提示内容,这是增加用户体验度和增加网站关键词的一个小技巧。

    alt和title标签

    还有就是这两个属性,会给有阅读障碍的访问者提供访问的便利,例如:有盲人在访问你网站的时候,他看不到屏幕上的内容,可能是通过读屏软件来阅读的,如果有alt属性,软件会直接读出alt属性里的文字,给他们的访问提供方便。

    5、图片的大小和分辨率

    尽管两者看起来有些相同,但还是有很大的差别,相同大小的图片,分辨率更高的话,网站最终体积也会越大。这一点大家要搞清楚。

    网站的上的图片,一直以来都提倡用尽量小的图片,去最大化呈现内容。为什么要这样呢?

    因为小尺寸的图片会加载的更快,不会让访问者等待太久,特别是手机访问的时候,由于手机上网速度和流量的限制,用户更愿意访问能立即打开的页面,小尺寸图片就更有优势了。

    在这里我们尽量做好平衡,在图片不失真的情况下,尺寸最好尽量的小。

    现在有很多在线给图片瘦身的工具,各位站长可以去尝试一下,把网站的图片适当的压缩一下,一方面可以减少你服务器带宽的压力,另外还能给用户有流畅的体验。

    6、手机端自动适应

    很多站长都遇到过网站在电脑访问图片显示很正常,可是从手机端就会出现错位等等情况,这就是大尺寸的图片给不同尺寸的终端造成错位和显示不全的情况。

    其实这个问题很好解决,在添加图片的时候宽高最好不要使用绝对大小,使用百分比就解决了。

    具体说,CSS代码不能指定像素宽度:width:xxxpx;只能指定百分比宽度:width:xx%;或者width:auto就可以了。

    这样做的目的也是为了让百度的移动蜘蛛抓取的时候有个良好的体验,这也是为了更符合百度移动落地页体验。

    四、如何提高搜索引擎抓取频率?

    1、网站内容更新

    搜索引擎抓取内容,只是针对个别页面,而不是全部的页面,这也是搜索引擎对网页的快照更新时间变短的原因。

    比如说经常更新的页面,快照也会经常对其进行爬取,从而可以及时发现新内容与链接,删除不存在的信息,所以站长一定要长期坚持更新网页,才能使搜索引擎爬虫稳定前来抓取。

    2、网站框架设计

    对于网站的内部框架的设计,是要从很多方面进行的,其中,代码需要尽量简明清晰,代码过多容易导致页面体积过大,影响网络爬虫的抓取速度。

    在抓取网站时,同时网页flash图片尽量少一些,flash格式的内容影响蜘蛛抓取,对于新网站来说,尽量选用伪静态形式的URL,这样可以让整个网站的页面都容易被抓取。

    在设计时对于锚文本文字要分布合理,不能全写关键词,要适当的增加一些长尾词链接。对于内部链接设计也要通畅,方便权重传递。

    3、网站导航设计

    网站面包屑导航是网站设计的时候很多企业都会忽视的一个地方,导航是蜘蛛抓取的关键,如果网站导航不清晰,那么搜索引擎在抓取时就容易迷路,所以导航一定要合理的进行设计。

    这里顺便提及锚文本建设,站内锚文本有利于网络爬虫发现和抓取更多站内网页,但是如果锚文本太多又容易被看成是刻意的调整,在设计时要把握锚文本的数量。

    4、稳定更新频率

    除了首页的设计之外,网站还有其他页面。爬虫抓取时不会对网站上的全部网页都建立索引,在它们找到重要的页面之前,可能已经抓取了足够多的网页离开了。

    所以要保持保持一定的更新频率,更新频繁的页面能轻易被抓取,因此能自动抓取数量很多的页面,同时我们要注意网站层级的设计,不能太多,不然也不利于网站抓取。


【版权与免责声明】如发现内容存在版权问题,烦请联系平台客服及时删除,我们将及时沟通与处理。 本站内容除了鬼市 ( http://www.guisss.com/ )标注原创外,其它均为网友转载内容,涉及言论、版权与本站无关。