青云学社SEO:网站SEO优化之搜索引擎爬行、抓取的过程

今天,青云给大家分享搜索引擎是如何对网站进行爬行和抓取的

图片

本文大纲:

1:蜘蛛

2:沿链接爬行

3:链接索引库的调用

4:形成快照

5:内容初步检测

1:蜘蛛

什么叫蜘蛛?很多SEO小白,像当年青云什么都不懂时,觉得蜘蛛叫法很奇特?

蜘蛛就是搜索引擎为了爬行和抓取网站页面的一个程序代码。

蜘蛛在爬行任何一个网站的时候,都会先访问根目录下的robots文件,如果robots文件禁止搜索引擎抓取某些文件或目录,蜘蛛将遵守协议,不会抓取。

常见蜘蛛列表:

1、 百度蜘蛛:Baiduspider Baiduspider-image baiduboxapp Baiduspider-render

2、 谷歌蜘蛛:Googlebot (很勤奋的蜘蛛) Googlebot-Image Google-Read-Aloud Googlebot-Video

3、 360蜘蛛:360Spider (很勤奋的蜘蛛)

4、 搜狗蜘蛛:SogouSpider, Sogou web spider

5、 神马蜘蛛:YisouSpider (UC浏览器默认搜索sm.cn的蜘蛛)

6、 必应蜘蛛:bingbot BingPreview

7、 有道蜘蛛:YoudaoBot,YodaoBot

8、 MSN蜘蛛:msnbot,msnbot-media

9、 雅虎蜘蛛:“Yahoo! Slurp China”或者Yahoo!

10、 Yandex蜘蛛:YandexBot (俄罗斯搜索引擎)

11、 DNSPOD监控蜘蛛:DNSPod-Monitor

12、 MJ12bot:MJ12bot (英国SEO分析页面蜘蛛)

13、 SEMrush:SemrushBot (美国SEO综合分析网站的蜘蛛)

14、 头条蜘蛛:Bytespider (今日头条旗下:高频抓取 被很多站长封禁后 有所改善)

15、 华为蜘蛛:AspiegelBot ( 华为旗下Aspiegel公司 疯狂高频爬行无节制 )

2:沿着链接爬行

互联网是彼此紧密联系在一起的,在A页面发现了一个B页面的链接,这时蜘蛛爬行B页面去了,在B页面发现其它的链接,再继续爬取!

蜘蛛爬行策略有2种,分别是广度优先策略,深度优先策略。

广度优先策略,一个A页面,发现B页面,C页面,D页面,先爬行B,再爬C,再爬D

深度优先策略,一个A页面,发现B页面,在B页面,又发现B1页面,接着B2页面。

搜索引擎会把这种策略混用爬行互联网上的页面,广度优先策略可以照顾尽可能多的网站,这也是为什么,我们发现网站首页能很快被收录原因之一,如果你的网站页面权重,网站规模,外链,更新等,做的比较好,搜索引擎就会对你的网站实行深度优先策略爬行!

3:链接索引库的调用

只要被发现但还没有抓取的页面,以及已经被抓取的页面,这些页面的URL都会被搜索引擎存进指定索引库中,由系统统一安排抓取!

提高页面的重要性和质量,能做到更好的爬取和收录!

4:形成快照

搜索引擎爬取并收录你的页面之后,会形成一个个快照保存,每个快照都会有一个唯一的编号。

例如我们经常说的:百度快照

5:内容初步检测

在蜘蛛爬取的时候,会进行一定程度内容复制检测,若是权重很低的网站,发现内容大量转移载和抄袭,就有可能不会对其网站再爬行和抓取,从而也不会被收录!

总结,本文2个核心重要的,

一:就是蜘蛛的爬行策略,你要清楚,才能知道如何优化你的网站,

二:低权重的网站不再大量的转载和抄袭!
添加青云微信(青云微信号:2786987959),关注青云朋友圈,学习更多SEO优化技巧及营销干货!
图片[2]-青云学社SEO:网站SEO优化之搜索引擎爬行、抓取的过程-青云学社
本文来源于青云学社,转载请标注出处:https://www.qingyunxueshe.com/133.html

© 版权声明
THE END
喜欢就支持一下吧
点赞0
分享
评论 抢沙发
青云的头像-青云学社

昵称

取消
昵称表情代码图片