蜘蛛是怎么爬取的-长沙建网站-长沙网站制作-长沙网络公司-长沙网站建设-长沙旅游团购网-长沙天二网络科技有限公司-http://www.t2wl.com

　　一：啥是蜘蛛Spider?

　　咱们先来看一下baidu百科上是怎么说的：蜘蛛Spider是查找引擎的一个自动程序。它的作用是拜访收集整理互联网上的页面、图像、视频等内容，然后分门别类树立索引数据库，使用户能在baidu查找引擎中查找到您网站的页面、图像、视频等内容。

　　PS：简单说就是一款抓取互联网信息的程序。

　　二：蜘蛛Spider的分类

　　1.批量型Spider：有显着的抓取规模和方针，有抓取时刻、数据量或固定在规模内页面约束的抓取程序，通常咱们使用的收集东西就是这类Spider。

　　2.增量型Spider：没有固定方针、规模和时刻约束，永无休止地进行抓取，直至把全网的数据抓完停止。当前常见查找引擎(baidu/谷歌等)的Spider都是这类Spider。

　　3.垂直型Spider：跟增量型Spider类似，但抓取规模有针对性(如：特定主题、特定内容或特定职业的页面)地抓取。这类Spider通常用于垂直查找引擎。

　　三：蜘蛛Spider的抓取战略

　　1.深度优先战略：即一直沿着一条路往下走，走到没路了，再回过头来走别的一条路，如此类比.

　　2.广度优先战略：Spider在一个页面上发现多个衔接时，先把这些页面抓一遍，然后再抓从这些页面中提取下来的连接

　　此外还有“重要页面优先抓取战略”、“大站优先战略”、“再次抓取更新战略”在这就不逐个说明晰，有兴趣的兄弟能够在网上检查相关材料。

　　四：Spider和普通用户的差异

　　最后跟大家解说一下Spider和普通用户阅读一个网站时的差异，由于这块网络上存在许多说法，有些存在一些误区。当前一些大型查找引擎(baidu、谷歌等)都表明Spider对网站的抓取行动和普通用户的拜访没太大差异。但疑问真的差异不大吗?

　　用户能看到而Spider纷歧定能看到的：如：图像中的信息、视频中的内容、FLASH、登入、注册、回复可见内容等。Spider能看到而用户纷歧定能看到的：是不是有躲藏内容、是不是挂黑链等。可见，某种程度上来讲用户与Spider各自所获取到的信息仍是有差异的。

——蜘蛛是怎么爬取的

来源：www.t2wl.com 发表时间：2014-07-16 16:50

天二网络网站建设