网页快照
为什么我们只要在搜索引擎的搜索框内输入想要查询的关键词,搜索引擎就会立即在广阔无垠的因特网上,把包含关键词所有网页一网打尽,呈现在我们的面前。
如果您了解了搜索引擎的工作原理,就不会这样认为了。每一张网页上都有很多超链接,链接到另外一些网页上,而这些网页上依然有很多超链接,又可以链接到另另外一些网页上……
按照这个方法,您最后发现,几乎所有因特网上的网页都被链接在一起了。其实这就是搜索引擎的工作原理,搜索引擎用这样顺藤摸瓜的办法找到所有能找到的网页,事实上,这表面上看起来有些愚蠢,不过搜索引擎确实是用这种手段混饭吃的。
更令人气愤的是,搜索引擎每找到一张网页,都要复制下来,放入自己的腰包,到最后,它把因特网上几乎所有的网页都收罗到腰包中了。这个腰包就是搜索引擎的网页数据库,这个数据库中包含了所有被复制下来的首页。
搜索引擎中的老大哥Google,它的名字就来自于数学中的一个几乎不可超越的数:google,这个数是10的100次方,从名字就可以看出Google搜索引擎的胃口是多么的贪婪,在它的网页数据库中禁锢了四亿多张网页(这是它自己说的),这四亿张网页就是它在因特网上复制下来的,这每一张被复制下来的网页叫做一张 网页快照 。
当用户使用搜索引擎在因特网上搜索网页时,那其实就在搜索引擎的网页数据库中搜索,用户误认为搜索引擎一下子就在因特网上找到了包含关键词的网页。
因特网上的网页并不是一成不变的,而是不断增加、删除、改动。因此,搜索引擎网页数据库中的网页也需要及时更新,既把因特网上网页重新复制一遍,如果你在你的网站上删除一张网页,那么搜索引擎数据库中的复制品-网页快照并不会立刻被删除,而是要过一段才会被删除。但是,Google的网页快照是标示快照存档时间的,那么,在这个时间点上,该网页肯定还存在。举例:2008年7月20日打开一个Google的网页快照,而这张快照上显示是Google在7月10日搜索并存档的。什么意思?这表示:2008年7月20日,这个网页或许已被删除或更新,但是,2008年7月10日,当Google对该网页复制存档的时候,该网页是确实存在的。
搜索引擎还试图收集一切能够找到的URL ,还把包含相同关键词的网页进行排队,纯商业化的搜索引擎采用纯商业原则,还有按点击率给网页排位,这样保证了用户的搜索效率达到最高。
搜索引擎只是一个工具,熟练的驾驶它,可以在因特网中找到十分丰富的资源,目前网页快照最人性化的是“百度”,“百度快照”拥有google快照的全部功能外,还增加的关键字定位功能,为用户提供更加快速、高效关键词搜索方式,在方便程度上来讲“百度快照”大大超越了同类其他搜索引擎。