搜索引擎详细过滤流程介绍

搜索引擎分为四大部分：1、抓取2、过滤3、索引4、查询，今天主要主题是了解引擎过滤整个流程，他是搜索引擎里面很难理解一个步骤流程.如解说完,SEO优化爱好者们理解了说明你对整个搜索引擎熟悉，你就知道怎么去优化一个网站。

一：过滤：这两个字在我们现实生活中很好理解就是滤掉一些我们不喜欢事物或者人，在搜索引擎里面也是一样滤掉一些百度谷歌不喜欢的内容或没有价值内容，因为搜索引擎搜出来结果是能帮我们用户解决问题或找到相关东西.接下来详细解说过滤有几点：

1、搜索引擎会过滤去除网站链接地址(URL)地址库中重复的网站链接地址(URL)，以前抓取一样网站链接地址(URL)会在百度谷歌自己数据库删除就是为减少占用内存，如网站信任度越高越不会被删除掉。

2、一个网页对于其他网页投票分数是有限的(外链专员因注意事项)，如按100分来说你把A页面里有两个B1和B2链接地址(URL)100/2=50,这样我们就知道一个页面里面尽可能只放一个链接地址(URL)才能得到比较高分数.

3、锚文本的多样性：站内/外链：就是网站主做关键词锚文本外增加一些关键词长尾词锚文本，同一个网页出现多个URL相同的锚文本，抓取的URL放到搜索引擎地址库，进行过滤筛选

4、搜索引擎会过滤去除被K网站的URL(在被K的网站发外链URL链接可能导致我们网站遭受惩罚，因为被K的网站，百度已经不认同，不收录了，传递不了分值给我们，我们不要在外链网站平台发网址)就是说明我们发外链时候用站长工具查下外链网站平台是否被K或不快照和收录，(外链专员注意事项)

5、更新频率策略生效：主要讲站内文章以前被抓取或没抓取都判断下，为减少抓取时间他首先判断你网站hgxjwbocai.com网页应答头是否有发生变化，有变化才会继续往下读取没有就不在继续，(站内更新固定更新时间与频率数量好有理由蜘蛛判断时间短)

6、robots是一个协议，是而不是一个命令。robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果存在，搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在，所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。如更改robots一般72小时的生效时间(权重高、生效时间相对比较快;也可以在百度站长工具robots工具生成进而加快生效速度)Windows跟liunx的robots设置是有“大小写区别的”请注意(简单了解就是robots限制蜘蛛抓取内容)

7、搜索引擎会简单过滤原创度判断：这个时候我们在建设更新文章时候尽量原创一些内容，现在全世界都喜欢创新有自己见解东西.搜索引擎也是一样你写独一无二内容他会很喜欢你网站.

8、无法判断URL会自动放弃：当一个网站动态要重组的URL复杂性又长，搜索引擎无法做出判断无法写入则自动放弃，比方理解：现在在高速发展时代谁都要速度速度简单明了,就相当于你是内行人有一个项目想找个有钱老板来投资，写一份策划方案写很多篇很复杂让老板看都看不懂，都不愿意看下去，你说他会投资你项目?一样道理我们要写一些让百度谷歌喜欢网站代码简单明了路劲短的有利于读取。

欢迎投稿

来源：http://blog.sina.com.cn/s/blog_c2c5f42f0101dbcp.html

广告合作
QQ群号：707632017

相关文章