站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
网页抓取
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
'''网页抓取'''主要有三个方面:1、搜集新出现的[[网页]];2、搜集那些在上次搜集后有改变的网页;3、发现自从上次搜集后已经不再存了的网页,并从库中删除。 == 网页抓取的优先策略 == 通常是尽可能的首先抓取重要性的[[网页]],这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。 什么是重要性高的网页呢,主要由这三个方面决定的: === 链接欢迎度 === [[链接欢迎度]]主要是由反向链接的数目和质量决定的。 === 链接重要度 === [[链接重要度]]它是关于一个[[URL]]字符串的函数,仅仅考察字符串本身,它主要通过一些模式,如认为包含|“。com”,“HOME”的[[URL]]重要度高,以及包含较少斜杠的URL重要度高等。 === 平均链接的深度 === [[平均链接的深度]]表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该[[网页]],那么平均链接深度又是该网页的一个链接指标,因为距离种子站点越近说明被访问的机会越多。 ==相关条目== *[[搜索引擎]] ==参考来源== *[http://baike.baidu.com/view/3692511.htm 参考来源1] [[category:搜索引擎|W]] [[category:SEO术语|W]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)