站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
了解搜索引擎
”(章节)
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
==搜索引擎面对的挑战== 搜索引擎系统是最复杂的计算系统之一,当今主流搜索引擎服务商都是有财力和人力的大公司。即使有技术、人力、财力的保证,搜索引擎还是面临很多技术挑战。 ===页面抓取需要快而全=== [[互联网]]是个动态的内容网络,每天有无数页面被更新、被创建,无数用户在网站上发布内容、沟通联系。要返回最有用的内容,搜索引擎就要抓取最新的页面。但是由于页面数量巨大,搜索引擎蜘蛛更新一次数据库中的页面要花很长时间。搜索引擎刚诞生时,这个抓取周期往往以几个月计算。这也就是为什么[[Google]]在2003年以前每个月有一次大更新。 现在主流搜索引擎都已经能在几天之内更新重要页面,权重高的网站上的新文件几小时甚至几分钟之内就会被收录。不过,这种快速收录和更新也只能局限于高权重网站。很多页面几个月不能被重新抓取和更新,也是非常常见的。 要返回最好的结果,搜索引擎也必须抓取尽量全面的页面,这就需要解决很多技术问题。一些网站并不利于搜索引擎蜘蛛爬行和抓取,诸如网站链接结构的缺陷,大量使用[[Flash]],[[JavaScript]]脚本,或把内容放在用户必须登录以后才能访问的部分,这都提高了搜索引擎抓取内容的难度 ===海量数据存储=== 一些大型网站一个网站就有百万千万页面,可以想象网上所有网站的页面加起来是一个什么数据量。搜索引擎蜘蛛抓取页面后,还必须有效存储这些数据,数据结构必须合理,具备极高的扩展性,写入及访问速度要求也很高。 除了页面数据,搜索引擎还需要存储页面之间的链接关系以及大量历史数据,这样的数据量是我们用户无法想象的。据说Google有几十个数据中心,上百万台[[服务器]]。这样大规模的数据存储和访问必然存在很多技术挑战。 我们经常在搜索结果中看到,排名会没有明显原因地上下波动,甚至可能刷新一下页面,就看到不同的排名,有的时候网站数据也可能丢失。这些都可能与大规模数据存储的技术难题有关。 ===索引处理快速有效,具可扩展性=== 搜索引擎将页面数据抓取和存储后,还要进行索引处理,包括链接关系的计算、正向索引、倒排索引等。由于数据库中页面数量大,进行[[PR]]之类的迭代计算也是耗时费力。要想及时提供相关又及时的搜索结果,仅仅抓取也没有用,还必须进行大量索引计算。由于随时都有新数据新页面加入,索引处理也要具备很好的扩展性。 ===查询处理快速准确=== 查询是普通用户唯一能看到的搜索引擎工作步骤。用户在搜索框输入关键词,点击搜索按钮后,就会看到搜索结果。表面最简单的过程,实际上牵扯了非常复杂的后台处理。在最后的查询阶段,最重要的难题是怎样在不到一秒钟的时间内,快速从几十万几百万,甚至几千万包含搜索词的页面中,找到最合理、最相关的一千个页面,并且按照相关性、权威性排列。 ===判断用户意图以及人工智能=== 应该说前四个挑战现在的搜索引擎都已经能够比较好地解决,但判断用户意图还处在初级阶段。不同用户搜索相同的关键词,很可能是在寻找不同的东西。没有上下文,没有对用户个人搜索习惯的了解,就完全无从判断。 搜索引擎目前正在致力于基于用户搜索习惯及历史数据的了解上,判断搜索意图,返回更相关的结果。今后搜索引擎是否能达到人工智能水平,真正了解用户搜索词的意义和目的,让我们拭目以待。
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)