主要搜索引擎介绍

来自站长百科
跳转至: 导航、​ 搜索

Google[ ]

Google是全球最大的搜索引擎,目前在中文搜索市场排名第二,以技术与创新著称。借助和America Online、Netscape及其他公司的合作伙伴关系,它所回应的查询远远多于其他在线服务商。Google.com是互联网上5大最受欢迎的网站之一,在全球范围内拥有无数的用户,全球受众:超过百分之五十的点击量来自美国境外。

网站地址: http://www.google.com

除搜索业务外,还拥有以搜索为基础的Google Adwords,Google Adsense广告系统,Gmail,Google企业套件等多项业务。

Google的SiteMap技术[ ]

Google的SiteMap技术是什么? Google Sitemap可以让网站建设者通过使用特定格式的sitemap文件,通知Google并指引Google spider收录相应网页。正确地使用Google Sitemap,可以确保让Google spider不遗漏网站内的任何页面,及时地、连续地收录进Google的索引数据库。无论从哪个角度,网页被收录进索引数据库是网页出现在SERP的最基本条件,而Google Sitemap则提供了网页收录的捷径,这在某种意义上可以视之为Google的后门。

既然说是Google某种意义上的后门,那么,Google一定会抓取 Sitemap 中的所有网址并为其编制索引吗?这个问题Google的官方也做出了相关的回答,内容如下:
我们不保证一定会抓取所有网址并为其编制索引。例如,我们不会抓取您的 Sitemap 中所含的图片网址或为其编制索引。但是,我们会使用 Sitemap 中的数据了解网站的结构,这样可以让我们改进抓取工具的日程,并在日后能更好地对网站进行抓取。大多数情况下,网站管理员会从 Sitemap 提交中受益,您决不会因此而受到处罚。

从Google的官方回答来看,Google一定会抓取 Sitemap 中的所有网址并为其编制索引,而只是有利于其进行抓取,某种意义上来说,Google的Sitemap对于提供网站搜索的位置有很大的帮助,这个帮助基本上有两个用途:

  • Google站点地图给你提供了一个途径来告诉Google你的网站有价值的信息
  • 你可以通过Google站点地图来了解Google是怎么看待你的网站的

怎样设立Google站点地图[ ]

设立Google的站点地图,第一件事情就是要创建一个Google账户,这个账户可以是你的Gmail信箱的账户,或者是Adwords,Adesnse的账户就可以了。

一般来说,有两种类型的 sitemap。 第一种类型的 sitemap 是通常按部分列出您网站网页的 HTML 网页,用于帮助用户查找所需的信息。 虽然此类 sitemap 能够帮助访问者和搜索引擎浏览网站,但是它不同于 XML Sitemap,XML Sitemap 可通过网站管理员工具提交给 Google。

A:使用 RSS / Atom 供稿作为 Sitemap

Google 接受 RSS(真正简单的联合供稿)2.0 供稿和 Atom 1.0 供稿。如果您的博客有 RSS 或 Atom 供稿,您可以将该供稿的网址作为 Sitemap 提交。 大多数博客软件会为您创建供稿。 如果您的网站没有供稿,您可以使用 Feedburner 创建并发布供稿。

B:创建基于文本文件的 Sitemap
一个 Sitemap 应包含一个您网站的网址(最多 50,000 个)列表。 如果您的网站很大,包含的网址超过 50,000 个,则应创建多个 Sitemap,并为它们提交一个 Sitemap 索引文件 <>。
您可以向 Google 提供纯文本文件,其中每行包含一个网址。 例如:
http://www.example.com/file1.html
http://www.example.com/file2.html
要获得最佳效果,请按照下列指南操作:

  1. 由于 Google 完全按照所提供的网址进行抓取,您需要完整指定网址。
  2. 每个文本文件最多可以包含 50,000 个网址。 如果网站所包含的网址超过 50,000 个,则可以将列表分割成多个文本文件,然后分别添加每个文件。
  3. 文本文件需使用 UTF-8 编码。 在保存文件时您可指明此项(例如,在记事本中,此项会在"另存为"对话框中的"编码"菜单中列出)。
  4. 文本文件不应包含网址列表以外的任何信息。
  5. 文本文件不应包含任何页眉或页脚信息。
  6. 您可以对文本文件进行任意命名。 Google 建议将文件的扩展名定为 .txt,以表明其为文本文件(例如 sitemap.txt)。

您应将文本文件上传到服务器,通常传至希望搜索引擎抓取的最高级目录。 创建此文件后,您即可将其作为 Sitemap 提交。 如果您对编制网络服务器的脚本或管理网络服务器不熟悉,手动进行此过程是最简单的方法,也不失为一种最好的方法。
如果您有多个网站,可以创建一个或多个 Sitemap 将所有经过验证网站的网址包含在其中,然后将这些 Sitemap 保存在一个位置,以此来简化 Sitemap 的创建和提交过程。 所有网站都必须使用网站管理员工具进行验证。

C:根据 Sitemap 协议创建 Sitemap
Google 可以接受多种格式的 Sitemap,但是我们建议您根据 Sitemap 协议创建 Sitemap,因为这种格式的文件也可以提交至作为 sitemaps.org 成员的其他搜索引擎,如 MSNYahoo!。
您可以通过以下多种方式创建 Sitemap:

  1. 根据 Sitemap 协议手动创建 Sitemap
  2. 使用 Sitemap 生成器。如果您可以访问网络服务器并且服务器装有 Python,则可以利用我们的脚本来创建采用 Sitemap 协议的 Sitemap。 Google Sitemap 生成器是一个 Python 脚本,可以利用 Sitemap 协议为您的网站创建 Sitemap。 此脚本可以通过网址列表、网络服务器目录或通过访问日志创建 Sitemap。
  3. 使用第三方工具。 很多第三方提供了可用于创建有效的 Sitemap 的工具。

向 Google 添加网站[ ]

加入 Google 搜索结果是不需要付费的,并且非常容易执行;您甚至不需要将网站提交给 Google。 Google 是一个完全自动化的搜索引擎,它使用称为"信息采集软件"的软件定期抓取网络并找到可添加到 Google 索引的网站。事实上,列入搜索结果中的绝大多数网站都不是人工提交的,而是信息采集软件抓取网络时找到并自动添加的。

但是,如果您的网站提供专门的产品、内容或服务,则您可以把它们投放在Google 网络搜索和其他 Google 服务上,以便在全世界范围内进行传播。 有关更多信息,请访问 Google 内容中心。

要判断您的网站当前是否包含在 Google 索引中,请对您的网址执行"site:"搜索。 例如,索 [site:google.com] 会返回以下结果:http://www.google.com/search?q=site%3Agoogle.com。

虽然 Google 可抓取超过数十亿个网页,但遗漏少数网站也在所难免。 造成 Spider 遗漏网站的常见原因如下:

  • 网站未通过多个链接牢靠地连接到网络上的其他网站。
  • 网站在 Google 最近一次抓取后才启动。
  • 网站的设计让 Google 很难有效抓取其中的内容。
  • 网站在我们抓取时暂时不可用,或我们在抓取时收到错误消息。 您可以使用 Google 网站管理员工具来查看当我们试图抓取您的网站时是否收到了错误。

公平准确地展示互联网内容是我们的宗旨。 为实现此目标,我们提供了有关构建便于抓取的网站的指南和提示。 虽然我们无法保证信息采集软件能找到某个特定网站,但遵循以下指南应该可以增加网站在我们的搜索结果中显示的机会。

考虑创建并提交关于您的网页的详细 Sitemap。 Sitemap 是您向 Google 索引提交所有网址并详细了解您的网页在 Google 显示情况的一条捷径。 通过 Sitemap,我们可以随时自动获得有关您当前网页及其更新的所有信息。 请注意,提交 Sitemap 并不能保证您网站上的所有网页都会被抓取或包含在我们的搜索结果中。

百度[ ]

百度在线网络技术(北京)有限公司,( Baidu.com,Inc)简称百度。于1999年底成立于美国硅谷,它的创建者为资深信息检索技术专家、超链分析专利的唯一持有人——百度总裁李彦宏,及其好友——在硅谷有多年商界成功经验的百度执行副总裁徐勇博士。截止2009年,百度是目前中国大陆访问使用量最高的搜索引擎。

网站地址:http://www.baidu.com

百度的Sitemap[ ]

准确的说,叫它baidu sitemap不太准确,而且会有朋友问,百度有类似于google的xml格式sitemap吗?答案是有,但是它又不完全等同于sitemap。根据百度官方的描述,我们应该管它叫做《互联网新闻开放协议》。但是我还是喜欢叫它baidu sitemap,我觉得这个名称对站长来说更亲切一些:)

其实按照百度官方的解释,我们应该称之为《互联网新闻开放协议》。但Google的Sitemap叫习惯了,所以一时不改不了口,暂且就叫它百度Sitemap吧。

从官方的公布的文档名称,我们清楚的知道这个XML文档只针对的是站内的新闻,似乎对我们没有什么价值。这点就反映在我们对“新闻”一词的理解上,我认为百度的“新闻”一词应该包括:新闻、文章、文档资料等,而这些都是很多网站所必备的东西。而且蜘蛛是跟据链接来爬行的,所以当我们的网站通过互联网开放协议的审查后,百度就会来抓取这个xml文档里的信息,而且还会顺着链接找到其它的内容,百度也会连这些内容一并抓取了。
有这些好处,为什么有很多站长到现在还不知道有这个东西的存在呢,可能主要的原因是百度的Sitemap在提交会由百度审核,目前国内许多的站长的抄袭严重,所以提交审核自然有许多不会被通过了,自然打消人们的积极性。

下面来说说百度Sitemap中XML标签所代表的含义的:

  • < document>——标记整个XML文件内容的开始和结束。
  • < website>——站点地址。
  • < webmaster>——负责人员的Email。当有必要时,我们通过这个地址与您联系。
  • < updateperi>——更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,使页面上的新闻更及时地出现在百度新闻中。
  • < item>——标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。
  • < title>——新闻标题。
  • < link>——新闻url地址,与单篇新闻一一对应;若分页的新闻存在多个URL,相当于多篇新闻。

< description>——新闻内容简介。

  • < text>——完整的新闻正文(仅包含正文文字,不包含HTML语言等其它字符)。此项的目的是使该篇新闻更多、更准地出现在搜索结果中。
  • < image>——新闻正文内相关图片,采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签。此项的目的是使该篇新闻的相关图片展现在搜索结果中。
  • < headlineimg>——为有可能成为头条的新闻制作的头条图,采用绝对地址。
  • < keywords>——反映新闻主题内容的一个或多个关键词,关键词之间以空格隔开。此项仅作为参考,检索结果不完全依赖于此标签中的内容。
  • < category>——新闻分类, 可以遵循网站自身的分类体系,最好采用一级分类。
  • < author>——新闻作者,可以为机构或个人 。
  • < source>——新闻来源,即原创媒体或其它机构 。
  • < pubdate>——新闻发布时间,与该篇新闻HTML页面上的发布时间保持一致。请精确到分钟;若您网站的发布时间未记录小时分钟,提供年月日即可。

不知道大家注意到没有,在百度的Sitemap中所有的新闻正文内容全都放在Text标签内,这样做虽然能让百度有效的收录所有的新闻正文内容,但同时也存在风险,如果XML文件地址被泄露的话,那网站内容就被会被轻意的读取、复制。 是否应该使用baidu sitemap,相信大家心里应该有数,每个网站都有自己的算盘。如果觉得自己的网站不错,以我建议在做搜索引擎优化的时侯还是做一做baidu sitemap。

雅虎[ ]

雅虎公司是一家全球性的互联网通讯、商贸及媒体公司。其网络每月为全球超过一亿八千万用户提供多元化的网上服务。雅虎是全球第一家提供互联网导航服务的网站,不论在浏览量、网上广告、家庭或商业用户接触面上,雅虎都居于领导地位,也是最为人熟悉及最有价值的互联网品牌之一,在全球消费者品牌排名中位居第38 位。

雅虎还在网站上提供各种商务及企业服务,以帮助客户提高生产力及网络使用率,其中包括广受欢迎的为企业提供定制化网站解决方案的雅虎企业内部网;影音播放、商店网站存储和管理;以及其他网站工具及服务等。雅虎在全球共有24个网站,其总部设在美国加州圣克拉克市,在欧洲、亚太区、拉丁美洲、加拿大及美国均设有办事处。

网站地址:http://www.yahoo.com

雅虎中国
1999年9月,雅虎中国网站开通。2005年8月,中国雅虎由阿里巴巴集团全资收购。中国雅虎(www.yahoo.com.cn)开创性地将全球领先的互联网技术与中国本地运营相结合,并一直致力于以创新、人性、全面的网络应用,为亿万中文用户带来最大价值的生活体验,成为中国互联网的“生活引擎”。

口碑网(www.koubei.com)是中国最大的生活搜索引擎,涵盖餐饮娱乐、租房、买房、工作、旅游等生活消费信息,信息遍布所有大中城市。自 2004年6月成立以来,一直致力于做百姓的生活好向导,2006年10月,阿里巴巴集团正式战略投资口碑网。本地生活搜索是口碑网提供给用户的重要服务功能,口碑网两大行业频道餐饮休闲、房产交易都在同类网站中居首位。

2008年6月,中国雅虎和口碑网整合,成立雅虎口碑网,正式进军生活服务领域。以全网搜索为基础,为生活服务消费者打造出一个海量、方便、可信的生活服务平台-雅虎口碑网。网站一经推出,就确立了在同行业的领先地位。

中文搜索引擎列表[ ]

相关条目[ ]