站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
SupeSite/信息采集器
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
{{SupeSite top}} [[SupeSite]] 支持手工[[采集]]和智能采集,手工采集需要您自己配置采集规则,智能采集只需您添加需要采集的网址地址即可,程序会自动为您采集[[网站]]的信息。接下来分别为您介绍两种采集方式: ==手工采集== 手工采集即自己配置采集规则。打开 SupeSite 的“系统设置”,点击“资讯管理”的“采集器”,然后点击“添加新机器人”。 首先简单讲解制作采集器的基本原理和思路: :1、确定您要采集哪个页面的新闻,将这些页面的地址填入到“列表页面采集设置”的地址框; :2、确定在这些页面您要采集的内容区域,因为不是一个网页所有的内容都要采集回来,而是采集一个[[网页]]的一部分内容,所以您必须告诉程序您要采集的区域,也就是“列表区域识别规则”; :3、第2步确定区域之后,还要告诉程序您要采集的文章链接,也就是“文章链接[[url]]识别规则”。 :4、现在已经确定了大的采集框架,接下来要告诉程序在一个文章页面,文章的标题(“文章标题识别规则”),文章的来源和作者分别是什么。然后就是一篇文章内容的范围,也就是说一个文章页面内,真正您需要采集的范围,就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。 :5、以上4个步骤已经确定了采集的范围,如果您需要过滤标题和内容,请根据您的要求设置每一项的过滤设置,如“文章标题过滤规则”和“文章内容过滤规则”等。 :以上几个步骤确定范围都是通过查看页面源码,进行设置的,截取的方法需要一些经验,练习2--3次就可以领悟到了。 :接下来介绍采集器的基本原理和步骤: *第1:打开 SupeSite 的“系统设置”,点击“资讯管理”的“采集器”,然后点击“添加新机器人”。 :这里需要特别指出的是:单次采集个数和自动导入。单次采集个数尽量设置较小的数字,以免超时。自动导入,请选择资讯分类,可以直接将采集的结果导入到资讯库中。如下图: <div>[[{{ns:image}}:ss155.gif|center]]</div> *第2:填写“列表页面采集”和“采集页面编码”。请填写要采集的页面地址(列表页面地址)。这里分为手工输入和自动输入:手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码,用[page]代替分页变量。如下图: <div>[[{{ns:image}}:ss156.gif|center]]</div> :点击上图中的,尝试链接,可以看到如下图的页面,这样可以判断您的[[服务器]]是否可以链接到要采集的网站,即检测服务器是否允许采集,如果这里显示无法链接,则不能采集该网页。 <div>[[{{ns:image}}:ss157.gif|center]]</div> :设置“采集页面编码”,是您采集网页的编码,并不是您站点的编码。这里切记!!如下图: <div>[[{{ns:image}}:ss158.gif|center]]</div> *第3:设置“列表区域”和“文章链接”的识别规则。如下图,填入列表区域的规则和文章链接的规则,采集内容的范围用[list]代替,采集文章的标题用[url]代替。文章链接URL的剔除和过滤规则,请您参考图片里的详细说明,这里不再赘述。 <div>[[{{ns:image}}:ss159.gif|center]]</div> *第4:设置“文章标题”识别规则,如下图,文章标题用[subject]代替。文章标题的过滤规则,剔除规则,替换规则,包含关键字,请您参考图片里的详细说明,这里不再赘述。 <div>[[{{ns:image}}:ss160.gif|center]]</div> *第5:设置“文章内容”的识别规则,如下四图,都属于文章内容识别规则。文章内容用[message]代替,分页区域用[pagearea]代替,分页链接用[page]代替,信息来源用[from]代替,文章作者用[author]代替。同上,一些过滤,剔除等规则,请您参考图片里的详细说明,这里不再赘述。 :这里说明几点: :文章内容格式化:此操作将去除网页多余代,并将文章内容按原有段落分段。格式化的过程为程序自动分析,会存在一些误差。 :保存内容中的图片到本地和保存内容中的[[FLASH]]到本地,这里选择是否将采集到的图片和Flash存放到本地。如需将对方网站的图片存放到自己的服务器上,请选择“是”! <div>[[{{ns:image}}:ss161.gif|center]]</div><br> <div>[[{{ns:image}}:ss162.gif|center]]</div><br> <div>[[{{ns:image}}:ss163.gif|center]]</div><br> <div>[[{{ns:image}}:ss164.gif|center]]</div> :至此已经设置完一个采集规则,然后点击“开始采集”,采集完毕之后点击“查看结果”。最后将采集的内容导入资讯。这里说明一点:采集的内容只能够导入资讯这个频道。 <div>[[{{ns:image}}:ss165.gif|center]]</div><br> <div>[[{{ns:image}}:ss166.gif|center]]</div><br> <div>[[{{ns:image}}:ss167.gif|center]]</div> :这里重点说明,导入后删除和不删除,如果选择删除,则采集来的信息在导入资讯之后,将无法再次被使用。 ==智能采集== :智能采集为您提供非常简单,易用的采集方式。只要将您需要采集的站点地址添加到地址框,然后点击开始采集即可。 :智能采集集成于手工采集中,您只需将采集的地址填入地址框,然后点击提交即可。如下图: <div>[[{{ns:image}}:ss168.gif|center]]</div> ==参考来源== *http://faq.comsenz.com/usersguide/supesite {{SupeSite}} [[category:SupeSite|S]] [[category:SupeSite后台资讯管理]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)
模板:SupeSite
(
编辑
)
模板:SupeSite top
(
编辑
)