编辑“SiteWeaver内容管理系统:采集管理事项

跳转至: 导航、​ 搜索
警告:您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您登录创建一个账户,您的编辑将归属于您的用户名,且将享受其他好处。

该编辑可以被撤销。 请检查下面的对比以核实您想要撤销的内容,然后发布下面的更改以完成撤销。

最后版本 您的文本
第1行: 第1行:
<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航:</strong> [[SiteWeaver内容管理系统:采集管理|上一页]] | {{Template:PowerEasy导航}}</span>
<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航:</strong> [[SiteWeaver内容管理系统:采集管理|上一页]] | {{Template:PowerEasy导航}}</span>
<div style="clear:both;"></div>
<div style="clear:both;"></div>
[[采集]]系统可以直接深入到站点及其[[网页]]的所有内容,将网页中的有效数据采集出来(而不仅是网页或链接),并保持数据之间的逻辑关系。对一个新闻站点,它可以将每个新闻的标题、正文等信息单独采集出来,分别作为字段存储在系统中。
采集系统可以直接深入到站点及其网页的所有内容,将网页中的有效数据采集出来(而不仅是网页或链接),并保持数据之间的逻辑关系。对一个新闻站点,它可以将每个新闻的标题、正文等信息单独采集出来,分别作为字段存储在系统中。


'''采集项目管理'''
'''采集项目管理'''
第19行: 第19行:
·定时设置 | 启动定时:用于设置定时采集
·定时设置 | 启动定时:用于设置定时采集


·区域采集管理:就是采集[[网站]]页面的某个固定区域,并将采集得来的区域代码保存为内联页提供给模板调用,刷新区域采集就可时时更新。
·区域采集管理:就是采集网站页面的某个固定区域,并将采集得来的区域代码保存为内联页提供给模板调用,刷新区域采集就可时时更新。


'''文章采集'''
'''文章采集'''
第32行: 第32行:
::红色:表示当天采集的时间。如:2005-5-10 11:31:32(如果过了当天时间则会变成黑色)。
::红色:表示当天采集的时间。如:2005-5-10 11:31:32(如果过了当天时间则会变成黑色)。
:·文章采集选项:系统提供了三种采集的样式,包括
:·文章采集选项:系统提供了三种采集的样式,包括
::->不录入[[数据库]],只测试采集功能是否正常
::->不录入数据库,只测试采集功能是否正常
::->采集过程中预览文章内容
::->采集过程中预览文章内容
::->不采集本系统中已经存在相同标题的文章(网站文章超过2万篇以上,请慎用此项)
::->不采集本系统中已经存在相同标题的文章(网站文章超过2万篇以上,请慎用此项)
第39行: 第39行:


:·采集模式:提供“稳定采集”、“快速采集”、“链接采集”和“断点采集”四种模式。
:·采集模式:提供“稳定采集”、“快速采集”、“链接采集”和“断点采集”四种模式。
::->稳定采集:是针对一台[[服务器]]有多个动易系统时建议选此项,每采集一篇文章让服务器休息3秒。这样当一台服务器多个动易系统同时采集的时候服务器不受采集影响。
::->稳定采集:是针对一台服务器有多个动易系统时建议选此项,每采集一篇文章让服务器休息3秒。这样当一台服务器多个动易系统同时采集的时候服务器不受采集影响。
::->快速采集:是针对用户拥有一台独立的服务器或配置非常好的服务器使用的采集模式。快速采集将发挥采集的最快速度,采集的效率最高。
::->快速采集:是针对用户拥有一台独立的服务器或配置非常好的服务器使用的采集模式。快速采集将发挥采集的最快速度,采集的效率最高。
::->链接采集:就是只采集对方网站的链接,不采集正文。
::->链接采集:就是只采集对方网站的链接,不采集正文。
第86行: 第86行:
:·网站名称:填写自定义网站名称。
:·网站名称:填写自定义网站名称。
:·新闻列表网址:填写采集网站的的栏目列表页(即标题较多的列表网页,不是首页)。
:·新闻列表网址:填写采集网站的的栏目列表页(即标题较多的列表网页,不是首页)。
:·[[网页编码]]格式:提供[[GB2312]]、[[UTF-8]]和[[Big5]]三种编码格式。国内的网站基本都是GB2312,(默认选项可不选)
:·网页编码格式:提供GB2312、UTF-8和Big5三种编码格式。国内的网站基本都是GB2312,(默认选项可不选)


如果是香港,台湾网站请采用 Big5编码,如果是采集海外网站用UTF-8编码。
如果是香港,台湾网站请采用 Big5编码,如果是采集海外网站用UTF-8编码。
第126行: 第126行:
·链接开始代码和结束代码:填写获得链接的代码。
·链接开始代码和结束代码:填写获得链接的代码。


如果列表分页正确后,就获得的一排列表标题代码。链接代码就要获得标题的[[URL]]链接,注意是要获得标题到正文的Url链接。
如果列表分页正确后,就获得的一排列表标题代码。链接代码就要获得标题的URL链接,注意是要获得标题到正文的Url链接。


->使用例举1:
->使用例举1:
第348行: 第348行:
:·栏目/专题:指定您现在要采集的文章是属于哪一个栏目和专题。
:·栏目/专题:指定您现在要采集的文章是属于哪一个栏目和专题。
:·文章状态:是确定您正要采集的文章的状态,包括草稿、待审核、终审通过。
:·文章状态:是确定您正要采集的文章的状态,包括草稿、待审核、终审通过。
:·立即生成:如果您把这个勾选上,在采集完成后就把您所要采集的文章生成[[html]]。
:·立即生成:如果您把这个勾选上,在采集完成后就把您所要采集的文章生成html。


2.属性设置:
2.属性设置:
第368行: 第368行:
Iframe:过滤内联。
Iframe:过滤内联。


Object:过滤[[Falsh]]和控件。
Object:过滤Falsh和控件。


Script:过滤js、vbs等脚本。
Script:过滤js、vbs等脚本。
第374行: 第374行:
Class:过滤类。
Class:过滤类。


[[Div]]:过滤层。
Div:过滤层。


Span:过滤。
Span:过滤。
第444行: 第444行:




[[category:SiteWeaverCMS采集管理]]
[[category:PowerEasy]] [[category:SiteWeaverCMS]]
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅Wordpress-mediawiki:版权的细节)。 未经许可,请勿提交受版权保护的作品!
取消 编辑帮助(在新窗口中打开)

本页使用的模板: