站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
Siteserver-信息采集管理-Web页面信息采集
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航:</strong> [[Siteserver使用教程|上一页]]</span> <div style="clear:both;"></div> '''[[Web]]页面信息采集''' 如果没有使用过Web页面信息采集功能请参考此文。 这里要给大家做示例的网站是[[新浪]]的 '''考古发现频道''' ,这是个比较通用和实用的规则。 '''一、建立采集规则''' 点击系统左侧的“'''功能管理'''”→“'''信息采集管理'''”→“'''Web页面信息采集'''”进入Web页面信息采集的界面。 点击界面中的“添加采集规则”按钮,进入添加采集规则界面。 *'''采集规则基本信息''' 基本信息包括采集规则的名称、采集的[[网站]][[域名]]以及其他的采集参数设置,如下图: [[Image:Siteserver0191.gif]] * 采集规则名称以及站点域名您可以取任何您觉得易记的名称,建议使用目标源的名字及域名以便于日后管理。 * 网页编码必须和采集[[网站]]的编码一致,一般使用“简体中文(GB2312)”。 * 采集内容数表示需要采集的条数,默认为0,代表采集全部内容。 * 下载内容图片项为确定是否下载采集内容中的图片到自己的服务器,以防对方网站的图片地址无法访问。 * 内容标题包含为过滤信息,只采集含特定字符串的标题内容。 其他参数请参考页面帮助。 *'''采集内容列表信息''' 列表信息包括采集列表的地址以及采集内容地址必须包含的字符串等信息,用于获取采集内容的地址集合,如下图: [[Image:Siteserver0192.gif]] 以新浪考古发现频道为例,起始网页地址为列表页的地址“ http://tech.sina.com.cn/discovery/civilization/kgfx.shtml ”。 *由于考古发现频道没有翻页,起始网页地址只需要选择“从多个网址”,如果有翻页还需选择“从序列相似网址”并填入翻页数目。 *内容地址包含用于过滤采集的内容地址,系统将从列表页中选择指定格式的地址作为内容页面的链接。如上图所示,系统仅采集包含“ <nowiki>http://tech.sina.com.cn/d/*.shtml</nowiki> ”字符串的内容页面,其中“*”代表任意字符。 *区域内网址为页面某一部分的页面开始和结束,系统将采集此部分内所有的内容地址。此项可不填。 *登录网站[[Cookie]]用于采集需要登录的网站,登录网站后获取到cookie信息并填入即可。此项可不填。 *'''采集内容页面信息''' 内容页面信息包括需要采集的页面的信息,包括标题、内容、作者等,如下图: [[Image:Siteserver0193.gif]] 以新浪考古发现频道为例,首先进入内容页面,在浏览器中选择“查看源文件”获取到内容页面的代码。在代码中找到内容标题,然后找到标题前面和后面的代码,拷贝到内容标题开始以及内容标题结束项中。内容正文、内容栏目、内容翻页等元素与内容标题相同,找到对应代码后摘录代码之前及之后的一段代码并填入对应项中。 [[Image:Siteserver0194.gif]] 除默认的内容标题、正文外其他字段同样能够采集,在上图其他需要采集的字段中选择对应的字段即可。需要注意的是内容正文排除和内容Html清除,这两项能够从内容正文中过滤不需要的信息,如广告等。接着点击下一步便完成了[[Web]]页面信息采集规则的添加工作。添加完成Web页面信息采集规则后接下来需要测试此规则能否正常工作。 '''二、测试采集规则''' 点击界面中的“测试”按钮,进入测试采集规则界面。 [[Image:Siteserver0195.gif]] 点击获取链接按钮后系统将获取采集频道的内容列表,如果采集规则参数正确,系统将把所有需要采集的内容列在下方。如果点击获取链接后没有列出内容页列表则证明采集规则中采集内容列表信息参数设置需要修改。通过获取链接,可以知道采集内容列表信息的参数设置是否正确。点击获取内容按钮后系统将采集指定的内容页并将采集到的字段信息显示在右侧。通过获取内容,可以知道采集内容页面信息的参数设置是否正确。一般需要经过几次测试+修改的过程一个采集规则才能够正式使用。测试通过后下一步便可以开始正式采集页面了。 '''三、开始采集''' 点击“开始采集”链接开始采集Web页面内容,如下图: [[Image:Siteserver0196.gif]] 采集界面中会列出可能需要修改的参数,一般一个采集规则可以采集对应网站的所有页面,不同的是每次采集的频道页地址不同,所有可以在信息采集界面中修改采集地址以及采集到的栏目,从而重复利用所加的采集规则。 [[Image:Siteserver0197.gif]] 至此,采集完毕。 '''四、采集规则导入导出''' 采集规则能够保存为[[xml]]文件并在系统中导入导出,本示例对应的采集规则可以右键下载,选择目标另存为将采集文件保存到本机。'''下载'''采集规则文件后在Web页面信息采集管理界面中点击“导入采集规则”,出现下图: [[Image:Siteserver0198.gif]] 在上图中点击浏览,选择上一步下载的采集规则文件并点击导入,采集规则导入后将可以直接使用。同时系统中的所有采集规则可以导出为xml文件。 ==参考资料== *[http://help.siteserver.cn SiteServer官方] [[category:SiteServer|S]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)