站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
ECMS:增加采集结点
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="border:1px solid #000; float:right; padding:6px; margin-bottom:15px; text-align:center;"><strong>导航:</strong> [[ECMS:采集使用篇|上一级]] | [[帝国CMS]] | {{Template:帝国导航}}</span> <div style="clear:both;"></div> '''增加采集节点:'''也可以说是新增一个采集任务。 <span style="color:red;"> 说明:每个系统模型都有自己的[[采集]],无论是内置的还是用户自定义的系统模型,新闻系统有新闻系统采集,下载系统有下载系统采集等等。</span> <div style="border:1px solid darkslateblue; background:#f0f0f0; font-size:14px; font-weight:bold; margin:20px 0 20px; padding:0 5px;"> 增加采集节点 </div> 1、登陆后台->点击大菜单“栏目管理”>“增加采集节点”: 图片1:菜单导航 <div style="border:1px solid #999; width:351px;"> [[{{ns:image}}:addcj1.gif]]</div> 图2:进入选择入库栏目页面 <div style="border:1px solid #999; width:700px;"> [[{{ns:image}}:addcj2.gif]]</div> 2、选择入库栏目后,进入“增加采集节点”页面,如下图: <div style="border:1px solid #999; width:700px;"> [[{{ns:image}}:addcj3.gif]]</div> <div style="border:1px solid darkslateblue; background:#f0f0f0; font-size:14px; font-weight:bold; margin:20px 0 20px; padding:0 5px;"> 基本信息 </div> <pre style="border:1px solid #999; background:white; width:1044px;"> 节点名称 此节点的名称 父节点 可选择上级节点,主要方便管理,比如你可以把所有新闻的采集都归到一个父节点里。 采集页面地址 要采集的页面列表,如果是多个列表用回车格开。 采集页面地址方式二 由系统自己生成列表,但必须是有数字规律的。如:“http://www.phome.net/index.php?page=[page]”([page]则为页码的范围) 内容页地址前缀 信息页链接的地址前缀。如地址前面没域名的话,系统会加上此前缀。如:http://www.phome.net+/news/2006/1.html 图片/FLASH地址前缀 新闻内容的图片/FLASH地址为相对地址时使用。(针对newstext字段,远程保存时有效) 入库栏目 采集的数据要入库的栏目。如本节点不是采集节点,请不选。(只列出属于此系统模型的栏目) 入库专题 采集的数据要入库的专题。 节点生效时间 “开始时间”与“结束时间”这个目前可随意设置。这主要是以后版本扩展之用。 备注 备注或说明 </pre> <div style="border:1px solid darkslateblue; background:#f0f0f0; font-size:14px; font-weight:bold; margin:20px 0 20px; padding:0 5px;"> 选项 </div> <pre style="border:1px solid #999; background:white; width:1044px;"> 默认相关关键字 截取标题前几个字符作为相关链接的“关键字”,推荐设为0,这样入库效率更高。 采集记录数 可设置只采集前多少条记录。("0"为不限,系统会从头采到页面尾) 远程保存图片到本地 选择后入库时系统会远程保存图片到本地,还可设置是否加水印。(针对newstext字段) 远程保存FLASH到本地 选择后入库时系统会远程保存FLASH到本地。(针对newstext字段) 标题图片设置 可设置选择远程保存第几个图片作为标题图片及生成缩图设置。 每组列表采集个数 采集列表页每组记录数,单采集列表页请填1。 每组信息采集个数 采集信息页数据每组记录数 每组入库数 如果要远程保存图片/FLASH则请设小,如设为1。(为防止入库超时,系统推荐将php的超时设为360以上) 每组采集时间间隔 针对部分网站限制了页面刷新时间间隔而设置的项 </pre> <div style="border:1px solid darkslateblue; background:#f0f0f0; font-size:14px; font-weight:bold; margin:20px 0 20px; padding:0 5px;"> 附加选项 </div> <pre style="border:1px solid #999; background:white; width:1084px;"> 页面编码转换 页面编码的转换设置。 是否重复采集同一链接 可设置同一链接是否重复采集。 是否隐藏已导入的信息 推荐选隐藏。否则入库后的记录依然会显示到入库列表里。 采集后自动入库 可设置采集后自动入库,不需要人工去入库。但有可能入库超时中断。 入库后自动删除已导入的信息:入库后同时删除备份的验证记录。 整体页面过滤正则 格式:“广告开始[!--pad--]广告结束”。多个可用“,”格开。 针对整个页面代码进行过滤。 对整个页面字符替换 原字符多个请用","格开,如果是新字符是多个,可以用","格开,系统会一一对应进行替换。 </pre> <div style="border:1px solid darkslateblue; background:#f0f0f0; font-size:14px; font-weight:bold; margin:20px 0 20px; padding:0 5px;"> 过滤选项 </div> <pre style="border:1px solid #999; background:white; width:1034px;"> 采集关键字 标题包含关键字的信息才会采集。如不限制,请留空。多个请用","格开 替换 原字符多个请用","格开,如果是新字符是多个,可以用","格开,系统会一一对应进行替换。 (针对标题与内容) 过滤广告正则 格式:“广告开始[!--ad--]广告结束”,多个请用","格开。(针对newstext字段) 内容为空不采集 如果newstext内容为空不采集设置项。 过滤相似 可设置不采集标题相似超过多少个字符的信息。如不限制请填"0"。 可设置不采集标题完全相同的信息 截取内容简介 如果信息简介(smalltext)没有值的话,系统会依此设置截取新闻内容(newstext)多少字符作为简介。 </pre> <div style="border:1px solid darkslateblue; background:#f0f0f0; font-size:14px; font-weight:bold; margin:20px 0 20px; padding:0 5px;"> 列表页正则 </div> <pre style="border:1px solid #999; background:white; width:1150px;"> 信息链接区域正则 通常不需要设置。一般是设置只采集页面某一区域的链接或缩小采集范围才设置的 在要采集链接区域的代码地方加上“[!--smallurl--]” 信息页链接正则 采集“内容页链接”的正则(列表页里) 在信息页链接的地方加上“[!--newsurl--]” 标题图片正则 采集“标题图片地址”的正则,可设置远程保存与地址前缀(列表页里,如图片在内容页,请留空) 在标题图片地址的地方加上“[!--titlepic--]” </pre> <div style="border:1px solid darkslateblue; background:#f0f0f0; font-size:14px; font-weight:bold; margin:20px 0 20px; padding:0 5px;"> 内容页分页采集设置:(如没有分页请留空,针对newstext字段) </div> <pre style="border:1px solid #999; background:white; width:800px;"> 说明:如果是全部列表式,则只需看第一页的页面正则。 分页形式 有“上下页导航式”与“全部列出式”两种形式 "上下页导航"式正则设置 分页区域正则([!--smallpagezz--]) 分页链接正则([!--pagezz--]) "全部列出"式正则设置 分页区域正则([!--smallpageallzz--]) 分页链接正则([!--pageallzz--]) </pre> <div style="border:1px solid darkslateblue; background:#f0f0f0; font-size:14px; font-weight:bold; margin:20px 0 20px; padding:0 5px;"> 采集相关注意事项 </div> <div style=" width:800px; border:1px solid #999;"> <ol> <li>按通常设置,同一链接不重复采集。 <li>没有标题的信息不采集。 <li>不是固定参数可用“*”代表任意字符。 <li>对于特殊字符请在前面加上“\\”,当然直接将特殊字符改为“*”最合适了。特殊字符如下:<br> “ )”、“(”、“{”、“}”、“[”、“]”、“\”、“?”等等。 <li>正则要找出唯一性的代码。有时候空格都会成为识别的依据。 <li>增加节点后最好先预览节点,预览无误后才开始采集。(管理采集节点那可预览)<br> <div style="border:1px solid #999; width:700px;"> [[{{ns:image}}:addcj4.gif]]</div> <li>"时间正则":为空的话,将为入库时间 </ol></div> [[Category:帝国管理系统|D]] [[Category:CMS采集]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)
本页使用的模板:
模板:帝国导航
(
查看源代码
)(受保护)