站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
CMSware采集问答及技巧
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="border:1px solid #000; float:right; text-align:center; padding:6px;"><strong>导航:</strong>[[CMSware采集管理|返回上一页]]</span> <div style="clear:both;"></div> * 问题:能否倒序[[采集]]呀? 比如采集的页面没有可采集文章发布日期,但文章按照发布时间倒序分页排列,最新的排在第一页最前,最老的排在最后一页最后。 思维([[CMSware]])能否通过采集,使得发布时也是按照这个顺序排列?一般采集都是最新的最先采集,没有原始日期的话,变成最老文章,列到最后去了。 * 答:时间没办法采集,但有采集时间戳的,可以用时间戳放进一个字段,来决定采集后的顺序 。 自己设置一个采集时间字段,然后调用时按这个字段排序。也就是在内容模型里增加一个采集时间的字段cTimer,采集规则写{Timer},然后在模版中调用时使用这个采集时间字段cTimer排序 * 问题:采集时报错如下 <pre> Exception message: preg_match(): Compilation failed: missing terminating ] for character class at offset 90 Error code: 2 -- Backtrace -- (): error.handler E:\web\cms\admin\modules\crawler.php(379): preg_match E:\web\cms\admin\modules\crawler.php(483): parse_html.private_executeparse E:\web\cms\admin\modules\crawler.php(599): parse_html.parse E:\web\cms\admin\modules\crawler.php(861): parse_html.runtask E:\web\cms\admin\admin_collection.php(103): include </pre> * 答:采集正则表达式有误,请修正 * 问题: 采集时是不是很耗内存和[[CPU]] * 答:会影响[[客户端]]一定的资源占用,但是主要消耗是在服务端的 * 问题: 自己写的采集过滤函数应该放在哪里 * 答:过虑函数可以在setting/crawler.ini.php里面添加、修改 * 问题: 关于采集的[[服务器]]支持, fopen() vs curl()。我曾经和服务器运营商联系过这个问题,他们说由于安全问题不能支持fopen,但是同样的,他们说有一个更强大的远程调用函数CURL可以解决相同的问题。是不是服务器不支持fopen就不能支持采集? * 答:是的,现在思维(CMSware)是用fopen支持[[url]]访问的形式来实现采集,因为这个方法最普遍也兼容性最好,这是[[php]]内置功能,大多数服务商都支持. 而采用curl方式,那是php的一个扩展模块,很多服务商不一定安装和支持这个模块的,我们不采用. * 问题:现在采集的内容,时间是不是只能是当天的?我想要以前的或者固定的时间段可以吗? * 答:采集内容不受时间限制,而是受内容列表限制。列表里有什么,就可以采集什么。或者说,打开页面能看见什么,就可以采集什么 * 问题:有效的URL 的写法出错 <pre> <a href='http://news.soufun.com/2005-06-27/448473.htm' target='_blank'> </pre> 我写的是 <pre> /<a[s]*href=([^"><s]*[0-9]+.htm)/isU </pre> 是错误的, 请高手指点 * 答:缺少单引号,正确写法应该为 <pre> /<a[s]*href=\'([^"><s]*[0-9]+.htm)\'/isU </pre> * 问题:采集时报错如下 <pre> Exception message: file(): URL file-access is disabled in the server configuration Error code: 2 -- Backtrace -- (): error.handler E:\usr\local\www\data\cms\admin\modules\crawler.php(492): file E:\usr\local\www\data\cms\admin\modules\crawler.php(536): parse_html.getremotefilecontent E:\usr\local\www\data\cms\admin\modules\crawler.php(892): parse_html.indexparse E:\usr\local\www\data\cms\admin\admin_collection.php(103): include </pre> * 答:采集的目标服务器禁止采集 * 问题: 我已经采集的东西导入后被我删除了,我想再采就采不到了,怎么办 * 答:在“参数设置”--“采集设置”把‘是否重复采集”选择为“是”,或者把“自动隐藏已导入的采集记录”选择为“否” 然后再找到那些已经采过的记录,删掉 * 问题:采集图片多的网站有时会停止 * 答:很可能是php的内存分配不足,加大些估计就好了 ==参考来源== *[http://www.lonmo.com/cmsware/manual/ 参考来源] [[category:CMSware]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)