HDWiki/扩展设置
扩展设置功能包括:防灌水设置、防采集设置、邮件设置、邮件提醒设置、IP禁止、通行证设置、UCenter设置。
防灌水设置[ ]
HDwiki通过“启用验证码”和设置“禁言时间”进行防灌水。在“防灌水设置”中可以进行相关设置。
防采集设置[ ]
通过开启“字符串混淆”、“UserAgent 判断”、“访问频率判断”
字符串混淆[ ]
在“字串混淆是否开启”一栏选择“是” 可开启此功能。
开启后,在“混淆字符串”输入框中填写的字符串将随机出现在词条详情页中,但不会被显示。如果内容被采集,添加的混淆字符串将被显示。
UserAgent 判断[ ]
在“UserAgent判断是否开启”一栏选择“是” 可开启此功能。
简单的说,UserAgent是浏览器在浏览网站时,发送给网站服务器上的关于浏览器自身的一段描述字符串,不同的浏览器一般会有不同的UserAgent,例如,IE内核的浏览器在UserAgent字符串中一般含有“MSIE” 关键字,而Chrome浏览器则含有 "Chrome" 关键字。
通常来说,采集器在采集页面时,发送的UserAgent会不同于普通的浏览器,甚至根本不发送UserAgent,UserAgent判断功能就是通过这个差异来限制采集器对词条页的访问。
在“UserAgent名单”一栏可以设置UserAgent黑名单和白名单关键词。“判断方式”一栏可以设置UserAgent黑、白名单判断逻辑;
用法示例
示例一、
目的:只允许IE或IE内核的浏览器访问词条页面:
设置方法:"判断方式"一栏选择“只允许出现在白名单中的UserAgent访问,其他则禁止”;"UserAgent名单"一栏中的“白名单”处填写IE浏览器UserAgent关键词 "MSIE" (不带引号),提交保存。
示例二、
目的:禁止不发送UserAgent的程序访问词条页,同时禁止IE浏览器访问词条页(通常情况下不应禁止IE浏览器访问,此处只做示例):
设置方法:"判断方式"一栏选择“只禁止出现在黑名单中的UserAgent访问,其他则允许”;"UserAgent名单"一栏中的“黑名单”处填写第一行直接回车(代表空UserAgent),第二行填写IE浏览器UserAgent关键词 "MSIE" (不带引号),提交保存。
访问频率判断[ ]
在“访问频率判断是否开启”一栏选择“是”可开启此功能。
通常情况下,采集器对词条页的访问频率较高(可能每秒5页甚至更多),远远大于普通访客的访问频率。访问频率判断通过这种差异实现防采集功能。
“访问频率判断规则”一栏可以设置具体的判断规则,例如,设置为“当每 60 秒内访问词条详情页超过30页,自动将此IP加入IP禁止名单,1小时内禁止访问”的情况下,如果有程序(包括普通浏览器和采集器)在60秒内访问了30页以上的词条详情页,此程序所属的IP地址将被加入 “IP禁止”中的IP禁止名单中,有效期为 1 小时。
由于搜索引擎在抓取网站内容时的频率可能也会比较高,为防止出现搜索引擎蜘蛛IP被误屏蔽的情况,可以将常见的搜索引擎IP地址加入规则下面的输入框中,每个IP地址通过换行分开。IP地址可以用 * 通配符。例如其中一行填写 "127.0.0.*", 则代表从 127.0.0.1 到 127.0.0.255 的所有IP。此处填写的IP地址在访问词条页面时,将不受访问频率判断规则限制。
注意:为防止在自己调试网站时出现自己的IP被屏蔽的情况,建议将自己所在的IP地址加入此列表。如果是本机调试,一般可填写 127.0.0.* 。
邮件设置[ ]
对邮件的发送进行相关设置,如收件人地址中是否包含用户名、发送方式、邮件头的分隔符等。
邮件提醒设置[ ]
选中的用户组会在发生词条操作事件时收到Email通知。
如果接收邮件提醒的用户过多,会对系统造成较大负担,请只选择有必要接收提醒的用户或用户组。
IP禁止[ ]
禁止ip可以使用“*”作为通配符禁止某段地址。
输入禁止ip或上传包含禁止ip的文件!(支持txt和cvs格式文件,ip之间用空格或换行隔开)
通行证设置[ ]
UCenter设置[ ]
参考来源[ ]
http://kaiyuan.hudong.com/index.php
HDWIKI使用手册导航 | ||||||
---|---|---|---|---|---|---|
|