站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
建站程序
开发
服务器
办公软件
开发教程
服务器教程
软件使用教程
运营教程
热门电子书
WordPress教程
宝塔面板教程
CSS教程
Shopify教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
李进斌
”(章节)
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
高级
特殊字符
帮助
标题
2级
3级
4级
5级
格式
插入
拉丁字母
扩展拉丁字母
国际音标
符号
希腊字母
希腊字母扩展
西里尔字母
阿拉伯字母
扩展阿拉伯字母
希伯来字母
孟加拉语字符集
泰米尔数字和符号
泰卢固语字符集
僧伽罗语字符集
梵文字符集
古吉拉特语字符集
泰语字符集
老挝语
高棉语字母
加拿大原住民音节文字
卢恩
Á
á
À
à
Â
â
Ä
ä
Ã
ã
Ǎ
ǎ
Ā
ā
Ă
ă
Ą
ą
Å
å
Ć
ć
Ĉ
ĉ
Ç
ç
Č
č
Ċ
ċ
Đ
đ
Ď
ď
É
é
È
è
Ê
ê
Ë
ë
Ě
ě
Ē
ē
Ĕ
ĕ
Ė
ė
Ę
ę
Ĝ
ĝ
Ģ
ģ
Ğ
ğ
Ġ
ġ
Ĥ
ĥ
Ħ
ħ
Í
í
Ì
ì
Î
î
Ï
ï
Ĩ
ĩ
Ǐ
ǐ
Ī
ī
Ĭ
ĭ
İ
ı
Į
į
Ĵ
ĵ
Ķ
ķ
Ĺ
ĺ
Ļ
ļ
Ľ
ľ
Ł
ł
Ń
ń
Ñ
ñ
Ņ
ņ
Ň
ň
Ó
ó
Ò
ò
Ô
ô
Ö
ö
Õ
õ
Ǒ
ǒ
Ō
ō
Ŏ
ŏ
Ǫ
ǫ
Ő
ő
Ŕ
ŕ
Ŗ
ŗ
Ř
ř
Ś
ś
Ŝ
ŝ
Ş
ş
Š
š
Ș
ș
Ț
ț
Ť
ť
Ú
ú
Ù
ù
Û
û
Ü
ü
Ũ
ũ
Ů
ů
Ǔ
ǔ
Ū
ū
ǖ
ǘ
ǚ
ǜ
Ŭ
ŭ
Ų
ų
Ű
ű
Ŵ
ŵ
Ý
ý
Ŷ
ŷ
Ÿ
ÿ
Ȳ
ȳ
Ź
ź
Ž
ž
Ż
ż
Æ
æ
Ǣ
ǣ
Ø
ø
Œ
œ
ß
Ð
ð
Þ
þ
Ə
ə
格式
链接
标题
列表
文件
参考
讨论
说明
输入内容
输出结果
斜体
''斜体文字''
斜体文字
粗体
'''粗体文字'''
粗体文字
粗斜体
'''''粗斜体文字'''''
粗斜体文字
==李进斌谈采集== 我们现在在更新这个采集器,在数据采集方面也积累了一些经验,增加更多功能以适应新形式下的采集 #别人经常采的网站不要去采 #太容易采的网站不要去采 #不要一次性采集太多,一定要注意后期处理(后面详续) #做好[[关键词]],[[tag]]的采集分析 #自己网站要有自己的定位,不采与自己网站无关的内容 #采集也要有持续性,经常更新,自动采集功能我们也有,但还是建议大家人工也参与一些审核,或定时,乱序发布 后期处理,要想法子做到让[[搜索引擎]]那看不出来两片文章的相同,这里面应该有很多[[SEO]]高手,那我不献丑了。我说下我们现在实现的功能,大家可以把这些混用,达到改变内容[[伪原创]]: #给标题。内容分词 #使用同义词近义词替换,排除敏感词,不同的标签之间数据融合,指如标题内容之间数据的相互替换 #给文章加上摘要 #为文章标题等生成拼音地址 #采集一些其他编码的网站,我们可以做到简繁体转化,可以采集中文网站翻译成英文(虽然比较垃圾,但应该可以算是[[原创]]) 我们也发现,高难度采集的网站一般内容质量都非常好,采集其实有时也是一件很有乐趣的事情,需要你学习一些采集相关的知识。 下面讲一些主要的防采集方法。可以说是攻防对战吧。打开一个[[网页]]实际就是一个[[Http]]请求[[浏览器]]。[[百度]][[蜘蛛]],小到我们的采集器使用的都是一个原理,模拟http请求,所以我们同样能模拟出浏览器。百度蜘蛛出来所以绝对的防采集根本不存在,只是难度的高低。或者你认为搜索引擎的搜录也无所谓了。你可以用一些非常强大的activex,[[flash]],全图片文字的形式,这个我们无能为力。 普通的防采集方法有 #来源判断 #登录信息判断 [[Cookie]] #请求次数判断。如一段时间内请求多少,非常规操作则封[[IP]] #发送方式判断 POST GET 使用[[JS]],[[Ajax]]等请求内容 举例: #不用说了,论坛,下载站等。。 #一些大网站,需要配置[[服务器]],单纯靠脚本判断资源消耗比较大 #如一些招聘站,asp.net的分页,Web2.0站的ajax请求内容 当然我们后面还发现一些杀手锏,今天第一次在这里给大家公布出来 有优质内容需要防采集的朋友可以考虑试下 #网页默认deflate压缩输出([[gzip]]容易一点,容易解压) 我们普通的浏览器和baidu支持识别gzip,deflate输出内容 #网页内容不定时 \0 内容自动截断,这两点基本可以防主大部分主流软件采集及web采集程序了~ 今天主要想要表达的一点,大家在做站时一定要注意技术的提高,比如我们里面有后期外部[[php]]及[[.net]]接口处理采集数据。或者干脆你自己做一个发布时的接口程序自己入库。我们伪原创做得再好,一样有非常多的会员使用,那样又不原创了,采集一样需要技术,只有你通过采集器获得了没有多少人有的数据,你才是唯一了。
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)