火车采集器/前后截取模式
前后模式获取的原理很简单,比如一个网页里的代码顺序是abcd这样子的,而b是需要获取的,就可以使用开始字符串a,结束字符串c或cd来获得b的内容。其中,a必须是b之前唯一的代码,c或cd在a后必须是唯一的。
以这个页面为例http://www.admin5.com/article/20080731/96671.shtml,采一下标题和内容等。先看源码。
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <title>怎么让自己站火起来 - 站长网</title> <meta name="keywords" content="推广,建站,运营,站长,网站,网站推广,赚钱"> <meta name="description" content="站长网:站长必上的网站 做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次,这是每个站长都必须要想的事情,我当时做论坛时刚开始没有人, 后宣传一下来些人,但基本不发贴,再后来发了几个贴可很少见到回贴,呵呵,那段时间真有是有尽使不上,不知道"> <script src="/images/2008a/web.js" type="text/javascript"></script> <link href="/images/2008a/web.css" rel="stylesheet" type="text/css" /> <script src="/include/dedeajax2.js" language="javascript"></script> <script type="text/javascript"> function Digg(divId,aid){ var taget_obj = document.getElementById(divId+''+aid); var myajax = new DedeAjax(taget_obj,false,false,"","",""); myajax.SendGet2("/digg.php?action=digg&aid="+aid); DedeXHTTP = null; } function FontZoom(fsize){ var ctext = document.getElementById("arctext"); ctext.style.fontSize = fsize +"px"; } </script> </head> <body> <ul id="top"> <li class="first">[ 站 长 必 上 的 网 站 ]</li> <li class="none"><a href="/plus/rssmap.html" target="_blank">RSS订阅</a></li> <li><a href="/plus/sitemap.html" target="_blank">网站地图</a></li> <script language="JavaScript" src="/images/javascript/topnav.js"></script> </ul> <div class="header"> <div id="header" class="clearfix"> <div id="logo"> <a href="http://www.admin5.com/" target="_self"><img src="/images/2008a/logo_d.gif" /></a> </div> <div id="head-info"> <ul> <script language="JavaScript" src="/images/javascript/t6_all.js"></script> </ul> </div> <div id="banner"> <script language="JavaScript" src="/images/javascript/banner.js"></script> </div> </div> </div> <div id="menu"> <ul class="menu"> <li class="home"><a href="/">首页</a></li> <li><a href="/browse/177/index.shtml">站长新闻</a></li> <li><a href="/browse/20/index.shtml">访谈</a></li> <li><a href="/browse/19/index.shtml">经验心得</a></li> <li class='current'><a href='/browse/26/index.shtml'>推广策划</a></li> <li><a href="/browse/9/index.shtml">搜索&SEO</a></li> <li><a href="/browse/5/index.shtml">网赚</a></li> <li><a href="/browse/15/index.shtml">互联网</a></li> <li><a href="/browse/17/index.shtml">域名</a></li> <li><a href="/browse/186/index.shtml">技术</a></li> <li><a href="/browse/185/index.shtml">聚会交流</a></li> <li><a href="/browse/183/index.shtml">站长休闲</a></li> <li><a href="/special/index.php">专题</a></li> </ul> <ul class="link"> <li><a href="http://bbs.admin5.com/" target="_blank">交易论坛</a></li> </ul> </div> <div id="navi"> <ul> <script language="JavaScript" src="/images/javascript/subnav.js"></script> </ul> </div> <div id="m_b" class="c"> <b class="b4"></b><b class="b3"></b><b class="b2"></b><b class="b1"></b> </div> <div id="search"> <div class="keyword"> 热门关键词: <a href='/plus/search.php?keyword=%D7%AC%C7%AE&searchtype=titlekeyword'>赚钱</a> <a href='/plus/search.php?keyword=seo&searchtype=titlekeyword'>seo</a> <a href='/plus/search.php?keyword=%C1%F7%C1%BF&searchtype=titlekeyword'>流量</a> <a href='/plus/search.php?keyword=%D3%F2%C3%FB&searchtype=titlekeyword'>域名</a> <a href='/plus/search.php?keyword=%CD%F8%D5%BE&searchtype=titlekeyword'>网站</a> <a href='/plus/search.php?keyword=%D5%BE%B3%A4&searchtype=titlekeyword'>站长</a> <a href='/plus/search.php?keyword=%C1%AA%C3%CB&searchtype=titlekeyword'>联盟</a> <a href='/plus/search.php?keyword=%CD%C6%B9%E3&searchtype=titlekeyword'>推广</a> <a href='/plus/search.php?keyword=%B3%F6%CA%DB&searchtype=titlekeyword'>出售</a> <a href='/plus/search.php?keyword=%B9%E3%B8%E6&searchtype=titlekeyword'>广告</a> </div> <div class="search"> <form action="/plus/search.php" name="formsearch" target="_blank"> <input type="hidden" name="kwtype" value="1" /> <input name="searchtype" value="title" checked="checked" type="radio"><label for="header_article">标题</label> <input name="searchtype" value="titlekeyword" type="radio"><label for="header_photo">智能</label> <input class="textbox" size="30" name="keyword" id="keyword" type="text"> <input src="/images/2008a/btn_search.gif" value="搜索" alt="搜索" type="image"> </form> <!-- /search --> </div> </div> <div id="main-info" style="background-image:none;"> <ul class="clearfix"> <script language="JavaScript" src="/images/javascript/innert.js"></script> </ul> </div> <div id="content" class="clearfix"> <div class="news-list"> <div class="article"> <h1>怎么让自己站火起来</h1> <div class="desc"> 来源:<a href="http://www.zhengzhourc.com" target="_blank">郑州人才网</a> 时间:2008-07-31 14:03 字体:[<a href='javascript:FontZoom(16)'>大</a> <a href='javascript:FontZoom(14)'>中</a> <a href='javascript:FontZoom(12)'>小</a>] <a href="/plus/stow.php?arcID=96671" target="_blank">收藏</a> <a href="/member/article_add.php" target="_blank">我要投稿</a> </div> <div class="text"> <div id="arctext"> <p>做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次,这是每个站长都必须要想的事情, 我当时做论坛时刚开始没有人,后宣传一下来些人,但基本不发贴,再后来发了几个贴可很少见到回贴,呵呵,那段时间真有是有尽使不上,不知道从和下手, 知道后来想到了破窗效应:</p> <p> “破窗效应”的理论来源于美国心理学家詹巴斗进行的一次实验。在这项实验中:一位学者找来两量一模一样的汽车, 分别把它们放置在中等阶级社区和杂乱街区,他把停在中等阶级社区的那辆车的车牌摘掉,顶棚打了个洞。结果这量车一天之内就被人偷走了。 而放在杂乱街区的那辆车摆了一星期却仍旧完好无损。而把这辆车也打一个洞,结果仅过几小时这辆车也被偷走了。 以这个实验为基础得出“破窗理论”。</p> <p> 一位企业老总经过仔细观察发现的现象:当一栋房子的窗户玻璃出现第一块破损后,如不及时修补,很快,其他玻璃会接二连三的遭到破坏, 如果及时修补,其他玻璃极少在被破坏。</p> <p> 网站上如果有几个垃圾贴,那么不出很长时间垃圾贴会越来越多,有时候在论坛的回帖和文章的评论上也很明显,如果第一个评论的人骂作者, 第二个人看到了很可能也会骂,那么第三个人肯定也是骂的,这就是破窗效应,但我们反过来想, 如果头几个人都说作者的好,那么就很少会出现骂人的话了。</p> <p> 所以我当时就用好多马甲回复各个主题,加上朋友的帮忙,该社区很快有了人气,虽然访问量不是特别大, 但基本上都是我们的忠实用户。</p> <p> 现在虽然我重点做郑州人才网而不做社区了,但这其中的道理是一样的, 很多站长在推广增加流量的同时忽略了人气,其实人气和流量是同等重要的,怎么做出个有较高人气的网站, 就要靠各位站长在解决用户需求的同时多多利用破窗理论喽!</p> <center></center> </div> <div class="author"><span class="right navy"></span><a href='/member/index.php?uid=zhengzhourc' target='_blank'> 作者 <font color='red'>郑州人才网</font> 的个人空间</a> <font color="#666666" style="font-size:12px;">本文仅代表作者观点,与站长网立场无关.</font></div> <div class="diggdiv"> <div class='diggbox' id="digg96671"> <div class='diggnum'>1</div> <div class="digglink"><a href="javascript:Digg('digg',96671);">顶一下</a></div> </div> <div class="prevnext">上一篇:<a href='/article/20080731/96663.shtml'>我的网站推广方案 请大家给点意见</a> <br /> 下一篇:<a href='/article/20080731/96673.shtml'>专业网站的设计要注意什么</a> </div> </div> <div class="clear"></div> 编辑热线:0516-85995555 Email:0051@vip.163.com <a href="/member/index_do.php?fmdo=user&dopost=regnew" target="_blank"><font color="red"> 20秒注册会员 结交站长朋友 分享你的精彩</font></a> </div> <div class="list-b text-info"> <div class="space"></div><ul class="list float arts"><script language="JavaScript" src="/images/javascript/artbot.js"> </script></ul><div class="space"></div> </div> <div id="feedback"> <span class="feednums">站长评论(3)</span> <div class="intel"></div> <div id="gbook"><img src="/images/2008a/ajax_small.gif" align="absmiddle" /> 评论加载中…</div> </div> </div> <div class="thead">相关新闻</div> <div class="tbody normal"> <div class="itembox" style='background:#fff;'> <div class="box1"><span class="date">2008-08-01 15:04:15</span><a href="/article/20080801/96899.shtml" target="_blank"> 谈谈自己做联盟推广的经验</a></div> </div><div class="itembox" > <div class="box1"><span class="date">2008-08-01 13:12:57</span><a href="/article/20080801/96882.shtml" target="_blank"> 王通的连环赚钱计划与后果</a></div> </div><div class="itembox" style='background:#fff;'> <div class="box1"><span class="date">2008-08-01 11:50:33</span><a href="/article/20080801/96867.shtml" target="_blank"> 一般网站策划的几个步骤</a></div> </div><div class="itembox" > <div class="box1"><span class="date">2008-08-01 11:44:57</span><a href="/article/20080801/96864.shtml" target="_blank"> 您还记得在其他博客上的留言吗</a></div> </div><div class="itembox" style='background:#fff;'> <div class="box1"><span class="date">2008-08-01 08:46:51</span><a href="/article/20080801/96809.shtml" target="_blank"> 简述网站推广方法 </a></div> </div><div class="itembox" > <div class="box1"><span class="date">2008-08-01 08:05:38</span><a href="/article/20080801/96802.shtml" target="_blank"> 垃圾站有流量就能被百度收录 排名就能涨</a></div> </div> <div class="clear"></div> </div> </div> <!-- /news-list --> <div class="rank-list"> <script language="JavaScript" src="/images/javascript/rt_img.js"></script> <div class="title-b"><h3>热门新闻</h3></div> <div class="list-b"> <ul class="list eiss date"> <li>16日 <a href="/article/20080716/94226.shtml" target="_blank">手把手教你成为推广狂人</a></li> <li>04日 <a href="/article/20080704/92133.shtml" target="_blank">2008年7月底PR即将更新 马上提高您的PR值</a></li> <li>31日 <a href="/article/20080731/96605.shtml" target="_blank">对弹窗的一点看法 跟新手朋友共勉</a></li> <li>11日 <a href="/article/20080711/93485.shtml" target="_blank">百度的搜索技术并不强大的几个表现</a></li> <li>23日 <a href="/article/20080723/95344.shtml" target="_blank">友情链接交换攻略:哪些方面值得注意</a></li> <li>15日 <a href="/article/20080715/94049.shtml" target="_blank">利用图片推广网站的又一猛招</a></li> <li>24日 <a href="/article/20080724/95523.shtml" target="_blank">网站推广方法大全(2008迎奥运版)</a></li> <li>15日 <a href="/article/20080715/93999.shtml" target="_blank">Google是如何判断网站的原创性的</a></li> <li>28日 <a href="/article/20080728/96080.shtml" target="_blank">日大于5000IP的站长该做些什么</a></li> <li>04日 <a href="/article/20080704/92044.shtml" target="_blank">一举多得的宣传方案(巧用威客任务)</a></li> </ul> </div> <div class="title-b"><h3>推荐新闻</h3></div> <div class="list-b"> <ul class="list eiss date"> <li>30日 <a href="/article/20080730/96567.shtml" target="_blank">刘韧八年前写的DoNews《关于我们》还多少要坚持?</a></li> <li>11日 <a href="/article/20080711/93485.shtml" target="_blank">百度的搜索技术并不强大的几个表现</a></li> <li>09日 <a href="/article/20080709/92983.shtml" target="_blank">地方行业站发展新思路 招生加广告</a></li> <li>07日 <a href="/article/20080707/92673.shtml" target="_blank">网络营销的三重境界:淫、营、嬴 </a></li> </ul> </div> <script language="JavaScript" src="/images/javascript/rb_img.js"></script> </div> <!-- /content --> </div> <div id="footer"> <script language="JavaScript" src="/images/javascript/footer.js"></script> </div> <script type="text/javascript">admin5.init()</script> <script src="/plus/count.php?aid=96671&mid=" language="javascript"></script> <iframe width="0" height="0" style="visibility:hidden" src="/plus/feedback_if.php?arcID=96671" id="igbook" name="igbook"></iframe> </body> </html>
这里获得标题,可以选开始"<title>"结束"</title>",然后过滤一下 “- 站长网”这字符,也可以开始“<title>"结束”- 站长网“来直接获得标题。想获得关键字的话可以 开始 <meta name="keywords" content=" 结束 ">
下边讲一下怎么获得内容,先打开网页源代码,查找内容附近的代码。
来源:<a href="http://www.zhengzhourc.com" target="_blank">郑州人才网</a> 时间:2008-07-31 14:03 字体:[<a href='javascript:FontZoom(16)'>大</a> <a href='javascript:FontZoom(14)'>中</a> <a href='javascript:FontZoom(12)'>小</a>] <a href="/plus/stow.php?arcID=96671" target="_blank">收藏</a> <a href="/member/article_add.php" target="_blank">我要投稿</a> </div> <div class="text"> <div id="arctext"> <p> 做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次,这是每个站长都必须要想的事情, 我当时做论坛时刚开始没有人,后宣传一下来些人,但基本不发贴,再后来发了几个贴可很少见到回贴,呵呵,那段时间真有是有尽使不上,不知道从和下手, 知道后来想到了破窗效应:</p> <p> “破窗效应”的理论来源于美国心理学家詹巴斗进行的一次实验。在这项实验中:一位学者找来两量一模一样的汽车, 分别把它们放置在中等阶级社区和杂乱街区,他把停在中等阶级社区的那辆车的车牌摘掉,顶棚打了个洞。结果这量车一天之内就被人偷走了。 而放在杂乱街区的那辆车摆了一星期却仍旧完好无损。而把这辆车也打一个洞,结果仅过几小时这辆车也被偷走了。以这个实验为基础得出“破窗理论”。</p> <p> 一位企业老总经过仔细观察发现的现象:当一栋房子的窗户玻璃出现第一块破损后,如不及时修补,很快,其他玻璃会接二连三的遭到破坏, 如果及时修补,其他玻璃极少在被破坏。</p> <p> 网站上如果有几个垃圾贴,那么不出很长时间垃圾贴会越来越多,有时候在论坛的回帖和文章的评论上也很明显,如果第一个评论的人骂作者 ,第二个人看到了很可能也会骂,那么第三个人肯定也是骂的,这就是破窗效应,但我们反过来想,如果头几个人都说作者的好, 那么就很少会出现骂人的话了。</p> <p> 所以我当时就用好多马甲回复各个主题,加上朋友的帮忙,该社区很快有了人气,虽然访问量不是特别大, 但基本上都是我们的忠实用户。</p> <p> 现在虽然我重点做郑州人才网而不做社区了,但这其中的道理是一样的,很多站长在推广增加流量的同时忽略了人气, 其实人气和流量是同等重要的,怎么做出个有较高人气的网站,就要靠各位站长在解决用户需求的同时多多利用破窗理论喽!</p> <center></center> </div> <div class="author"><span class="right navy"></span><a href='/member/index.php?uid=zhengzhourc' target='_blank'> 作者 <font color='red'>郑州人才网</font> 的个人空间</a>
可以看到,文章前边是<div id="arctext">这个代码,查找一下,这是唯一的,可以使用,然后找后边文章结束有个这个代码<center></center>,这个也是唯一的。这样,以这两个代码为开头和结尾就可以获得内容了。
在使用前后截取模式采集数据时要善于使用通配符(*)。需要注意的是通配符的使用是在代码的中间,两边是不能使用的,那样一般是会出错的,如果可以是以这个开始 <til(*)> ,但不能这样,(*)title 或是 title(*) 。比如这个可以代替任何内容,有的采集时不容易获得最开始的标识,或者说是那样的代码很多,比如代码里 (*)<div id="arctext"> 很多很多,但是有的代码后的很少,这时可以考虑用通配符。比如上边的开始可以写成 来源:<a(*)<div id="arctext">或者我要投稿</a>(*)<div id="arctext">或者来源:(*)时间:(*)收藏</a>(*)我要投(*)<div id="arctext"> 等........注意前边的基本都是唯一的代码.
使用前后截取模式采集数据是最常用的方法,也是最简单的方法,使用好这个可以基本采集的都可以处理了。