火车采集器/前后截取模式

来自站长百科
跳转至: 导航、​ 搜索

火车采集器 | 安装 | 主程序 | 子程序 | 应用拓展 | 模块开发 | FAQ

前后模式获取的原理很简单,比如一个网页里的代码顺序是abcd这样子的,而b是需要获取的,就可以使用开始字符串a,结束字符串c或cd来获得b的内容。其中,a必须是b之前唯一的代码,c或cd在a后必须是唯一的。

以这个页面为例http://www.admin5.com/article/20080731/96671.shtml,采一下标题和内容等。先看源码。

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />
<title>怎么让自己站火起来 - 站长网</title>
<meta name="keywords" content="推广,建站,运营,站长,网站,网站推广,赚钱">
<meta name="description" content="站长网:站长必上的网站   
做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次,这是每个站长都必须要想的事情,我当时做论坛时刚开始没有人,
后宣传一下来些人,但基本不发贴,再后来发了几个贴可很少见到回贴,呵呵,那段时间真有是有尽使不上,不知道">
<script src="/images/2008a/web.js" type="text/javascript"></script>
<link href="/images/2008a/web.css" rel="stylesheet" type="text/css" />
<script src="/include/dedeajax2.js" language="javascript"></script>
<script type="text/javascript">
function Digg(divId,aid){
 var taget_obj = document.getElementById(divId+''+aid);
 var myajax = new DedeAjax(taget_obj,false,false,"","","");
 myajax.SendGet2("/digg.php?action=digg&aid="+aid);
 DedeXHTTP = null;
}

function FontZoom(fsize){
 var ctext = document.getElementById("arctext");
 ctext.style.fontSize = fsize +"px";
}
</script>
</head>

<body>

<ul id="top">
    <li class="first">[ 站 长 必 上 的 网 站 ]</li>
    <li class="none"><a href="/plus/rssmap.html" target="_blank">RSS订阅</a></li>
    <li><a href="/plus/sitemap.html" target="_blank">网站地图</a></li> 
    <script language="JavaScript" src="/images/javascript/topnav.js"></script>
</ul>

<div class="header">
 <div id="header" class="clearfix">
     <div id="logo">
         <a href="http://www.admin5.com/" target="_self"><img src="/images/2008a/logo_d.gif" /></a>
        </div>
        <div id="head-info">
         <ul>
             <script language="JavaScript" src="/images/javascript/t6_all.js"></script>
            </ul>
        </div>
        <div id="banner">
         <script language="JavaScript" src="/images/javascript/banner.js"></script>
        </div>
    </div>
</div>

<div id="menu">
    <ul class="menu">
        <li class="home"><a href="/">首页</a></li>
        
  <li><a href="/browse/177/index.shtml">站长新闻</a></li>
       
  <li><a href="/browse/20/index.shtml">访谈</a></li>
       
  <li><a href="/browse/19/index.shtml">经验心得</a></li>
       <li class='current'><a href='/browse/26/index.shtml'>推广策划</a></li>
  <li><a href="/browse/9/index.shtml">搜索&SEO</a></li>
       
  <li><a href="/browse/5/index.shtml">网赚</a></li>
       
  <li><a href="/browse/15/index.shtml">互联网</a></li>
       
  <li><a href="/browse/17/index.shtml">域名</a></li>
       
  <li><a href="/browse/186/index.shtml">技术</a></li>
       
  <li><a href="/browse/185/index.shtml">聚会交流</a></li>
       
  <li><a href="/browse/183/index.shtml">站长休闲</a></li>
       
        <li><a href="/special/index.php">专题</a></li>
    </ul>
    <ul class="link">
        <li><a href="http://bbs.admin5.com/" target="_blank">交易论坛</a></li>
    </ul>
</div>
<div id="navi">
    <ul>
        <script language="JavaScript" src="/images/javascript/subnav.js"></script>
    </ul>
</div>
<div id="m_b" class="c">
    <b class="b4"></b><b class="b3"></b><b class="b2"></b><b class="b1"></b>
</div>

<div id="search">
 <div class="keyword">
     热门关键词: 
<a href='/plus/search.php?keyword=%D7%AC%C7%AE&searchtype=titlekeyword'>赚钱</a>  
<a href='/plus/search.php?keyword=seo&searchtype=titlekeyword'>seo</a>  
<a href='/plus/search.php?keyword=%C1%F7%C1%BF&searchtype=titlekeyword'>流量</a>  
<a href='/plus/search.php?keyword=%D3%F2%C3%FB&searchtype=titlekeyword'>域名</a>  
<a href='/plus/search.php?keyword=%CD%F8%D5%BE&searchtype=titlekeyword'>网站</a>  
<a href='/plus/search.php?keyword=%D5%BE%B3%A4&searchtype=titlekeyword'>站长</a>  
<a href='/plus/search.php?keyword=%C1%AA%C3%CB&searchtype=titlekeyword'>联盟</a>  
<a href='/plus/search.php?keyword=%CD%C6%B9%E3&searchtype=titlekeyword'>推广</a>  
<a href='/plus/search.php?keyword=%B3%F6%CA%DB&searchtype=titlekeyword'>出售</a>  
<a href='/plus/search.php?keyword=%B9%E3%B8%E6&searchtype=titlekeyword'>广告</a> 
    </div>
    <div class="search">
        <form action="/plus/search.php" name="formsearch" target="_blank">
        <input type="hidden" name="kwtype" value="1" />
        <input name="searchtype" value="title" checked="checked" type="radio"><label for="header_article">标题</label>
        <input name="searchtype" value="titlekeyword" type="radio"><label for="header_photo">智能</label>
        <input class="textbox" size="30" name="keyword" id="keyword" type="text">
        <input src="/images/2008a/btn_search.gif" value="搜索" alt="搜索" type="image">
        </form>
        <!-- /search -->
    </div>
</div>

<div id="main-info" style="background-image:none;">
 <ul class="clearfix">
        <script language="JavaScript" src="/images/javascript/innert.js"></script>
    </ul>
</div>

<div id="content" class="clearfix">

 <div class="news-list">
    
     <div class="article">
        
            <h1>怎么让自己站火起来</h1>
            <div class="desc">
             来源:<a href="http://www.zhengzhourc.com" target="_blank">郑州人才网</a>
   时间:2008-07-31 14:03
                字体:[<a href='javascript:FontZoom(16)'>大</a> <a href='javascript:FontZoom(14)'>中</a> 
                       <a href='javascript:FontZoom(12)'>小</a>]
                      <a href="/plus/stow.php?arcID=96671" target="_blank">收藏</a>
       <a href="/member/article_add.php" target="_blank">我要投稿</a>
            </div>
            
            <div class="text">
             <div id="arctext">
              
              <p>做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次,这是每个站长都必须要想的事情,
我当时做论坛时刚开始没有人,后宣传一下来些人,但基本不发贴,再后来发了几个贴可很少见到回贴,呵呵,那段时间真有是有尽使不上,不知道从和下手,
知道后来想到了破窗效应:</p>
<p>  “破窗效应”的理论来源于美国心理学家詹巴斗进行的一次实验。在这项实验中:一位学者找来两量一模一样的汽车,
分别把它们放置在中等阶级社区和杂乱街区,他把停在中等阶级社区的那辆车的车牌摘掉,顶棚打了个洞。结果这量车一天之内就被人偷走了。
而放在杂乱街区的那辆车摆了一星期却仍旧完好无损。而把这辆车也打一个洞,结果仅过几小时这辆车也被偷走了。
以这个实验为基础得出“破窗理论”。</p>
<p>  一位企业老总经过仔细观察发现的现象:当一栋房子的窗户玻璃出现第一块破损后,如不及时修补,很快,其他玻璃会接二连三的遭到破坏,
如果及时修补,其他玻璃极少在被破坏。</p>
<p>  网站上如果有几个垃圾贴,那么不出很长时间垃圾贴会越来越多,有时候在论坛的回帖和文章的评论上也很明显,如果第一个评论的人骂作者,
第二个人看到了很可能也会骂,那么第三个人肯定也是骂的,这就是破窗效应,但我们反过来想,
如果头几个人都说作者的好,那么就很少会出现骂人的话了。</p>
<p>  所以我当时就用好多马甲回复各个主题,加上朋友的帮忙,该社区很快有了人气,虽然访问量不是特别大,
但基本上都是我们的忠实用户。</p>
<p>  现在虽然我重点做郑州人才网而不做社区了,但这其中的道理是一样的,
很多站长在推广增加流量的同时忽略了人气,其实人气和流量是同等重要的,怎么做出个有较高人气的网站,
就要靠各位站长在解决用户需求的同时多多利用破窗理论喽!</p>
                    <center></center>
                </div>
                <div class="author"><span class="right navy"></span><a href='/member/index.php?uid=zhengzhourc' target='_blank'>
                 作者 <font color='red'>郑州人才网</font> 的个人空间</a>
<font color="#666666" style="font-size:12px;">本文仅代表作者观点,与站长网立场无关.</font></div>
                
                <div class="diggdiv">
                
                    <div class='diggbox' id="digg96671">
                        <div class='diggnum'>1</div>
                        <div class="digglink"><a href="javascript:Digg('digg',96671);">顶一下</a></div>
                    </div>
                    
                    <div class="prevnext">上一篇:<a href='/article/20080731/96663.shtml'>我的网站推广方案 请大家给点意见</a> <br />
                 下一篇:<a href='/article/20080731/96673.shtml'>专业网站的设计要注意什么</a> </div>
                  
             </div>
                <div class="clear"></div>
                编辑热线:0516-85995555 Email:0051@vip.163.com
                <a href="/member/index_do.php?fmdo=user&dopost=regnew" target="_blank"><font color="red">
               20秒注册会员 结交站长朋友 分享你的精彩</font></a>
            </div>
            
            <div class="list-b text-info">
                <div class="space"></div><ul class="list float arts"><script language="JavaScript" src="/images/javascript/artbot.js">
                 </script></ul><div class="space"></div>
         </div>
            
            <div id="feedback">
             <span class="feednums">站长评论(3)</span>
                <div class="intel"></div>
                <div id="gbook"><img src="/images/2008a/ajax_small.gif" align="absmiddle" /> 评论加载中…</div>
            </div>
            
        </div>
        
        <div class="thead">相关新闻</div>
        <div class="tbody normal">
         <div class="itembox" style='background:#fff;'>
                <div class="box1"><span class="date">2008-08-01 15:04:15</span><a href="/article/20080801/96899.shtml" target="_blank">
谈谈自己做联盟推广的经验</a></div>
            </div><div class="itembox" >
                <div class="box1"><span class="date">2008-08-01 13:12:57</span><a href="/article/20080801/96882.shtml" target="_blank">
王通的连环赚钱计划与后果</a></div>
            </div><div class="itembox" style='background:#fff;'>
                <div class="box1"><span class="date">2008-08-01 11:50:33</span><a href="/article/20080801/96867.shtml" target="_blank">
一般网站策划的几个步骤</a></div>
            </div><div class="itembox" >
                <div class="box1"><span class="date">2008-08-01 11:44:57</span><a href="/article/20080801/96864.shtml" target="_blank">
您还记得在其他博客上的留言吗</a></div>
            </div><div class="itembox" style='background:#fff;'>
                <div class="box1"><span class="date">2008-08-01 08:46:51</span><a href="/article/20080801/96809.shtml" target="_blank">
简述网站推广方法 </a></div>
            </div><div class="itembox" >
                <div class="box1"><span class="date">2008-08-01 08:05:38</span><a href="/article/20080801/96802.shtml" target="_blank">
垃圾站有流量就能被百度收录 排名就能涨</a></div>
            </div>
            <div class="clear"></div>
        </div>
        
    </div>
    <!-- /news-list -->

    
    <div class="rank-list">
 <script language="JavaScript" src="/images/javascript/rt_img.js"></script>    
     <div class="title-b"><h3>热门新闻</h3></div>
        <div class="list-b">
            <ul class="list eiss date">
                <li>16日 <a href="/article/20080716/94226.shtml" target="_blank">手把手教你成为推广狂人</a></li>
 <li>04日 <a href="/article/20080704/92133.shtml" target="_blank">2008年7月底PR即将更新 马上提高您的PR值</a></li>
<li>31日 <a href="/article/20080731/96605.shtml" target="_blank">对弹窗的一点看法 跟新手朋友共勉</a></li>
<li>11日 <a href="/article/20080711/93485.shtml" target="_blank">百度的搜索技术并不强大的几个表现</a></li>
<li>23日 <a href="/article/20080723/95344.shtml" target="_blank">友情链接交换攻略:哪些方面值得注意</a></li>
<li>15日 <a href="/article/20080715/94049.shtml" target="_blank">利用图片推广网站的又一猛招</a></li>
<li>24日 <a href="/article/20080724/95523.shtml" target="_blank">网站推广方法大全(2008迎奥运版)</a></li>
<li>15日 <a href="/article/20080715/93999.shtml" target="_blank">Google是如何判断网站的原创性的</a></li>
<li>28日 <a href="/article/20080728/96080.shtml" target="_blank">日大于5000IP的站长该做些什么</a></li>
<li>04日 <a href="/article/20080704/92044.shtml" target="_blank">一举多得的宣传方案(巧用威客任务)</a></li>
            </ul>
        </div>
                
        <div class="title-b"><h3>推荐新闻</h3></div>
        <div class="list-b">
            <ul class="list eiss date">
                <li>30日 <a href="/article/20080730/96567.shtml" target="_blank">刘韧八年前写的DoNews《关于我们》还多少要坚持?</a></li>
<li>11日 <a href="/article/20080711/93485.shtml" target="_blank">百度的搜索技术并不强大的几个表现</a></li>
<li>09日 <a href="/article/20080709/92983.shtml" target="_blank">地方行业站发展新思路 招生加广告</a></li>
<li>07日 <a href="/article/20080707/92673.shtml" target="_blank">网络营销的三重境界:淫、营、嬴 </a></li>
            </ul>
        </div>
        <script language="JavaScript" src="/images/javascript/rb_img.js"></script>
    </div>
    <!-- /content -->
</div>

<div id="footer">
 <script language="JavaScript" src="/images/javascript/footer.js"></script>
</div>
<script type="text/javascript">admin5.init()</script>
<script src="/plus/count.php?aid=96671&mid=" language="javascript"></script>
<iframe width="0" height="0" style="visibility:hidden" src="/plus/feedback_if.php?arcID=96671" id="igbook" name="igbook"></iframe>
</body>
</html>


这里获得标题,可以选开始"<title>"结束"</title>",然后过滤一下 “- 站长网”这字符,也可以开始“<title>"结束”- 站长网“来直接获得标题。想获得关键字的话可以 开始 <meta name="keywords" content="  结束 ">

下边讲一下怎么获得内容,先打开网页源代码,查找内容附近的代码。

来源:<a href="http://www.zhengzhourc.com" target="_blank">郑州人才网</a>
   时间:2008-07-31 14:03
                字体:[<a href='javascript:FontZoom(16)'>大</a> <a href='javascript:FontZoom(14)'>中</a> <a href='javascript:FontZoom(12)'>小</a>]
                <a href="/plus/stow.php?arcID=96671" target="_blank">收藏</a>
       <a href="/member/article_add.php" target="_blank">我要投稿</a>
            </div>
            
            <div class="text">
             <div id="arctext">
              
              <p>  做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次,这是每个站长都必须要想的事情,
我当时做论坛时刚开始没有人,后宣传一下来些人,但基本不发贴,再后来发了几个贴可很少见到回贴,呵呵,那段时间真有是有尽使不上,不知道从和下手,
知道后来想到了破窗效应:</p>
<p>  “破窗效应”的理论来源于美国心理学家詹巴斗进行的一次实验。在这项实验中:一位学者找来两量一模一样的汽车,
分别把它们放置在中等阶级社区和杂乱街区,他把停在中等阶级社区的那辆车的车牌摘掉,顶棚打了个洞。结果这量车一天之内就被人偷走了。
而放在杂乱街区的那辆车摆了一星期却仍旧完好无损。而把这辆车也打一个洞,结果仅过几小时这辆车也被偷走了。以这个实验为基础得出“破窗理论”。</p>
<p>  一位企业老总经过仔细观察发现的现象:当一栋房子的窗户玻璃出现第一块破损后,如不及时修补,很快,其他玻璃会接二连三的遭到破坏,
如果及时修补,其他玻璃极少在被破坏。</p>
<p>  网站上如果有几个垃圾贴,那么不出很长时间垃圾贴会越来越多,有时候在论坛的回帖和文章的评论上也很明显,如果第一个评论的人骂作者
,第二个人看到了很可能也会骂,那么第三个人肯定也是骂的,这就是破窗效应,但我们反过来想,如果头几个人都说作者的好,
那么就很少会出现骂人的话了。</p>
<p>  所以我当时就用好多马甲回复各个主题,加上朋友的帮忙,该社区很快有了人气,虽然访问量不是特别大,
但基本上都是我们的忠实用户。</p>
<p>  现在虽然我重点做郑州人才网而不做社区了,但这其中的道理是一样的,很多站长在推广增加流量的同时忽略了人气,
其实人气和流量是同等重要的,怎么做出个有较高人气的网站,就要靠各位站长在解决用户需求的同时多多利用破窗理论喽!</p>
                    <center></center>
                </div>                
                <div class="author"><span class="right navy"></span><a href='/member/index.php?uid=zhengzhourc' target='_blank'>
                   作者 <font color='red'>郑州人才网</font> 的个人空间</a>
 

可以看到,文章前边是<div id="arctext">这个代码,查找一下,这是唯一的,可以使用,然后找后边文章结束有个这个代码<center></center>,这个也是唯一的。这样,以这两个代码为开头和结尾就可以获得内容了。

Locoy QHJQ.jpg

在使用前后截取模式采集数据时要善于使用通配符(*)。需要注意的是通配符的使用是在代码的中间,两边是不能使用的,那样一般是会出错的,如果可以是以这个开始 <til(*)> ,但不能这样,(*)title 或是 title(*) 。比如这个可以代替任何内容,有的采集时不容易获得最开始的标识,或者说是那样的代码很多,比如代码里 (*)<div id="arctext"> 很多很多,但是有的代码后的很少,这时可以考虑用通配符。比如上边的开始可以写成 来源:<a(*)<div id="arctext">或者我要投稿</a>(*)<div id="arctext">或者来源:(*)时间:(*)收藏</a>(*)我要投(*)<div id="arctext"> 等........注意前边的基本都是唯一的代码.

使用前后截取模式采集数据是最常用的方法,也是最简单的方法,使用好这个可以基本采集的都可以处理了。


参考来源[ ]

火车采集器使用手册导航

安装

系统安装

主程序

主程序|主菜单|命令行启动|随机文件夹保存数据|正则匹配模式采集数据|采集记录筛选|代理服务器采集数据|POST方式获得网址|拓展插件|分页采集|多页采集|数据导出|多任务多线程|手动链接格式设置|循环匹配采集|网站登陆采集|列表缩略图及标签采集|html标签排除|全局词语替换|首图缩略|FTP文件上传|附件上传|本地数据编辑|下载导出|图片下载|Flash文件下载|任意格式文件下载|采集数据导入数据库|任务定时自动更新|任务运行日志|自动中文分词|自动摘要和拼音|前后截取模式|采集任务新建

子程序

源代码获取与模拟|Web在线发布模块编辑器|Web在线发布配置管理|数据库发布模块编辑器|数据库发布配置管理|工具箱|编程插件管理|翻译测试|中文分词测试|自动运行管理器 任务队列管理器|自动升级程序

应用拓展

数据库发布模块编辑器制作|外部编程插件开发

模块开发

DedeCMS文章模块|PHPWind论坛模块|Discuz论坛模块

FAQ

使用前常见问题|编辑任务中常见问题|发布失败常见问题|使用中常见问题|VIP版本常见问题