DedeCMS采集

2024-09-13 48

对于一些新手而言,DedeCMS的采集功能可能显得有些陌生。本文将详细介绍DedeCMS的采集功能,以及如何通过过滤规则确保采集内容的整洁与品质。

一、DedeCMS基础的过滤规则

DedeCMS提供了简单易用的过滤规则,其基本语法如下:

{dede:trim}这里就是要过滤的内容{/dede:trim}

如果要过滤的内容比较简单,可以直接将内容写在 `{dede:trim}` 和 `{/dede:trim}` 之间;如果内容较为复杂,可能需要用到正则表达式。

二、DedeCMS过滤超链接

要在采集过程中去除内容中的超链接,可以使用以下规则:

{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}

如果希望完全移除超链接及其内容,规则应为:

{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}

示例:

假设要处理的代码如下:

<a href="#" rel="external nofollow" >超链接</a>

使用第一条规则,采集结果为“超链接”,但使用第二条规则,结果为空,也就是将所有内容过滤掉了。

三、DedeCMS过滤广告

在处理广告时,通过HTML代码中的特征来设定过滤规则。例如,对于引用JS文件的广告,可以使用:

{dede:trim}<script(.*)>{/dede:trim}
{dede:trim}</script>{/dede:trim}

如果广告内容是嵌入在 `<script></script>` 之间的,例如某些网页广告,则应使用:

{dede:trim}<script>(.*)</script>{/dede:trim}

四、DedeCMS常用过滤规则合集

为了便于站长们使用,这里列出一些常见的过滤规则:

{dede:trim}<!–(.*)–>{/dede:trim}
{dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}

注意事项:

在使用以下规则时,请务必小心,以免意外删除重要内容:

{dede:trim}<div(.*)>{/dede:trim}
{dede:trim}</div>{/dede:trim}
{dede:trim}<span(.*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
  • 广告合作

  • QQ群号:707632017

温馨提示:
1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。 2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。
DedeCMS
上一篇: DedeCMS标签
MediaWiki
下一篇: MediaWiki列表