• dede采集基础教程(二)--采集规则篇

    2009-06-15 10:25/点击数()

    在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功

    在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功能很受站长们欢迎,但一些刚接触dede的朋友可能会对这个功能感到很陌生,很抗绝.

    由于时间的关系,我会陆续的把这个功能分批介绍给大家.

     

     

     

    在上一篇“dede采集基础教程(二)--采集规则篇”中介绍了列表设置的方法,接下来我们进入采集规则的设置,上篇的作用

    是获取到我们要采集的文章的地址,本篇是介绍如何从文章内容页面采集到文章的内容,也是整个采集模型中最为核心的部分。

    一,设置采集内容:

    本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是:

    http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.htmlimage image image

    图3.

    image

    图4.

    image

    图5.

     

    由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示:

     

    有分页文章的设置方法将会在以后进行介绍。
    二,内容字段的设置:

    进入这一步,就开始对页面源码进行着重的分析了,采集无非是分析html页面的结构从而获取我们所需的内容。

    所以这里就要求我们对HTML代码有一定的认识,最起码你也该看懂html代码的结构。

    通过查看页面源文件,我们可以查看到页面的html代码。

    1、文章标题:

    最简单的方法是直接搜索这个标题在html代码中出现的位置,例如本篇例文的标题是:HTML语言剖析(六)清单标记,因此直接搜

    索出来在html代码总总共出现有两处,第一处的代码是

    <title>HTML语言剖析(六)清单标记 – 织梦内容管理系统</title>

    第二处出现的代码是:

    <!–资讯标题–>

    <div class=”title”>

    <h1>HTML语言剖析(六)清单标记</h1>

    </div>

    <!–相关信息–>

    由上面两处不难得出,第二处对于我们来捕获该文的标题比较方便,因为不用再去写规则过滤掉一些我们不需要的信息。经过再次

    搜索全文HTML得出,<h1>和</h1>在文中具有唯一性,因此可以作为获取标题的起止html代码,设置如下图2:

     

    2、文章作者:

    如果你不想用该文章上所显示的作者,也可以留空,dede会自动把文章的作者名给你添加上“佚名”

    要采集这个文章作者也不难,经过分析后,可以看出文章作者在HTML代码中出现的位置,先看看下图3中选中部分代码

     

    这样文章作者的采集范围我们就可以定下来,其设置如下图4所示:

     

    *若文章作者中有包含超链接,其代码表现形式为“<a href=”" ……>文章作者</a>”,我们也可以采取过滤规则将其过滤掉,其规

    则如下:

    {dede:trim}<a([^>]*)>{/dede:trim}

    {dede:trim}</a>{/dede:trim}

    设置方法可以见上图4中的过滤规则。

    3、文章正文:

    要找到文章正文在HTML代码中出现的位置,一个便捷的技巧就是先复制网页中正文的头几个字,然后在html代码中查找,就可以很

    快定位出来,这也可以方便我们分析代码。

    只要找出文章正文前的唯一性代码和文章结束时的唯一性代码,就可以抓出文章的正文。如下图5所示:

     

    因为本文例文是没有分页内容,所以这里的“分页内容字段”不用选,若你想将文章正文中包含的多媒体资源(如图片、视频等)

    下载到本地服务器,你可以勾上“下载字段里的多媒体资源”

    过滤规则是比较重要的部分,通过正则规则可以将文章中的广告代码或垃圾代码、干扰代码过滤掉,不采集下来,若人家文章中有

    挂了广告,我想你也不想免费给人家挂广告吧。

    至于过滤规则部分将再以后讲解。
    剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的,采集与否都无所谓,就看你的需要了。
    三,至此,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。

    最后再强调一点的就是必须懂HTML代码,最起码得能看懂目标页面的html代码的大概组成,知道文章的内容是存放在哪些代码之间

    下篇预告:进行采集篇,以图文的方式介绍如何进行采集,导出所采集到的数据入库

     

     

    图2.

上一篇:dede采集基础教程(一)--列表设置篇

下一篇:dede采集基础教程(三)--采集过程篇

帮我订酒店网 广交会酒店 广州酒店预订 刷钻源码 刷信誉程序 广州网站建设 淘宝缩阴排行榜 减肥精油排行榜 淘宝缩阴排行榜 减肥精油排行榜 山寨iphone5 策恩 Ceen 世界皮鞋品牌 休闲男鞋品牌 男士商务男鞋 高端男士皮鞋 淘宝男士皮鞋 男士透气皮鞋