-
dede采集基础教程(二)--采集规则篇
2009-06-15 10:25/点击数()
在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功
在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功能很受站长们欢迎,但一些刚接触dede的朋友可能会对这个功能感到很陌生,很抗绝.
由于时间的关系,我会陆续的把这个功能分批介绍给大家.
在上一篇“dede采集基础教程(二)--采集规则篇”中介绍了列表设置的方法,接下来我们进入采集规则的设置,上篇的作用
是获取到我们要采集的文章的地址,本篇是介绍如何从文章内容页面采集到文章的内容,也是整个采集模型中最为核心的部分。
一,设置采集内容:
本篇将以《HTML语言剖析(六)清单标记》为例子,其链接地址是:
http://www.dedecms.com/web-art/htmlbase/HTML/20060703/30201.html
图3.
图4.
图5.
由于该测试文章没有分页,所以我们的配置选择的是“不分页”,因此,分页链接区域html也可以不用填写任何内容,如下图1所示:
有分页文章的设置方法将会在以后进行介绍。
二,内容字段的设置:进入这一步,就开始对页面源码进行着重的分析了,采集无非是分析html页面的结构从而获取我们所需的内容。
所以这里就要求我们对HTML代码有一定的认识,最起码你也该看懂html代码的结构。
通过查看页面源文件,我们可以查看到页面的html代码。
1、文章标题:
最简单的方法是直接搜索这个标题在html代码中出现的位置,例如本篇例文的标题是:HTML语言剖析(六)清单标记,因此直接搜
索出来在html代码总总共出现有两处,第一处的代码是
<title>HTML语言剖析(六)清单标记 – 织梦内容管理系统</title>
第二处出现的代码是:
<!–资讯标题–>
<div class=”title”>
<h1>HTML语言剖析(六)清单标记</h1>
</div>
<!–相关信息–>
由上面两处不难得出,第二处对于我们来捕获该文的标题比较方便,因为不用再去写规则过滤掉一些我们不需要的信息。经过再次
搜索全文HTML得出,<h1>和</h1>在文中具有唯一性,因此可以作为获取标题的起止html代码,设置如下图2:
2、文章作者:
如果你不想用该文章上所显示的作者,也可以留空,dede会自动把文章的作者名给你添加上“佚名”
要采集这个文章作者也不难,经过分析后,可以看出文章作者在HTML代码中出现的位置,先看看下图3中选中部分代码
这样文章作者的采集范围我们就可以定下来,其设置如下图4所示:
*若文章作者中有包含超链接,其代码表现形式为“<a href=”" ……>文章作者</a>”,我们也可以采取过滤规则将其过滤掉,其规
则如下:
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
设置方法可以见上图4中的过滤规则。
3、文章正文:
要找到文章正文在HTML代码中出现的位置,一个便捷的技巧就是先复制网页中正文的头几个字,然后在html代码中查找,就可以很
快定位出来,这也可以方便我们分析代码。
只要找出文章正文前的唯一性代码和文章结束时的唯一性代码,就可以抓出文章的正文。如下图5所示:
因为本文例文是没有分页内容,所以这里的“分页内容字段”不用选,若你想将文章正文中包含的多媒体资源(如图片、视频等)
下载到本地服务器,你可以勾上“下载字段里的多媒体资源”
过滤规则是比较重要的部分,通过正则规则可以将文章中的广告代码或垃圾代码、干扰代码过滤掉,不采集下来,若人家文章中有
挂了广告,我想你也不想免费给人家挂广告吧。
至于过滤规则部分将再以后讲解。
剩下的文章来源,发布时间和录入时间等,都和以上的设置大同小异的,采集与否都无所谓,就看你的需要了。
三,至此,节点和规则的设置都完成了,接下来就是采集,下载和导出(入库)了。最后再强调一点的就是必须懂HTML代码,最起码得能看懂目标页面的html代码的大概组成,知道文章的内容是存放在哪些代码之间
。
下篇预告:进行采集篇,以图文的方式介绍如何进行采集,导出所采集到的数据入库
图2.
