• dede采集基础教程(一)--列表设置篇

    2009-06-15 10:13/点击数()

    在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功

    在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功能很受站长们欢迎,但一些刚接触dede的朋友可能会对这个功能感到很陌生,很抗绝.

    由于时间的关系,我会陆续的把这个功能分批介绍给大家.

    以dede的站长学院>网页制作基础>HTML/XHTML教程为例,地址是

    http://www.dedecms.com/web-art/htmlbase/HTML/

    一,打开dedecms,进入【采集节点管理】,新建一个节点,模型我们就选择

    image

    图1.

    1、名称的话自己定义一个,主要是标识作用。

    2、来源就自己定义个也可以,写上采集对象的信息也可以。

    3、防盗链就看目标站点的有无刷新限制,有的话就设置一下超时时间,这个的话比较难判断,具体可以测试一下就知道。

    4、页面编码就比较重要,可以在页面点击右键来看该页面的编码。

    image

    图2.

    三,设置采集列表:

    先看看要采集的信息列表:

    image

    图3.

    来源网址很重要的。列表的获取就是从这里获取的。

    自己打开:http://www.dedecms.com/web-art/htmlbase/HTML/

    点击分页看下几个分页之间的URL有什么规则
    由此不难看出其中的规则可以看下面的url例子:
    http://www.dedecms.com/web-art/htmlbase/HTML/list_33_【除此外其他都一样】.html
    由此我们提取出来的规则就是换为变量值的形式
    http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var:分页].html
    而变量起始值是1,结束值是3,就代表1至3的列表页了。

    用正则匹配置网址就看本身是否有比较特定的文章网址字符。

    下面的html范围就比较重要,采集的实际文章地址就是从这里获取的。

    我们看原dede的列表。我们在浏览器里查看源文件。

    查找以下代码:

    image

    上图中选中部分就是文章列表内容的开始处,而且在整个页面中是唯一的,因此我们就提取到了开始的HTML了

    结束的HTML一般可以在列表下面的分页处找到,也是提取在正个页面源码中唯一标识的代码,看下图选中部分:

    image

    下面的【手工指定网址】就是你想特别采集什么网址,就直接填上即可。

    幸福工作室(www.xingfu880.com)

上一篇:远离广泛,用dede打造个性工作室

下一篇:dede采集基础教程(二)--采集规则篇

帮我订酒店网 广交会酒店 广州酒店预订 刷钻源码 刷信誉程序 广州网站建设 淘宝缩阴排行榜 减肥精油排行榜 淘宝缩阴排行榜 减肥精油排行榜 山寨iphone5 策恩 Ceen 世界皮鞋品牌 休闲男鞋品牌 男士商务男鞋 高端男士皮鞋 淘宝男士皮鞋 男士透气皮鞋