-
dede采集基础教程(一)--列表设置篇
2009-06-15 10:13/点击数()
在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功
在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功能很受站长们欢迎,但一些刚接触dede的朋友可能会对这个功能感到很陌生,很抗绝.
由于时间的关系,我会陆续的把这个功能分批介绍给大家.
以dede的站长学院>网页制作基础>HTML/XHTML教程为例,地址是
http://www.dedecms.com/web-art/htmlbase/HTML/
一,打开dedecms,进入【采集节点管理】,新建一个节点,模型我们就选择
1、名称的话自己定义一个,主要是标识作用。
2、来源就自己定义个也可以,写上采集对象的信息也可以。
3、防盗链就看目标站点的有无刷新限制,有的话就设置一下超时时间,这个的话比较难判断,具体可以测试一下就知道。
4、页面编码就比较重要,可以在页面点击右键来看该页面的编码。
三,设置采集列表:
先看看要采集的信息列表:
来源网址很重要的。列表的获取就是从这里获取的。
自己打开:http://www.dedecms.com/web-art/htmlbase/HTML/
点击分页看下几个分页之间的URL有什么规则
由此不难看出其中的规则可以看下面的url例子:
http://www.dedecms.com/web-art/htmlbase/HTML/list_33_【除此外其他都一样】.html
由此我们提取出来的规则就是换为变量值的形式
http://www.dedecms.com/web-art/htmlbase/HTML/list_33_[var:分页].html
而变量起始值是1,结束值是3,就代表1至3的列表页了。用正则匹配置网址就看本身是否有比较特定的文章网址字符。
下面的html范围就比较重要,采集的实际文章地址就是从这里获取的。
我们看原dede的列表。我们在浏览器里查看源文件。
查找以下代码:
上图中选中部分就是文章列表内容的开始处,而且在整个页面中是唯一的,因此我们就提取到了开始的HTML了
结束的HTML一般可以在列表下面的分页处找到,也是提取在正个页面源码中唯一标识的代码,看下图选中部分:
下面的【手工指定网址】就是你想特别采集什么网址,就直接填上即可。
幸福工作室(www.xingfu880.com)





