-
dede采集基础教程(三)--采集过程篇
2009-06-16 09:27/点击数()
在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功
在这里,我会分批分段的给大家介绍一些dede的使用方法心得.主要是给一些刚刚接触dede的站长朋友们指个路.dede的基本功能在他们的技术文档里面有很详尽的说明,如果花点时间去查看,应该很快就会熟悉起来.这一次我给大家介绍的是dede采集功能的使用,dede的采集功能很受站长们欢迎,但一些刚接触dede的朋友可能会对这个功能感到很陌生,很抗绝.
由于时间的关系,我会陆续的把这个功能分批介绍给大家.
经过【dede采集基础教程(一)--列表设置篇和dede采集基础教程(二)--采集过程篇的介绍,我们基本掌握了采集规则的写法。这一篇我们将介绍如何进行采集以及采集后的入库。
一,选择节点,进入采集
先在我们刚建立好的采集节点前面打勾,然后点“采集”按钮,如图1
二,采集详细设置
这里可以设置每页采集的数据条数,一般来说不要设置太大,否则有可能导致系统处理不过来而部分采集不到,建议别超过15;线
程数是指每次有多少个线程同时进行采集,线程数的增加可以加快采集速度,但相应的会增加服务器资源的占用,所以请慎用;假
若目标站点有防刷新限制,此处就可以根据目标站点的防刷新限制时间进行设置,假如没有就默认0秒可以了。
附加选项这三个设置从字面上应该可以很容易理解,这就根据你的实际需要进行选择了。
三,采集后的处理采集完成后,点击“查看种子网址”进入查看采集的结果。
这里罗列出了采集回来的内容。可以点击进去查看采集到的内容有无问题的。具体看图3
温馨提醒:
1、在这个列表中有些数据的是否下载有可能显示的是“未下载”,引起的原因可能是网络的原因引起也有可能是你设置的采集条数
过大导致的。出现这样的情况我们仅需要在上面采集的“附加选项中”选择“仅下载未下载内容”,然后再进行一次采集即可。
2、在“节点的种子网址”列表中点击“[源网址]”可进入查看该条采集到的数据所在的原来页面
3、在“节点的种子网址”列表中点击“内容标题”这一栏的超链接可进入查看采集到的数据是否正确,同时也可以修改里面的内容
,最后记得保存即可,见图4
这里需要注意的是:“dede_archives.sortrank”和“dede_archives.pubdate”这两个字段的内容一般不要修改
4、假如要删除部分不满意的数据,可以在列表中在你要删除的数据前面打勾,然后按“删除所选网址”即可,这里支持批量操作
四,将采集的数据入库
这里有多个入口:
1、在节点管理列表中选择刚才采集的那个节点,然后点击下面的“导出数据按钮”进入入库操作
2、直接点击我们刚才采集的那个节点进入采集内容管理页面,点击右上方的“导出采集内容”按钮即可进入入库操作
3、选择节点后点击“采集”按钮进入采集页面,在右上方有“导出数据”按钮,点击后也可进入入库操作页面
进入后的入库操作页面见图5
首先选择要导入到的栏目,按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目
发布选项这里一般默认即可,除非你不想马上发布。
每批导入默认是30条,这里修改与否都无所谓,因为导入操作的速度还是蛮快的
附带选项一般选“排除重复标题”,至于自动生成HTML那个选项建议先别生成,因为我们还要去批量提取摘要和关键字,这就是后
话了。
上面的配置OK以后,接下来就是按“提交”让系统自己去处理了。完成下面会有提示信息。
到这里,采集教程就基本结束,接下来我会介绍一些过滤规则和分页采集教程。喜欢的朋友敬请关注。
欢迎大家互相交流.互相学习.把dede用活起来..
幸福工作室(www.xingfu880.com)
