destoon 火车采集器采集入库教程

一、安装火车采集器

下载地址:http://www.locoy.com/download

destoon 火车采集器采集入库教程

下载后解压至电脑任意目录,例如D:\LocoySpider,双击D:\LocoySpider\LocoySpider.exe打开主程序,如下图:

destoon 火车采集器采集入库教程

注意:运行火车采集器要求电脑安装.NET2.0框架支持。如果主程序无法运行,很可能是因为您的电脑没有安装.NET2.0框架。.NET2.0框架可以通过以下地址下载:

http://download.microsoft.com/download/5/6/7/567758a3-759e-473e-bf8f-52154438565a/dotnetfx.exe

二、采集前的准备工作

2.1说明

由于本教程的重点是讲解采集入库,所以采集过程仅简单介绍。如果要详细了解采集过程,请参考以下资源:

火车用户手册:http://www.locoy.com/help

火车用户论坛:http://bbs.locoy.com/

火车采集服务:http://www.locoy.com/Service/DataCrawl/

2.1下载入库规则文件

火车采集器的入库规则是可以自己制作的,为了便于理解和测试,本站已经做好资讯入库规则,请通过以下地址下载:

http://download.destoon.com/tool/spider.zip

下载解压后,将其中的DESTOON 3.0资讯.cwr 复制到火车采集器安装目录/Module目录

destoon 火车采集器采集入库教程

2.3配置DESTOON采集入库接口

DESTOON采集入库接口位于您的站点目录/api/spider.php。用Editplus或其他编辑软件打开此文件。

注意:如果您的站点是UTF-8编码,请不要使用记事本编辑PHP文件。

destoon 火车采集器采集入库教程

需要配置的参数,系统已经做了中文的注释,请注意查看。

下面讲一下常用的配置:

$verify_mode 一般设置为2,采用密钥验证

$spider_auth 设置一个最少6位的密钥,为了配合已经配置好的Destoon 3.0资讯.cwr规则,暂时请设置为12345678,后面会详细说明。

$spider_status 建议设置为2,这样采集到的信息默认会发布为待审核状态。

接口为了安全,默认需要修改一下spider.php文件名。为了方便测试,可以暂时删除此限制。注释掉以下代码即可:

if(strpos($_SERVER['PHP_SELF'], '/spider.php') !== false) exit('为了系统安全,请修改接口文件名');

设置好的配置如下:

destoon 火车采集器采集入库教程

三、建立采集站点

本教程将以采集Destoon帮助文档为例说明。

打开火车采集器主面板,点击站点菜单,选择新建站点:

destoon 火车采集器采集入库教程 destoon 火车采集器采集入库教程

四、新建采集任务

在建立的站点上点右键,从该站点新建任务:

destoon 火车采集器采集入库教程

五、设置采集网址规则

destoon 火车采集器采集入库教程

设置完成之后,点击开始测试网址采集:

destoon 火车采集器采集入库教程

看到目标网址,说明网址规则设置成功

destoon 火车采集器采集入库教程

六、设置采集内容规则

打开任意一个目标网址,寻找标题、内容等字段匹配规则:

destoon 火车采集器采集入库教程

例一:设置标题规则

destoon 火车采集器采集入库教程

例二:设置内容规则

destoon 火车采集器采集入库教程

设置好字段后,再次测试:

destoon 火车采集器采集入库教程

此时已经采集到正确的内容了。

七、设置采集内容发布

7.1选择Web在线发布方式发布

destoon 火车采集器采集入库教程

7.2 定义Web在线发布全局设置

destoon 火车采集器采集入库教程

点击添加,可以看到本站提供的Destoon 3.0资讯采集规则

destoon 火车采集器采集入库教程

选择一个分类并保存

destoon 火车采集器采集入库教程

7.3 选择已保存的配置

返回到发布内容设置界面,在表格上点右键,选择添加更多发布配置

destoon 火车采集器采集入库教程

选择 DT文档 点击添加,然后选择分类

destoon 火车采集器采集入库教程

7.4保存任务

填写任务名称,点击保存按钮

destoon 火车采集器采集入库教程

八、采集内容

在刚才建立的DT文档任务上点右键,选择开始任务采集

destoon 火车采集器采集入库教程 destoon 火车采集器采集入库教程

软件提示内容发布成功。

进入网站后台,资讯管理,审核资讯

destoon 火车采集器采集入库教程

可以看到采集到的资讯列表,说明发布成功。

九、采集发布规则

为了便于测试和理解,本教程默认提供了一个规则,下面讲解如果修改或者建立规则。

在建立的任务DT文档上点右键,编辑任务,进入发布内容设置,点击定义web在线发布全局设置

destoon 火车采集器采集入库教程 destoon 火车采集器采集入库教程 destoon 火车采集器采集入库教程

如果需要新建一个发布规则,可以采用火车采集器自带的发布模块编辑器新建,也可以将火车采集器安装目录/Mdule目录里的Destoon 3.0资讯.cwr复制一个新文件,例如Destoon 3.0供应.cwr,然后用火车采集器模块编辑器编辑。

9.1文章发表参数

destoon 火车采集器采集入库教程

如果需要添加一个字段,例如作者,可以在Post数据里追加&author=,其中author对应Destoon资讯表的字段,对应采集软件采集的字段。

如果需要知道Destoon系统某个模块具体有那些字段,例如资讯,可以在网站后台添加资讯或者会员中心发布资讯点右键,查看网页源代码,形如name=”post[xxxx]”中的xxxx即为字段,和数据库中表的字段名称一致。

备注:本教程提供的规则定义了发布地址为/api/spider.php,所以在配置spider.php参数时,删除了系统对文件名的设置。同时定义了发送的密钥auth为12345678,所以在配置spider.php参数时设置了$spider_auth = '12345678';

9.2刷新列表设置

destoon 火车采集器采集入库教程

刷新列表设置用于获取Destoon模块的分类内容,各个模块的设置是一致的,但是需要修改其中的moduleid参数。

十、小结

对于有PHP基础的用户,可以直接修改spider.php接口代码,然后配合采集器发送的数据,实现更多内容的入库。

网站起步阶段,适量采集,并非有500G的空间就可以采集500G的数据,以免CPU和内存配置不匹配导致站点运行卡顿。

采集是一把双刃剑,在带来便利的同时也面临被搜索引擎惩罚或版权纠纷的风险,请慎用。