采集管理能帮助企业在信息采集,资源整合方面节约大量的人力与资金。广泛应用于行业门户网站,竞争情报系统,知识管理系统,网站内容系统,垂直搜索,科研等领域。
点击“添加采集项目”进入新建采集项目:
采集第一步参数说明如下:
采集项目名称:即我们要采集的项目,比如我们采集的是时政新闻则命名为时政新闻;
模型设置:采集的是文章模型则选择文章,图片信息则选择图片模型;
文档入库栏目:是指采集的信息要归属于哪个栏目,我们在采集前要先建好这个栏目才能选择归属栏目;
文档归属专题:选择文档归属的专题;
目标站点名称:即要采集哪个网站的信息如采腾讯新闻;
采集目标URL:即采集的网址;
编码方式:根据我们要采的网站编码进行设置,如果编码不对可能会造成乱码;
设置属性:即对采集的内容进行设置某项或某些属性,采集同时也支持显示在手机上了。
采集选项:保存图片到本地勾选后采集回来的文章中如果有图片则自动将图片保存到本地服务器;立即生成HTML勾选后采集回来的广告自动生成HTML静态;勾选已存在主表的同名记录跳过则不重复已有的信息文档标题,当有同名的文档时则不采集;倒序采集勾选则从最后一页的最后一条倒着往前采;自动设置首页图片勾选后则自动将采集到的图片文章设置为第一张图片;暂停设置比如每采集100篇信息停留2秒。
设置后点击“下一步”进入第二步标记设置;
列表设置即文章列表的开始和结束标记;在右边代码里可以查找到;
测试链接即文章标题的链接开始和结束标记;
标记好,可以测试列表和测试链接,测试成功右边代码会自动获取源码;
点击“下一步”进入采集第三步设置。
在右侧,我们可以选择显示代码窗口,获取代码时,方便直接查看采集的代码源,也可关闭代码窗口;点击“访问”进入访问要采集的内容页,然后查看其源代码。
例如转向链接,来源,更新时间等如果需要设置可以根据代码源设置标签,也可以指定。
简介如果不需要则选择不作设置,需要做标记同样在源代码里查找唯一标记,添加好点“截取设置”,在右边测试结果中可查看截图结果。
具体内容设置将文章内容的开始和结束标记截取出来,过滤HTML标记将要过滤的项选中采集后这些项就被过滤了。
最后保存设置完成采集项目设置。点击“确定”返回到采集管理。
返回采集项目管理,可以查看我们所有添加的采集项;可以进行编辑、删除、测试、采集、复制采集项目等操作。
点击管理操作的测试,测试采集项是否通过。
点击管理操作下的“采集”链接进入开始采集信息操作。
采集后我们可以在采集历史记录中查看所有采集的信息内容。
同时在内容管理-文章系统对应的栏目下面也可以查看到采集入库的信息;如果采集回来的文章因采集规则设置的时候没有过滤完善我们需要将文章管理中的采集记录和历史记录中的采集记录都删除后再重新设置采集规则再点击采集。
过滤规则即我们要将某些被采集网站中的某些内容替换为其它的内容比如将替换为被替换的文字。
注释:在采集第三步中,设置的标签,可以在模型管理--字段管理中选择哪些字段允许开启采集。