|
我用动易这么多年了,以前用过不少程序,觉得还是动易的比较好用,但是动易的采集系统真的很一般,当然凡事有利必有弊,动易的优点非常突出,这里我们也不必多说,相信这里的朋友都非常清楚,下面我就动易采集系统作一下详细的阐述!
我用动易采集真的是费了一番周折,用到现在,也有很多心得体会,下面与大家共享,写的很仓促比较乱,如果不清楚的可以到我的站点来共同探讨,网址是www.xian99.com 讲的不对的地方请指出,有更好意见的朋友快跟!
项目管理:
1、选择添加新项目,找到你需要采集的页面→复制网址到新闻网址列表框,项目名称随便填(主要是给你自己记忆备忘用)→下一步
2、项目编辑列表设置:
这里填写就要注意点了,找到你要采集的新闻列表的第一个信息标题的地方,一般标题前面这里会有一个table标签,选择这个table标签前面的具有典型特征的一些代码,代码具体选多少呢,分2种情况,一是有分页的列表,简单说就是列表最下面有下一页或者有1、2、3、等页面链接的,二是没有分页的,简单说就是列表只有1页,只有1页的情况好办,这里可以随便选了,只要保证不重复就行了。但是有分页的列表页就要麻烦一些,这时候选取代码的原则是:在保证没有重复代码的前提下,尽量选择少一点的代码,因为代码越多越容易出错,越不能保证每个列表页面都有这些代码了,这是经验之谈,当然也不一定,有些网页代码格式非常统一,那么这种网页就好采集,列表开始代码也好填一些。什么是具有典型特征的代码呢?就是基本上每个列表页都有的代码,但是这个页码在所有的列表页中又是唯一的,不重复。
设置列表索引分页:
对于有分页的列表页,这时候必须要设置列表分页代码了,否则只能采集第一页的列表内容了。这个时候的诀窍是找到“下一页”这几个字,这几个字前面必然有一个链接“a href="”标签,把这个复制到下页开始的框框去,然后将这个标签的最后网页文件后面的代码一直到“下一页”这几个字全部复制到下页结束框中去,举个例子说明一下:比如 <TABLE WIDTH="390" BORDER="0" CELLSPACING="1" CELLPADDING="0" BGCOLOR="#CCCCCC" ALIGN="CENTER"> <TR ALIGN="CENTER" BGCOLOR="#FFFFFF"> <TD HEIGHT="20"><P> <a href = "http://www.pconline.com.cn/mobile/news/hgxz/index_1.html">【下一页】</a> <a href = "http://www.pconline.com.cn/mobile/news/hgxz/index_4.html">【尾页】</a> 【第1页 共5页】 </P></TD> </TR> </TABLE> 这个代码,应该复制a href = " 到下页开始框,复制">【下一页到下页结束框中去,最后点击下一步。这时有部分网页会出现列表错误,这种情况下,你可以复制 a href = "http://www.pconline.com.cn/mobile/news/hgxz/和">【下一页
到开始和结束框,应该不会有问题了
一般而言,选好代码片断后,点击下一步,会有一个列表分页分析地址,你根据这个分析得到的地址调整你复制的代码片断,也有一些诀窍,多摸索就掌握规律了,不用多说。
3、链接开始和结束标签很简单,这个不用我多说了, a href = " 和链接文件名的后面的几个代码就行了,这个地方一般不会出什么问题,
4、正文设置:这里比较关键了,大部分人可能都会在这里出问题。标题不用说了,分别填上 <title></title>
正文开始标记:
诀窍:多打开几个内容页面,找到这几个页面中的内容开始的地方,这里必须要找到每个页面中都有的代码片断,而且这些代码片断必须在每个页面中都是唯一的,也就是说,既要是每个内容页面中都有的,而且在某一个页面中又必须是唯一的,这个比较难,但是多花些工夫,总能找到的,这个时候复制代码片断必须要越少越好,越少就越能保证在每个内容页面中都会有这些代码,但是又不能太少,太少了在该页面中不能保证唯一,很容易出现重复的代码,这个必须要花些工夫多试几次,找到最精确的代码片断。
正文结束标记:同正文开始标记一样,
正文分页代码:基本原则和列表页的一样,这里就不多说了,
5、点击下一步,下一步,完成属性设置,项目基本上就完成了。
点击查看更多“动易采集全书”相关文章
|