上一篇《站长利刃?ET采集器之采集篇(上)》https://www.234du.com/post-62.html
主要讲列表的采集
下面是采集文章内容步骤
1、打开“采集页”
把“待选数据项”中的“标题”和“正文”,选择到“本页采集项”,点击保存
2、打开“数据整理”
选中“标题整理”,在右中部点击“预设规则整理”,保存即可
“正文整理”步骤同上
3、打开“数据项”
选中“标题”,在右边勾选“匹配多条内容”,如果要伪原创,前面勾选即可(一般不建议对标题伪原创)
下面的“正文”步骤同上
采集目标内容(http://www.jpww8.com/love/qingganwenzhang/2011/1217/19329.html)
标题采集规则:<h2><%content%></h2>
正文:<div class="content"><%content%>(责任编辑
如果出现如下图所示
这就说明采集规则错误
首先检查第三部中的“标题规则”,然后在检查上一篇中的“列表分析规则”
这里是因为“列表分析规则”中规则错误导致。
修改后采集如下图
文章评论