正文
火车头采集器采集文章重复解决办法
这两天重新给一个垃圾站开启采集工作。发现了一些问题是采集结果始终是重复2次。采集器默认设置里的“排除重复设置”不起作用。
经过研究发现可以在内容采集规则里排除重复达到效果。
建议使用标题来进行排除重复。

实际效果如下
会自动删除重复的内容。在数据库中查看已经没有重复的了。

这两天重新给一个垃圾站开启采集工作。发现了一些问题是采集结果始终是重复2次。采集器默认设置里的“排除重复设置”不起作用。
经过研究发现可以在内容采集规则里排除重复达到效果。
建议使用标题来进行排除重复。
实际效果如下
会自动删除重复的内容。在数据库中查看已经没有重复的了。