火车头采集器定时采集更新网站内容(长期做站必用)
火车头采集器定时采集更新网站内容(长期做站必用)
教程总目录:火车头采集器使用教程
前面的教程我们基本能完成网站内容的采集工作了。但是我们想要网站长期运行的话,肯定不能单靠一次采集来完成。
火车头自带的有计划任务功能,我们可以使用这个功能来实现定时运行采集任务。
另外我们采集的地址也需要做一些变更,提高采集效率。
1.采集地址设置
前面教程李我们的目的是把对方整站的内容给采集过来,所以采集列表里网址比较多,后面我们持续采集新内容的话就不能扫描整个网站这样来了。
我们只监控第一页即可,然后定时检测第一页有没有新内容,有新内容火车头会自动采集下来数据。没有的话扫描过后自动会停止。
以景安的文章为例https://server.zzidc.com/fwqjc/
这个是他的文章列表第一页,当景安更新了新内容,肯定会在第一页这里显示。我们就把第一页这个地址填入采集列表即可。这里不再重复说怎么填了吧,教程开头几篇文章写了
另外一点需要注意,因为我们定时运行时他要检测是不是采集过的文章,所以说我们不要清除火车头的采集数据。不然的话火车头检测发现文章都没采集过,都当做新文章采集了。
2.定时任务设置
本教程只创建了一个任务,如果你是长期运行一个网站。你网站每个版块可能都采集的是不同的文章来源,甚至一个版块才几个多个网站的文章。任务就非常多
我们可以批量添加定时任务
点击计划任务
我们先创建一个计划任务分组
然后在分组内添加计划任务,这样比较好管理
然后里面的间隔时间根据要采集的网站更新频率来设置,他更新快你就间隔时间短点。更新慢的话就长点,比如景安这个网站,可能几天几个月都不更新,就设置间隔时间为每天就行。
限定时间段
这个应该也都理解,就是计划任务在什么时间段内生效,默认是早上6点到晚上23点。我一般会给他改成全天的
扩展知识
因为采集任务长期运行,我们最好是将胡扯回头放到一台服务器上跑,家里有比较省电的机器的话也可以用来挂采集任务。
采集任务比较多的话还是挺消耗CPU的,一般建议在家里挂。家庭带宽外网IP经常变动有利于采集,而且硬件配置基本也都比买的服务器配置高。不用担心火车头运行着出现卡死的情况。