火车头采集器图片采集上传设置
火车头采集器图片采集上传设置
前面我们写了基础的标题和文章采集,下面介绍下图片的采集。
图片采集不是必须的,但是图片可以丰富网站的内容,具体我也不清楚对网站的SEO有什么影响。我测试采集图片和不采集图片收录没区别,我见到的一些采集站,大部分也是不采集图片的!
如果采集数据量比较大的话可以选择不采集图片。
正文开始
首先是火车头采集器上的设置。
我们以这个文章为例:https://server.zzidc.com/serverhosting/3117.html
这个里面有一张图片,并且也是前面我们教程里用做示范的网站。
声明:本人目前没使用任何景安的产品(以前用过),也对他产品印象不好。仅做教程示例,没有推荐他产品的意思。
我们直接打开前面教程创建的那个火车头采集任务。
在内容采集规则-内容-文件下载里面
选择:将相对地址补全为绝对地址、下载图片
文件地址必须包含:uploads/allimg
这个必须包含是根据不同网站来设置的,比如本文教程里文章图片地址是:
https://server.zzidc.com/uploads/allimg/191015/1-191015150925U2.png
那么除掉前面他网站域名和后面会产生变化的文件名和日期格式的目录名之外剩余的基本就是我们想要的内容,所以我这里让图片文件地址必须包含uploads/allimg。
为什么这么做?
因为他有可能在文章里加入图片广告,图片广告为了便于修改,大部分都是采用单独目录内放图片广告的方式。这样以后该广告比较容易。新老文章都能一次修改掉。
文件保存目录:i\m\g/yyyyMMdd
这个目录是你采集器的本地电脑和服务器里面要创建的目录,先存到本地然后上传到服务器里。
目录里面的\斜杠是因为默认img里面m和g会被火车头识别为内置函数(字母颜色会变绿),没办法正常解析,所以加上斜杠。正常的话是img/yyyyMMdd这样的
含义:表示保存到网站的/img目录下,然后根据年月日自动创建对应的目录。
然后是在内容的-HTML标签排除里面,我们去掉图像<img这个标签的排除。因为排除后我们发布后文章内就没有调用图片,自然不会显示图片内容。
然后我们进行图片的上传设置,我们采集时候顺序是,先将图片下载到本地,然后传到服务器这样一个步骤。
通过FTP的方式来上传。
先在宝塔面板上传建一个FTP账户,FTP默认目录要设置在我们网站跟目录。
采集器会根据我们上面的设置自己创建对应的目录。
注意:FTP使用的端口记得打开!21、20、39000-40000不打开端口你图片自然传不了。放行20和39000到40000这些端口是因为宝塔的FTP经常出现FTP连接错误的情况,这是另一个问题。这里不给大家解释了,不然篇幅太长了。
打开火车头采集器:其他设置、FTP文件上传、FTP上传
服务器:填写你的服务器IP地址
用户名/密码:刚才创建的FTP账户和密码
端口:默认21
文件上传根目录:/
次序:先发布数据
文件上传成功后删除本地文件:是
这里也可以选择否,选择是的话可以减少采集器所在机器磁盘的占用,而且上传成功的图片,也没必要在保留了。
设置好了之后我们点一下上传测试文件:
看下下面的框里显示的信息,有没有成功上传,并且打开网站目录内也看下有没有测试文件Test.zip被上传。
测试OK的话保存一下设置,我们测试下看看采集效果
https://server.zzidc.com/serverhosting/3117.html
把这个网址填入到网址采集规则里
因为我们测试的直接是一个内容页网址,所以网址采集规则下面我们要点一下:起始网址就是内容页网址
保存,然后清空任务采集数据
运行任务
看运行日志没问题,我们到网站上看看有没有发布上
文章正确进行了发布,4个图片都正常显示了
文章里开头我写的采集网址是/serverhosting/3117.html这个文章地址,后面截图里面的文章地址是fwqjc/2018/1203/2825.html这个。
没有影响,主要我写文章中间中断了一次去做其他事了。。