正文

回复“波波兰”的今日头条搜索结果采集问题

波波兰在本站文章下回复想要今日头条搜索资讯采集规则的问题。

我简单看了下页面发现这个挺好采集,下面就说下采集思路过程吧。

波波兰的提问:

博主,想付费求一份火车头采集今日头条资讯的规则
https://so.toutiao.com/search?keyword=%E5%81%A5%E5%BA%B7&pd=information&source=pagination&dvpf=pc&aid=4916&page_num=1

从波波兰提供的地址可以看到是搜索了健康相关的信息。今日头条返回了每10条为一页的搜索结果。

简单看了下搜索结果页发现规律挺好找的,所以也就不开采集器测试了。下面说下火车头实际采集时的各个重要项目参数。

列表页地址

这个列表页就是他的搜索结果,默认搜索后第一页地址是:https://so.toutiao.com/search?keyword=%E5%81%A5%E5%BA%B7&pd=information&source=input&dvpf=pc&aid=4916&page_num=0

第二页地址是:https://so.toutiao.com/search?keyword=%E5%81%A5%E5%BA%B7&pd=information&source=pagination&dvpf=pc&aid=4916&page_num=1

这就找到了他的列表页地址规律,可以在火车头批量生成。最大值需要自己去试一下。本文健康搜索结果为19页。测试其他搜索关键词返回结果也是19页左右。

你如果需要长期采集的话,可以循环采集第一页或者好几页,通过采集结果的文章URL来判断是否为新内容。。

文章页地址

在搜索结果中搜索http%3A%2F%2Fwww.toutiao.com%2Fa可以找到10条不重复的结果。如下图

回复“波波兰”的今日头条搜索结果采集问题

在源码中这个URL地址是:/search/jump?url=http%3A%2F%2Fwww.toutiao.com%2Fa7031784134045499934%2F%3Fchannel%3D%26source%3Dsearch_tab&aid=4916&jtoken=e5cb68446a79ba5d6b844e3a2da048e723b91cda9ca1611352fb8b602bcbc8257e605a24a70fce0c6318a94aaee534ccedf3bcd6041c9d65a06364b0bf42bfa0

实际文章地址是:https://www.toutiao.com/a7031784134045499934/

对比可以发现我们可以提取http%3A%2F%2Fwww.toutiao.com%2Fa和%2F%3Fchannel%之间的数字,然后组合成URL地址。


好了,知道了列表页地址和文章URL地址后面的采集就不说了吧。

可以参考我之前写的采集今日头条的文章:

火车头采集今日头条文章的教程