回复“波波兰”的今日头条搜索结果采集问题
波波兰在本站文章下回复想要今日头条搜索资讯采集规则的问题。
我简单看了下页面发现这个挺好采集,下面就说下采集思路过程吧。
波波兰的提问:
博主,想付费求一份火车头采集今日头条资讯的规则
https://so.toutiao.com/search?keyword=%E5%81%A5%E5%BA%B7&pd=information&source=pagination&dvpf=pc&aid=4916&page_num=1
从波波兰提供的地址可以看到是搜索了健康相关的信息。今日头条返回了每10条为一页的搜索结果。
简单看了下搜索结果页发现规律挺好找的,所以也就不开采集器测试了。下面说下火车头实际采集时的各个重要项目参数。
列表页地址
这个列表页就是他的搜索结果,默认搜索后第一页地址是:https://so.toutiao.com/search?keyword=%E5%81%A5%E5%BA%B7&pd=information&source=input&dvpf=pc&aid=4916&page_num=0
第二页地址是:https://so.toutiao.com/search?keyword=%E5%81%A5%E5%BA%B7&pd=information&source=pagination&dvpf=pc&aid=4916&page_num=1
这就找到了他的列表页地址规律,可以在火车头批量生成。最大值需要自己去试一下。本文健康搜索结果为19页。测试其他搜索关键词返回结果也是19页左右。
你如果需要长期采集的话,可以循环采集第一页或者好几页,通过采集结果的文章URL来判断是否为新内容。。
文章页地址
在搜索结果中搜索http%3A%2F%2Fwww.toutiao.com%2Fa可以找到10条不重复的结果。如下图
在源码中这个URL地址是:/search/jump?url=http%3A%2F%2Fwww.toutiao.com%2Fa7031784134045499934%2F%3Fchannel%3D%26source%3Dsearch_tab&aid=4916&jtoken=e5cb68446a79ba5d6b844e3a2da048e723b91cda9ca1611352fb8b602bcbc8257e605a24a70fce0c6318a94aaee534ccedf3bcd6041c9d65a06364b0bf42bfa0
实际文章地址是:https://www.toutiao.com/a7031784134045499934/
对比可以发现我们可以提取http%3A%2F%2Fwww.toutiao.com%2Fa和%2F%3Fchannel%之间的数字,然后组合成URL地址。
好了,知道了列表页地址和文章URL地址后面的采集就不说了吧。
可以参考我之前写的采集今日头条的文章: