注册

热榜排行爬虫详解

作为一个爬虫必须摸不一样的鱼,平时大家怎么看热榜,今天爬一个热榜数据,咱就在ied中读热榜。还是一个乌龙事件听我细细道来网站地址


1,话不多说,今天图也不看了直接进入主题,打开网站首页抓个包


image.png
2,可见接口中有两个参数,第二个参数盲猜是请求时候的时间戳,第一个参数有点长不像是正常的时间戳,多翻几页发现第一个参数也是一个时间戳只是后面加了三个000,咱们就去掉三个零(这里多请求了几页没有发现翻页的变化规律)


image.png
2.1,第二个参数转换发现就是请求时间没错


image.png
2.2,第一个参数转换瞬间我这充满智慧的大脑里出现了无数想法(这是随机的)(这是文章发布时间)(文章发布时间放到翻页怎么获取呢)(这是网站反爬生成一堆时间戳映射到page上做翻页)(这是通过算法和请求时间做比较生成对应的page进行翻页)(。。。)然后我就去了后台看看查一下这个参数名


image.png


image.png
只一眼,并带着对这种小网站的看不起,直接到response中一检索果然。小网站哪有什么高端反爬


image.png
3,直接上代码,翻页就不再多谢,拿到参数之后可以自己向下补充了

headers = {
'Accept': 'application/json, text/javascript, */*; q=0.01',
'Accept-Language': 'zh-CN,zh;q=0.9',
'Cache-Control': 'no-cache',
'Connection': 'keep-alive',
'Cookie': 'deviceId=web.eyJ0eXAiOiJKV1QiLCJhbGciOiJIUzI1NiJ9.eyJqaWQiOiJhNjNkZjYxZS00ODZhLTQzNTgtODNmMy1hNDlkMjdkMmI4ZmUiLCJleHBpcmUiOiIxNjY1MjIyMzY3MDAwIn0.eQF9za4cSq8huEESJPn0nDP3PUsDiVNZ4CM_fTAeWMg; Hm_lvt_03b2668f8e8699e91d479d62bc7630f1=1662630378',
'Pragma': 'no-cache',
'Referer': 'https://dig.chouti.com/',
'Sec-Fetch-Dest': 'empty',
'Sec-Fetch-Mode': 'cors',
'Sec-Fetch-Site': 'same-origin',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36',
'X-Requested-With': 'XMLHttpRequest',
'sec-ch-ua': '" Not A;Brand";v="99", "Chromium";v="100", "Google Chrome";v="100"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform': '"Windows"',
}
import time
params = {
'afterTime': '1681236005077000',
'_': f'{int(time.time()*1000)}',
}

response = requests.get('https://dig.chouti.com/link/hot', params=params, headers=headers).json()['data']
next_afterTime = response[-1]['operateTime']
print(next_afterTime)
for res in response:
title = res['title']
url = res['url']
print(title)
yes = input()
if yes == '1':
print(url)

4,ok这样的话就只需要看到想看的题目就输入1返回url,就可以自行观赏了,跑一下


VeryCapture_20230412162714.gif


作者:小爬菜
链接:https://juejin.cn/post/7221704414511513661
来源:稀土掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

0 个评论

要回复文章请先登录注册